論文の概要: BlockVLA: Accelerating Autoregressive VLA via Block Diffusion Finetuning
- arxiv url: http://arxiv.org/abs/2605.13382v1
- Date: Wed, 13 May 2026 11:37:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:28.017137
- Title: BlockVLA: Accelerating Autoregressive VLA via Block Diffusion Finetuning
- Title(参考訳): BlockVLA: Block Diffusion Finetuningによる自動回帰VLAの高速化
- Authors: Ruiheng Wang, Shuanghao Bai, Haoran Zhang, Badong Chen, Xiangyu Xu,
- Abstract要約: BlockVLAは、事前訓練されたARバックボーンを効率的な離散拡散ポリシーに適合させるフレームワークである。
LIBERO と SimplerEnv のベンチマークを広範囲に評価する。
本モデルでは, トレーニング効率が向上し, 成功率がベースラインよりもかなり高速に収束する。
- 参考スコア(独自算出の注目度): 41.5997751218601
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While autoregressive (AR) Vision-Language-Action (VLA) models have demonstrated formidable reasoning capabilities in robotic tasks, their sequential decoding process often incurs high inference latency and may amplify error accumulation during long-horizon execution. Discrete Diffusion Language Models (dLLMs) provide a promising alternative through parallel token refinement, but their practical deployment in robotics remains limited by repeated denoising function evaluations (NFEs) and the difficulty of directly applying standard KV caching to bidirectional iterative decoding. To bridge these paradigms, we propose BlockVLA, a framework that adapts pretrained AR backbones into an efficient discrete diffusion policy through a block diffusion paradigm. BlockVLA maintains autoregressive dependencies at the block level while enabling parallel denoising within each block, thereby combining global causal coherence with local parallel generation. This design enables prefix KV-cache reuse across completed blocks, reduces the effective cost of iterative denoising, and provides a smoother transition from AR pretraining to diffusion-based policy fine-tuning. We conduct extensive evaluations on the LIBERO and SimplerEnv benchmarks. Experimental results demonstrate that our BlockVLA achieves a 3.3$\times$ inference acceleration over standard discrete diffusion baselines. Furthermore, our model exhibits superior training efficiency, with success rates converging substantially faster than baselines, a gain that is particularly pronounced in complex, long-horizon tasks, where BlockVLA achieves significant performance gains in the early stages of training. This work establishes Block Diffusion as a robust bridge between large-scale pretrained AR models and efficient, high-frequency real-time robotic control.
- Abstract(参考訳): オートレグレッシブ(AR)ビジョン・ランゲージ・アクション(VLA)モデルは、ロボットタスクにおいて重大な推論能力を示したが、シーケンシャルデコーディングプロセスは、しばしば高い推論遅延を引き起こし、長時間水平実行中にエラーの蓄積を増幅する可能性がある。
離散拡散言語モデル(dLLMs)は、並列トークンの改良を通じて有望な代替手段を提供するが、ロボットへの実践的な展開は、繰り返しデノナイジング関数評価(NFEs)と、標準KVキャッシュを双方向反復復号法に直接適用することの難しさによって制限されている。
これらのパラダイムを橋渡しするために,事前学習されたARバックボーンをブロック拡散パラダイムを介して効率的な離散拡散ポリシーに適応させるフレームワークであるBlockVLAを提案する。
BlockVLAはブロックレベルで自己回帰的依存関係を維持しつつ、各ブロック内で並列化を可能にし、グローバル因果コヒーレンスと局所並列生成を組み合わせる。
この設計により、完了したブロック間でのプレフィックスKV-cacheの再利用が可能となり、反復復調の効果的なコストを低減し、ARプリトレーニングから拡散ベースのポリシー微調整へのスムーズな移行を提供する。
LIBERO と SimplerEnv のベンチマークを広範囲に評価する。
実験の結果、BlockVLAは標準の離散拡散基底線上で3.3$\times$推論加速度を達成することが示された。
さらに,BlockVLAが訓練の初期段階において顕著な性能向上を達成できるような,複雑で長期のタスクにおいて特に顕著な成功率であるベースラインよりもかなり高速に収束し,トレーニング効率が向上することを示す。
この研究はBlock Diffusionを、大規模な事前訓練されたARモデルと、効率的で高周波なリアルタイムロボット制御の間の堅牢なブリッジとして確立している。
関連論文リスト
- BARD: Bridging AutoRegressive and Diffusion Vision-Language Models Via Highly Efficient Progressive Block Merging and Stage-Wise Distillation [9.248424980709453]
本稿では,事前学習した自己回帰VLMを大ブロック拡散VLMに変換する,シンプルで効果的なブリッジングフレームワークであるBARDについて述べる。
$leq$4.4Mのデータにより、BARD-VLはQwen3-VLから大きなブロックdVLMに強いマルチモーダル機能を提供する。
論文 参考訳(メタデータ) (2026-04-15T09:17:38Z) - Fast-dVLM: Efficient Block-Diffusion VLM via Direct Conversion from Autoregressive VLM [58.322826487307765]
我々は,KV-cache互換並列デコードと推測ブロックデコードが可能なブロック拡散型VLMであるFast-dVLMを提案する。
SGLangの統合とFP8量子化により、Fast-dVLMはARベースライン上でのエンドツーエンドの推論速度を6倍以上に向上する。
論文 参考訳(メタデータ) (2026-04-08T08:50:08Z) - Causal Autoregressive Diffusion Language Model [70.7353007255797]
CARDは厳密な因果注意マスク内の拡散過程を再構成し、単一の前方通過で密集した1対1の監視を可能にする。
我々の結果は,CARDが並列生成のレイテンシの利点を解放しつつ,ARMレベルのデータ効率を実現することを示す。
論文 参考訳(メタデータ) (2026-01-29T17:38:29Z) - SDAR-VL: Stable and Efficient Block-wise Diffusion for Vision-Language Understanding [25.2227348401136]
ブロック単位の離散拡散は、並列生成と因果依存性モデリングの間の魅力的なバランスを提供する。
大規模視覚言語理解へのブロックワイド離散拡散の最初の体系的応用である textbfSDAR-VL を提案する。
SDAR-VLは従来のブロック拡散よりも、エンハンチング効率、エンハンスコンバージェンス安定性、およびエンハンサック性能を一貫して改善することを示す。
論文 参考訳(メタデータ) (2025-12-16T04:12:52Z) - Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach [78.4812458793128]
動作チャンクの高忠実度検証に軽量な擬数推定器を適用したテスト時間スケーリングフレームワークである textbfTACO を提案する。
我々の手法は、オフライン強化学習(RL)における古典的な反探索原理に似ており、勾配のないため、計算上の大きな恩恵をもたらす。
論文 参考訳(メタデータ) (2025-12-02T14:42:54Z) - Fast-dLLM v2: Efficient Block-Diffusion LLM [64.38006546510337]
Fast-dLLM v2はブロック拡散言語モデルで、訓練済みのARモデルをdLLMに適応して並列テキストを生成する。
これは、Dream(580Bトークン)のようなフルアテンション拡散LDMと比較して、トレーニングデータの500倍の減少を示す。
論文 参考訳(メタデータ) (2025-09-30T14:40:18Z) - Discrete Diffusion VLA: Bringing Discrete Diffusion to Action Decoding in Vision-Language-Action Policies [62.653984010274485]
VLA(Vision-Language-Action)モデルは、画像や命令をロボットアクションにマッピングするために、大きな視覚言語バックボーンを適応させる。
prevailingAsは、固定された左から右への順序で自動回帰的にアクションを生成するか、バックボーンの外側で分離または拡散ヘッドをアタッチする。
本稿では離散拡散を伴う離散化作用チャンクをモデル化する統一変換器ポリシである離散拡散VLAを提案する。
論文 参考訳(メタデータ) (2025-08-27T17:39:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。