論文の概要: DeepThinkVLA: Enhancing Reasoning Capability of Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2511.15669v1
- Date: Fri, 31 Oct 2025 05:26:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-23 18:31:12.354499
- Title: DeepThinkVLA: Enhancing Reasoning Capability of Vision-Language-Action Models
- Title(参考訳): DeepThinkVLA:ビジョン・ランゲージ・アクションモデルの推論能力向上
- Authors: Cheng Yin, Yankai Lin, Wang Xu, Sikyuen Tam, Xiangrui Zeng, Zhiyuan Liu, Zhouping Yin,
- Abstract要約: DeepThinkVLAはVision-Language-Actionモデルのための新しいアーキテクチャである。
因果的注意を伴うシーケンシャルCoTを生成し、双方向の注意に切り替え、アクションベクトルを高速に復号する。
LIBEROベンチマークで97.0%の成功率を達成した。
- 参考スコア(独自算出の注目度): 51.76664843721462
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Enabling Vision-Language-Action (VLA) models to "think before acting" via Chain-of-Thought (CoT) is a promising path to overcoming the data-hungry nature of end-to-end robot policies. However, progress is stalled by a fundamental conflict: existing models use a single autoregressive decoder for both sequential CoT reasoning and high-dimensional, parallelizable robot actions. This architectural mismatch degrades motor control and fails to forge a strong causal link between thought and action. We introduce DeepThinkVLA, which resolves this conflict through a tightly integrated architecture and training strategy. Architecturally, our hybrid-attention decoder generates sequential CoT with causal attention and then switches to bidirectional attention for fast, parallel decoding of action vectors. This design is complemented by a two-stage training pipeline: we first use Supervised Fine-Tuning (SFT) to teach the model foundational reasoning, then apply Reinforcement Learning (RL) with task-success rewards to causally align the full reasoning-action sequence with desired outcomes. This synergy leads to state-of-the-art performance, achieving a 97.0% success rate on the LIBERO benchmark. Our ablations confirm the design's effectiveness: the hybrid architecture alone outperforms standard decoders by 15.5%, and the final RL stage provides a crucial 2% boost to secure top performance.
- Abstract(参考訳): ビジョン・ランゲージ・アクション(VLA:Enabling Vision-Language-Action)は、Chain-of-Thought (CoT)を介して「行動する前に考える」ためのモデルである。
既存のモデルは、シーケンシャルなCoT推論と高次元の並列化可能なロボットアクションの両方に単一の自己回帰デコーダを使用する。
このアーキテクチャミスマッチはモーター制御を劣化させ、思考と行動の間に強い因果関係を築けない。
私たちは、密に統合されたアーキテクチャとトレーニング戦略を通じて、この対立を解決するDeepThinkVLAを紹介します。
アーキテクチャ上、我々のハイブリッドアテンションデコーダは因果的注意を伴う逐次CoTを生成し、高速かつ並列なアクションベクトルの復号のために双方向の注意に切り替える。
このデザインは、2段階のトレーニングパイプラインによって補完されます。まず最初に、モデルの基礎的推論を教えるためにSupervised Fine-Tuning (SFT)を使用します。
このシナジーは最先端のパフォーマンスをもたらし、LIBEROベンチマークで97.0%の成功率を達成した。
ハイブリッドアーキテクチャだけで標準デコーダを15.5%上回り、最終RLステージは最高のパフォーマンスを確保するために重要な2%のアップを提供する。
関連論文リスト
- VLA-R1: Enhancing Reasoning in Vision-Language-Action Models [35.264042764326895]
VLA(Vision-Language-Action)モデルは、知覚、言語理解、行動生成を統一することを目的としている。
現在のVLAモデルは、しばしば明示的なステップバイステップ推論を欠いている。
本稿では,検証リワードからの強化学習を統合した推論強化VLAであるVLA-R1を提案する。
論文 参考訳(メタデータ) (2025-10-02T02:54:03Z) - How LLMs Learn to Reason: A Complex Network Perspective [14.638878448692493]
Reinforcement Learning from Verifiable Rewards による大規模言語モデルのトレーニングは、突飛な振る舞いのセットを示している。
この現象は単一統一理論を用いて説明できると考えられる。
私たちの研究は、将来のAIシステムの創発的な推論能力をエンジニアリングするための新しい物理的直感を提供します。
論文 参考訳(メタデータ) (2025-09-28T04:10:37Z) - Efficient Generative Model Training via Embedded Representation Warmup [12.485320863366411]
生成モデルは基本的な課題に直面し、高いレベルのセマンティック概念と低レベルの合成の詳細を同時に学ばなければならない。
基本的2相学習フレームワークである組込み表現ワームアップを提案する。
このフレームワークは,REPAのような単一位相法と比較して,FID=1.41に達するために350エポックで11.5$times$の高速化を実現している。
論文 参考訳(メタデータ) (2025-04-14T12:43:17Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z) - Building Robust Ensembles via Margin Boosting [98.56381714748096]
敵のロバスト性においては、単一のモデルは通常、全ての敵の攻撃に対して十分な力を持っていない。
我々は最大利得のアンサンブルを学習するアルゴリズムを開発した。
提案アルゴリズムは,既存のアンサンブル技術に勝るだけでなく,エンド・ツー・エンドで訓練された大規模モデルにも勝ることを示す。
論文 参考訳(メタデータ) (2022-06-07T14:55:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。