論文の概要: Revisiting Embodied Chain-of-Thought for Generalizable Robot Manipulation
- arxiv url: http://arxiv.org/abs/2606.03784v2
- Date: Wed, 03 Jun 2026 08:29:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 17:40:41.639961
- Title: Revisiting Embodied Chain-of-Thought for Generalizable Robot Manipulation
- Title(参考訳): 一般化可能なロボットマニピュレーションのためのボディード・オブ・サートの再検討
- Authors: Nan Sun, Yuan Zhang, Yongkun Yang, Wentao Zhao, Peiyan Li, Jun Guo, Wenxuan Song, Pengxiang Ding, Runze Suo, Yifei Su, Xin Xiao, Xinghang Li, Huaping Liu,
- Abstract要約: CoT(Embodied chain-of- Thought)は、言語推論とロボット制御を橋渡しすることを目的としている。
現在までに最大規模のCoTコーパスを構築しており,978,743軌道,226.3Mサンプル,2592.5時間ロボットデータで構成されている。
- 参考スコア(独自算出の注目度): 24.465551417061494
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Embodied chain-of-thought (CoT) aims to bridge linguistic reasoning and robotic control, but its effective form and integration strategy remain underexplored. In this paper, we revisit embodied CoT for vision-language-action (VLA) models at large scale. We construct the largest embodied CoT corpus to date, comprising 978,743 trajectories, 226.3M samples, and 2592.5 hours of robot data. Through extensive experiments, we find that effective embodied CoT should ground high-level semantic understanding into concrete action guidance, such as end-effector movement descriptions and image-space trajectories, while high-level reasoning alone brings only marginal gains. We further show that explicit CoT does not scale reliably when used as an autoregressive action prefix, as it suffers from compounding inference errors and unstable reasoning-action coupling. To address these limitations, we propose ERVLA, a VLA model that uses embodied CoT as representation-shaping supervision rather than mandatory test-time reasoning. ERVLA is trained with a reasoning-dropout strategy, enabling the model to absorb rich reasoning traces during training while predicting actions directly without CoT decoding during inference. This design improves scalability with increasing pre-training data and avoids autoregressive instability. ERVLA achieves state-of-the-art performance on LIBERO-Plus with an 86.9% success rate and reaches 53.2% success rate on VLABench, demonstrating strong out-of-distribution generalization. In real-robot experiments, ERVLA further outperforms competitive state-of-the-art baselines, especially on tasks requiring semantic disambiguation and long-horizon execution.
- Abstract(参考訳): CoT(Embodied chain-of- Thought)は、言語推論とロボット制御を橋渡しすることを目的としているが、その効果的な形態と統合戦略は未解明のままである。
本稿では,視覚言語アクションモデル(VLA)を大規模に実装したCoTを再検討する。
現在までに最大規模のCoTコーパスを構築しており,978,743軌道,226.3Mサンプル,2592.5時間ロボットデータで構成されている。
広範にわたる実験により,実効的なCoTは,エンドエフェクタ運動の記述や画像空間の軌跡などの具体的な行動指導に高レベルな意味的理解を基盤とすべきであり,高レベルな推論だけでは限界的な利得しか得られないことがわかった。
さらに,予測誤差と不安定な推論・動作結合に悩まされる自己回帰的行動プレフィックスとして使用する場合,明示的なCoTは確実にスケールしないことを示す。
これらの制約に対処するため,実装されたCoTを強制的なテスト時間推論ではなく,表現形成の監視として利用するVLAモデルであるERVLAを提案する。
ERVLAは推論ドロップアウト戦略でトレーニングされており、モデルがトレーニング中にリッチな推論トレースを吸収し、推論中にCoTデコードなしで直接アクションを予測することができる。
この設計では、事前トレーニングデータの増加によりスケーラビリティが向上し、自動回帰不安定を回避する。
ERVLAは、LIBERO-Plusの最先端のパフォーマンスを86.9%の成功率で達成し、VLABenchで53.2%の成功率に達し、配布外一般化の強さを示している。
ERVLAは実際のロボット実験において、特にセマンティックな曖昧さと長時間の水平実行を必要とするタスクにおいて、競争力のある最先端のベースラインよりも優れている。
関連論文リスト
- VLA-ATTC: Adaptive Test-Time Compute for VLA Models with Relative Action Critic Model [54.35791816657227]
適応型テスト時間計算でVLAモデルを実現するフレームワークである textbfVLA-ATTC' を導入する。
VLA-ATTCは、不確実性に基づく認知クラッチ'を用いて、反射的実行からTTC熟考フェーズへ動的に移行する。
LIBERO-LONGベンチマークでは、VLA-ATTCはSOTAモデルPI0.5の故障率を50%以上削減する。
論文 参考訳(メタデータ) (2026-05-02T02:13:11Z) - Rethinking Visual-Language-Action Model Scaling: Alignment, Mixture, and Regularization [65.37179698521766]
VLA(Vision-Language-Action)モデルは、ジェネラリストロボットの制御を強く約束する。
標準的な「スケールデータ」レシピがロボット工学に翻訳されるかどうかはまだ不明だ。
本稿では,多様なロボットを対象とした事前学習のためのコアトレーニング選択を再考する,VLAスケーリングの体系的かつ制御された研究を提案する。
論文 参考訳(メタデータ) (2026-02-10T12:25:43Z) - Reshaping Action Error Distributions for Reliable Vision-Language-Action Models [69.38615670891038]
ロボット操作において、視覚言語アクション(VLA)モデルは、一般化可能でスケーラブルなロボットポリシーを学ぶための有望なパラダイムとして登場した。
連続動作型VLAモデルに焦点をあて、トレーニング中の動作誤差分布を再構成することにより、従来のMSEベースの回帰を超越する。
複数の代表的VLAアーキテクチャ上で、標準、少数ショット、ノイズの多い設定にまたがるアプローチを評価します。
論文 参考訳(メタデータ) (2026-02-04T05:37:09Z) - Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach [78.4812458793128]
動作チャンクの高忠実度検証に軽量な擬数推定器を適用したテスト時間スケーリングフレームワークである textbfTACO を提案する。
我々の手法は、オフライン強化学習(RL)における古典的な反探索原理に似ており、勾配のないため、計算上の大きな恩恵をもたらす。
論文 参考訳(メタデータ) (2025-12-02T14:42:54Z) - DualVLA: Building a Generalizable Embodied Agent via Partial Decoupling of Reasoning and Action [62.70893433854428]
推論能力を維持しつつ、慎重に設計した後処理により動作性能を向上させるDualVLAを提案する。
実験の結果、DualVLAはSimplerEnvの平均成功率は61.0であり、8つの競合するマルチモーダルベンチマークの平均スコアは65.4であることがわかった。
論文 参考訳(メタデータ) (2025-11-27T06:03:53Z) - DeepThinkVLA: Enhancing Reasoning Capability of Vision-Language-Action Models [51.76664843721462]
DeepThinkVLAはVision-Language-Actionモデルのための新しいアーキテクチャである。
因果的注意を伴うシーケンシャルCoTを生成し、双方向の注意に切り替え、アクションベクトルを高速に復号する。
LIBEROベンチマークで97.0%の成功率を達成した。
論文 参考訳(メタデータ) (2025-10-31T05:26:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。