論文の概要: HALO: A Unified Vision-Language-Action Model for Embodied Multimodal Chain-of-Thought Reasoning
- arxiv url: http://arxiv.org/abs/2602.21157v2
- Date: Fri, 27 Feb 2026 18:18:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.677675
- Title: HALO: A Unified Vision-Language-Action Model for Embodied Multimodal Chain-of-Thought Reasoning
- Title(参考訳): HALO:マルチモーダル・オブ・サート推論のための統合ビジョン・ランゲージ・アクションモデル
- Authors: Quanxin Shou, Fangqi Zhu, Shawn Chen, Puxin Yan, Zhengyang Yan, Yikun Miao, Xiaoyi Pang, Zicong Hong, Ruikai Shi, Hao Huang, Jie Zhang, Song Guo,
- Abstract要約: VLA(Vision-Language-Action)モデルは、ロボット操作において強力な性能を示しているが、長い水平またはアウト・オブ・ディストリビューションのシナリオでしばしば苦労している。
本稿では,マルチモーダル・チェーン・オブ・シークレット(EM-CoT)推論を可能にする統一VLAモデルであるHALOを提案する。
HALOをMixture-of-Transformers (MoT)アーキテクチャでインスタンス化し、セマンティック推論、視覚的予測、行動予測を専門の専門家に分離する。
- 参考スコア(独自算出の注目度): 23.266655371621965
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language-Action (VLA) models have shown strong performance in robotic manipulation, but often struggle in long-horizon or out-of-distribution scenarios due to the lack of explicit mechanisms for multimodal reasoning and anticipating how the world will evolve under action. Recent works introduce textual chain-of-thought or visual subgoal prediction within VLA models to reason, but still fail to offer a unified human-like reasoning framework for joint textual reasoning, visual foresight, and action prediction. To this end, we propose HALO, a unified VLA model that enables embodied multimodal chain-of-thought (EM-CoT) reasoning through a sequential process of textual task reasoning, visual subgoal prediction for fine-grained guidance, and EM-CoT-augmented action prediction. We instantiate HALO with a Mixture-of-Transformers (MoT) architecture that decouples semantic reasoning, visual foresight, and action prediction into specialized experts while allowing seamless cross-expert collaboration. To enable HALO learning at scale, we introduce an automated pipeline to synthesize EM-CoT training data along with a carefully crafted training recipe. Extensive experiments demonstrate that: (1) HALO achieves superior performance in both simulated and real-world environments, surpassing baseline policy pi_0 by 34.1% on RoboTwin benchmark; (2) all proposed components of the training recipe and EM-CoT design help improve task success rate; and (3) HALO exhibits strong generalization capabilities under aggressive unseen environmental randomization with our proposed EM-CoT reasoning.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは、ロボット操作において強力なパフォーマンスを示しているが、多モーダル推論の明確なメカニズムの欠如と、世界が動作中にどのように進化するかを予測するために、長い水平またはアウト・オブ・ディストリビューションのシナリオでしばしば苦労している。
近年の研究では、VLAモデル内でのテキスト・チェーン・オブ・シークエンスや視覚的サブゴール予測を導入しているが、共同テキスト・推論、視覚的フォレスト、行動予測のための統一的なヒューマンライクな推論フレームワークの提供には失敗している。
そこで本稿では,テキストタスク推論,微粒化誘導のための視覚的サブゴール予測,EM-CoT拡張動作予測の逐次的プロセスを通じて,マルチモーダル・チェーン・オブ・シークレット(EM-CoT)推論を可能にする統一VLAモデルであるHALOを提案する。
HALOをMixture-of-Transformers (MoT)アーキテクチャでインスタンス化し、セマンティック推論、ビジュアルフォレスト、アクション予測を専門の専門家に分離し、シームレスなクロスエキスパートコラボレーションを可能にします。
大規模なHALO学習を可能にするために,EM-CoTトレーニングデータと慎重に構築されたトレーニングレシピを合成する自動パイプラインを導入する。
大規模実験では,(1) HALOは,ロボツインベンチマークの基準方針pi_0を34.1%上回り,シミュレーション環境と実環境環境の両方において優れた性能を達成し,(2) トレーニングレシピとEM-CoT設計のすべてのコンポーネントがタスク成功率の向上に寄与し,(3) HALOは,提案したEM-CoT推論による積極的な環境ランダム化の下で,強力な一般化能力を示す。
関連論文リスト
- Beyond Language Modeling: An Exploration of Multimodal Pretraining [125.34714978184638]
我々は、制御されたオフスクラッチ事前学習実験を通して経験的明瞭度を提供する。
我々はトランスフュージョン・フレームワークを採用し、言語と視覚の拡散を次々に予測する。
我々は、MoEアーキテクチャが、言語によって要求される高いモデル容量を提供することにより、このスケーリング非対称性を調和させることを実証する。
論文 参考訳(メタデータ) (2026-03-03T18:58:00Z) - Self-Correcting VLA: Online Action Refinement via Sparse World Imagination [55.982504915794514]
本稿では, 自己補正VLA (SC-VLA) を提案する。
SC-VLAは最先端のパフォーマンスを達成し、最高タスクスループットを16%削減し、最高パフォーマンスのベースラインよりも9%高い成功率を得る。
論文 参考訳(メタデータ) (2026-02-25T06:58:06Z) - Causal World Modeling for Robot Control [56.31803788587547]
ビデオワールドモデルは、アクションと視覚力学の因果関係を理解することによって、近い将来に想像できる能力を提供する。
本稿では,フレーム予測とポリシ実行を同時に学習する自動回帰拡散フレームワークLingBot-VAを紹介する。
シミュレーションベンチマークと実世界のシナリオの両方でモデルを評価したところ、長距離操作、ポストトレーニングにおけるデータ効率、新しい構成への強力な一般化性などに大きな可能性を示唆している。
論文 参考訳(メタデータ) (2026-01-29T17:07:43Z) - Hybrid Training for Vision-Language-Action Models [10.451756630631609]
本稿では,視覚言語モデルを用いて思考から学習し,関連するパフォーマンス向上の恩恵を受けることができるフレームワークを提案する。
多様な出力のセットを条件付きで予測することを学ぶことで、HyTは推論時の柔軟性をサポートし、モデルが直接アクションを予測するか、思考を生成するか、指示に従うことができる。
論文 参考訳(メタデータ) (2025-10-01T07:27:15Z) - GoIRL: Graph-Oriented Inverse Reinforcement Learning for Multimodal Trajectory Prediction [35.36975133932852]
周囲のエージェントの軌道予測は自動運転の課題である。
本稿では,ベクトル化された文脈表現を備えたIRLベースの予測器であるグラフ指向逆強化学習フレームワークを提案する。
提案手法は,大規模Argoverse & nuScenesモーション予測ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2025-06-26T09:46:53Z) - HybridVLA: Collaborative Diffusion and Autoregression in a Unified Vision-Language-Action Model [54.64088247291416]
操作ポリシー設計の基本的な目的は、ロボットに人間の指示を理解し、シーンの手がかりを推論し、動的な環境で一般化されたアクションを実行することである。
近年の自己回帰的視覚言語行動(VLA)法は、視覚言語モデル(VLM)から常識推論能力を継承し、次の行動予測を行う。
拡散に基づく行動の連続的な性質と自己回帰の文脈的推論を吸収する統合フレームワークであるHybridVLAを紹介する。
論文 参考訳(メタデータ) (2025-03-13T17:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。