論文の概要: ChatVLA-2: Vision-Language-Action Model with Open-World Embodied Reasoning from Pretrained Knowledge
- arxiv url: http://arxiv.org/abs/2505.21906v2
- Date: Thu, 29 May 2025 23:34:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 12:43:13.122147
- Title: ChatVLA-2: Vision-Language-Action Model with Open-World Embodied Reasoning from Pretrained Knowledge
- Title(参考訳): ChatVLA-2: 事前知識を用いたオープンワールドエンボディード推論による視覚・言語・アクションモデル
- Authors: Zhongyi Zhou, Yichen Zhu, Junjie Wen, Chaomin Shen, Yi Xu,
- Abstract要約: 視覚言語アクション(VLA)モデルは、ロボット工学の次世代モデルとして登場した。
既存のエンドツーエンドのVLAシステムは、モデルが特定のロボットタスクに適応するため、微調整中に重要な機能を失うことが多い。
一般化可能なVLAモデルは、VLMのコア能力を維持し拡張するべきである。
- 参考スコア(独自算出の注目度): 14.143521529613533
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language-action (VLA) models have emerged as the next generation of models in robotics. However, despite leveraging powerful pre-trained Vision-Language Models (VLMs), existing end-to-end VLA systems often lose key capabilities during fine-tuning as the model adapts to specific robotic tasks. We argue that a generalizable VLA model should retain and expand upon the VLM's core competencies: 1) Open-world embodied reasoning - the VLA should inherit the knowledge from VLM, i.e., recognize anything that the VLM can recognize, be capable of solving math problems, and possess visual-spatial intelligence, 2) Reasoning following - effectively translating the open-world reasoning into actionable steps for the robot. In this work, we introduce ChatVLA-2, a novel mixture-of-expert VLA model coupled with a specialized two-stage training pipeline designed to preserve the VLM's original strengths while enabling actionable reasoning. To validate our approach, we design a math-matching task wherein a robot interprets math problems written on a whiteboard and picks corresponding number cards from a table to solve equations. Remarkably, our method exhibits exceptional mathematical reasoning and OCR capabilities, despite these abilities not being explicitly trained within the VLA. Furthermore, we demonstrate that the VLA possesses strong spatial reasoning skills, enabling it to interpret novel directional instructions involving previously unseen objects. Overall, our method showcases reasoning and comprehension abilities that significantly surpass state-of-the-art imitation learning methods such as OpenVLA, DexVLA, and pi-zero. This work represents a substantial advancement toward developing truly generalizable robotic foundation models endowed with robust reasoning capacities.
- Abstract(参考訳): 視覚言語アクション(VLA)モデルは、ロボット工学の次世代モデルとして登場した。
しかしながら、強力なトレーニング済みビジョンランゲージモデル(VLM)を活用するにもかかわらず、既存のエンドツーエンドのVLAシステムは、モデルが特定のロボットタスクに適応するため、微調整時に重要な機能を失うことが多い。
一般化可能なVLAモデルは,VLMのコア能力を維持し,拡張するべきだ,と我々は主張する。
1) オープンワールドの具体的推論 - VLAはVLMから知識を継承すべきであり、すなわち、VLMが認識できるものは何でも認識し、数学の問題を解き、視覚空間知性を持っている。
2) ロボットの動作可能なステップへのオープンワールド推論を効果的に翻訳する。
本研究は,VLMの本来の強度を保ちつつ,動作可能な推論を可能にしつつ,特殊な2段階のトレーニングパイプラインを組み込んだ,新しいVLAモデルであるChatVLA-2を紹介する。
提案手法を検証するために,ロボットがホワイトボードに記述された数学問題を解釈し,テーブルから対応する数カードを選択し,方程式を解く数学マッチングタスクを設計する。
注目すべきは,これらの能力はVLA内で明示的に訓練されていないにもかかわらず,例外的な数学的推論とOCR能力を示すことである。
さらに,VLAには強い空間推論能力があり,未確認物体を含む新規な方向指示を解釈できることを示す。
提案手法は,OpenVLA,DexVLA,pi-zeroといった最先端の模倣学習手法をはるかに超える推論能力と理解能力を示す。
この研究は、頑健な推論能力を備えた、真に一般化可能なロボット基礎モデルを開発するための大きな進歩を示している。
関連論文リスト
- CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models [89.44024245194315]
視覚言語行動モデル(VLA)に明示的な視覚連鎖(CoT)推論を組み込む手法を提案する。
視覚およびアクショントークンの理解と生成が可能な最先端の7B VLAであるCoT-VLAを紹介する。
実験の結果,CoT-VLAは実世界の操作タスクでは17%,シミュレーションベンチマークでは6%,最先端のVLAモデルでは6%,高い性能を示した。
論文 参考訳(メタデータ) (2025-03-27T22:23:04Z) - Reflective Planning: Vision-Language Models for Multi-Stage Long-Horizon Robotic Manipulation [90.00687889213991]
複雑な長距離ロボット操作問題を解決するには、高度な高レベルの計画能力が必要である。
インターネット上で事前訓練された視覚言語モデル(VLM)は、原則としてそのような問題に対処するためのフレームワークを提供する。
本稿では,多段階操作タスクにおけるVLMの物理推論能力を高める新しいテストタイムフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-23T20:42:15Z) - ReVLA: Reverting Visual Domain Limitation of Robotic Foundation Models [55.07988373824348]
既存の3つのロボット基礎モデルの視覚的一般化能力について検討する。
本研究は,既存のモデルがドメイン外シナリオに対する堅牢性を示していないことを示す。
モデルマージに基づく段階的なバックボーンリバーサルアプローチを提案する。
論文 参考訳(メタデータ) (2024-09-23T17:47:59Z) - TinyVLA: Towards Fast, Data-Efficient Vision-Language-Action Models for Robotic Manipulation [32.406783380729024]
VLA(Vision-Language-Action)モデルは、エンド・ツー・エンドの学習プロセスを通じて、視覚運動制御と命令理解において顕著な可能性を示している。
現在のVLAモデルは、推論中に遅くなり、大量のロボットデータに対して広範な事前トレーニングを必要としているため、重大な課題に直面している。
既存のVLAモデルに対して2つのアドバンテージを提供する,TinyVLAと呼ばれる,コンパクトな視覚言語アクションモデルを導入した。
論文 参考訳(メタデータ) (2024-09-19T07:10:18Z) - Robotic Control via Embodied Chain-of-Thought Reasoning [86.6680905262442]
学習したロボット制御ポリシーの鍵となる制限は、トレーニングデータの外部で一般化できないことである。
視覚言語行動モデル(VLA)に関する最近の研究は、大規模なインターネット事前学習型視覚言語モデルを使用することで、その堅牢性と一般化能力を大幅に向上させることができることを示した。
ロボットの動作を予測する前に、VLAに対して、計画、サブタスク、動作、視覚的接地機能について複数の推論を行うために、VLAに対してEmbodied Chain-of-Thought Reasoning (ECoT)を導入する。
論文 参考訳(メタデータ) (2024-07-11T17:31:01Z) - MOKA: Open-World Robotic Manipulation through Mark-Based Visual Prompting [97.52388851329667]
我々は,自由形式の言語命令で指定されたロボット操作タスクを解決するために,マーキングオープンワールドキーポイントアフォード(Moka)を導入する。
我々のアプローチの中心は、VLMの観測画像と物理世界におけるロボットの行動に関する予測を橋渡しする、コンパクトな点ベースの可測性表現である。
ツールの使用,変形可能な身体操作,オブジェクト再構成など,さまざまなテーブルトップ操作タスクにおけるMokaの性能評価と解析を行った。
論文 参考訳(メタデータ) (2024-03-05T18:08:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。