論文の概要: From Intention to Execution: Probing the Generalization Boundaries of Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2506.09930v1
- Date: Wed, 11 Jun 2025 16:52:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:03.139408
- Title: From Intention to Execution: Probing the Generalization Boundaries of Vision-Language-Action Models
- Title(参考訳): 意図から実行へ:ビジョン・ランゲージ・アクション・モデルの一般化境界を探る
- Authors: Irving Fang, Juexiao Zhang, Shengbang Tong, Chen Feng,
- Abstract要約: VLA(Vision-Language-Action)モデルは、汎用的で汎用的なロボットポリシーを作成することを約束する。
従来の模倣学習ベンチマークは言語命令の欠如のため不適当である。
言語命令,視覚,オブジェクトにまたがる10のサブカテゴリにまたがる50のシミュレーションベースのタスクの統合スイートを導入する。
- 参考スコア(独自算出の注目度): 5.660635614478238
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One promise that Vision-Language-Action (VLA) models hold over traditional imitation learning for robotics is to leverage the broad generalization capabilities of large Vision-Language Models (VLMs) to produce versatile, "generalist" robot policies. However, current evaluations of VLAs remain insufficient. Traditional imitation learning benchmarks are unsuitable due to the lack of language instructions. Emerging benchmarks for VLAs that incorporate language often come with limited evaluation tasks and do not intend to investigate how much VLM pretraining truly contributes to the generalization capabilities of the downstream robotic policy. Meanwhile, much research relies on real-world robot setups designed in isolation by different institutions, which creates a barrier for reproducibility and accessibility. To address this gap, we introduce a unified probing suite of 50 simulation-based tasks across 10 subcategories spanning language instruction, vision, and objects. We systematically evaluate several state-of-the-art VLA architectures on this suite to understand their generalization capability. Our results show that while VLM backbones endow VLAs with robust perceptual understanding and high level planning, which we refer to as good intentions, this does not reliably translate into precise motor execution: when faced with out-of-distribution observations, policies often exhibit coherent intentions, but falter in action execution. Moreover, finetuning on action data can erode the original VLM's generalist reasoning abilities. We release our task suite and evaluation code to serve as a standardized benchmark for future VLAs and to drive research on closing the perception-to-action gap. More information, including the source code, can be found at https://ai4ce.github.io/INT-ACT/
- Abstract(参考訳): VLA(Vision-Language-Action)モデルがロボット工学の伝統的な模倣学習よりも優れているという約束の一つは、VLM(Vision-Language Models)の広範な一般化能力を活用して、汎用的で汎用的な「ジェネラリスト」ロボットポリシーを作成することである。
しかし、現在のVLAの評価は不十分である。
従来の模倣学習ベンチマークは言語命令の欠如のため不適当である。
言語を組み込んだVLAの新たなベンチマークでは、限られた評価タスクが伴うことが多く、VLM事前学習が、下流ロボットポリシーの一般化能力にどの程度貢献するかを調査する意図はない。
一方、多くの研究は、異なる機関によって独立して設計された現実世界のロボットのセットアップに依存しており、再現性とアクセシビリティーの障壁を生み出している。
このギャップに対処するために、言語命令、視覚、オブジェクトにまたがる10のサブカテゴリにまたがる50のシミュレーションベースのタスクからなる統合された探索スイートを導入する。
我々は,その一般化能力を理解するために,このスイート上でいくつかの最先端VLAアーキテクチャを体系的に評価した。
以上の結果から,VLMのバックボーンは,強い知覚的理解と高レベルプランニングをもったVLAを許容するが,これは正確な運動実行に確実に変換されないことが示唆された。
さらに、アクションデータの微調整は、オリジナルのVLMのジェネラリスト推論能力を損なう可能性がある。
我々はタスクスイートと評価コードをリリースし、将来のVLAの標準ベンチマークとして機能し、認識と行動のギャップを埋める研究を進める。
ソースコードを含む詳細については、https://ai4ce.github.io/INT-ACT/を参照してください。
関連論文リスト
- ChatVLA-2: Vision-Language-Action Model with Open-World Embodied Reasoning from Pretrained Knowledge [14.143521529613533]
視覚言語アクション(VLA)モデルは、ロボット工学の次世代モデルとして登場した。
既存のエンドツーエンドのVLAシステムは、モデルが特定のロボットタスクに適応するため、微調整中に重要な機能を失うことが多い。
一般化可能なVLAモデルは、VLMのコア能力を維持し拡張するべきである。
論文 参考訳(メタデータ) (2025-05-28T02:48:42Z) - CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models [89.44024245194315]
視覚言語行動モデル(VLA)に明示的な視覚連鎖(CoT)推論を組み込む手法を提案する。
視覚およびアクショントークンの理解と生成が可能な最先端の7B VLAであるCoT-VLAを紹介する。
実験の結果,CoT-VLAは実世界の操作タスクでは17%,シミュレーションベンチマークでは6%,最先端のVLAモデルでは6%,高い性能を示した。
論文 参考訳(メタデータ) (2025-03-27T22:23:04Z) - VLABench: A Large-Scale Benchmark for Language-Conditioned Robotics Manipulation with Long-Horizon Reasoning Tasks [100.3234156027118]
本稿では、ユニバーサルLCMタスク学習を評価するためのオープンソースのベンチマークであるVLABenchを紹介する。
VLABenchは、タスクのカテゴリごとに強いランダム化と合計2000以上のオブジェクトを備えた、慎重に設計された100のタスクカテゴリを提供する。
このベンチマークは、メッシュとテクスチャ、空間関係、意味的命令、物理法則、知識伝達、推論の理解を含む複数の能力を評価する。
論文 参考訳(メタデータ) (2024-12-24T06:03:42Z) - Vision Language Models are In-Context Value Learners [89.29486557646624]
本稿では、視覚言語モデル(VLM)に埋め込まれた世界的知識を活用してタスクの進捗を予測する普遍的価値関数推定器である生成価値学習(GVL)を提案する。
ロボットやタスク固有のトレーニングがなければ、GVLは300以上の異なる現実世界のタスクに対して、ゼロショットと数ショットの効果的な値をインコンテキストで予測することができる。
論文 参考訳(メタデータ) (2024-11-07T09:17:50Z) - Robotic Control via Embodied Chain-of-Thought Reasoning [86.6680905262442]
学習したロボット制御ポリシーの鍵となる制限は、トレーニングデータの外部で一般化できないことである。
視覚言語行動モデル(VLA)に関する最近の研究は、大規模なインターネット事前学習型視覚言語モデルを使用することで、その堅牢性と一般化能力を大幅に向上させることができることを示した。
ロボットの動作を予測する前に、VLAに対して、計画、サブタスク、動作、視覚的接地機能について複数の推論を行うために、VLAに対してEmbodied Chain-of-Thought Reasoning (ECoT)を導入する。
論文 参考訳(メタデータ) (2024-07-11T17:31:01Z) - A Survey on Vision-Language-Action Models for Embodied AI [71.16123093739932]
エンボディードAIは、人工知能の重要な要素として広く認識されている。
組込みAIにおける言語条件ロボットタスクに対処するために、マルチモーダルモデルの新たなカテゴリが登場した。
具体的AIのための視覚-言語-アクションモデルに関する第1回調査を示す。
論文 参考訳(メタデータ) (2024-05-23T01:43:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。