論文の概要: Benchmarking Vision, Language, & Action Models on Robotic Learning Tasks
- arxiv url: http://arxiv.org/abs/2411.05821v2
- Date: Sun, 08 Dec 2024 06:54:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:50:06.933488
- Title: Benchmarking Vision, Language, & Action Models on Robotic Learning Tasks
- Title(参考訳): ロボット学習課題における視覚・言語・行動モデルのベンチマーク
- Authors: Pranav Guruprasad, Harshvardhan Sikka, Jaewoo Song, Yangyue Wang, Paul Pu Liang,
- Abstract要約: 視覚言語アクション(VLA)モデルは汎用ロボットシステムを開発する上で有望な方向を示す。
VLAモデルを評価するための総合的な評価フレームワークとベンチマークスイートを提案する。
- 参考スコア(独自算出の注目度): 20.93006455952299
- License:
- Abstract: Vision-language-action (VLA) models represent a promising direction for developing general-purpose robotic systems, demonstrating the ability to combine visual understanding, language comprehension, and action generation. However, systematic evaluation of these models across diverse robotic tasks remains limited. In this work, we present a comprehensive evaluation framework and benchmark suite for assessing VLA models. We profile three state-of-the-art VLM and VLAs - GPT-4o, OpenVLA, and JAT - across 20 diverse datasets from the Open-X-Embodiment collection, evaluating their performance on various manipulation tasks. Our analysis reveals several key insights: 1. current VLA models show significant variation in performance across different tasks and robot platforms, with GPT-4o demonstrating the most consistent performance through sophisticated prompt engineering, 2. all models struggle with complex manipulation tasks requiring multi-step planning, and 3. model performance is notably sensitive to action space characteristics and environmental factors. We release our evaluation framework and findings to facilitate systematic assessment of future VLA models and identify critical areas for improvement in the development of general purpose robotic systems.
- Abstract(参考訳): 視覚言語アクションモデル(VLA)は、汎用ロボットシステムを開発する上で有望な方向を示し、視覚的理解、言語理解、行動生成を組み合わせた能力を示す。
しかしながら、これらのモデルの多様なロボットタスクに対する体系的な評価は、依然として限られている。
本稿では,VLAモデルを評価するための総合評価フレームワークとベンチマークスイートを提案する。
GPT-4o、OpenVLA、JATの3つの最先端VLMとVLAをOpen-X-Embodimentコレクションから20種類のデータセットに分類し、さまざまな操作タスクのパフォーマンスを評価した。
私たちの分析では、いくつかの重要な洞察が浮かび上がっています。
1. 現在のVLAモデルはタスクやロボットプラットフォームにまたがる性能が著しく変化しており、GPT-4oは高度なプロンプトエンジニアリングによって最も一貫した性能を示している。
2. 全てのモデルは、多段階計画を必要とする複雑な操作タスクに苦しむ。
3. モデル性能は, 行動空間特性や環境要因に特に敏感である。
今後のVLAモデルを体系的に評価し,汎用ロボットシステムの開発における重要な領域を特定するための評価フレームワークと知見をリリースする。
関連論文リスト
- Towards Generalist Robot Policies: What Matters in Building Vision-Language-Action Models [39.706833232931245]
ファンデーションビジョン言語モデル(VLM)はマルチモーダル表現学習、理解、推論において強力な能力を示す。
VLMにアクションコンポーネントを注入することにより、自然にVLA(Vision-Language-Action Models)を形成し、有望な性能を示すことができる。
本稿では,VLAの性能に大きく影響を及ぼす重要な要因を明らかにするとともに,3つの重要な設計選択に答えることに注力する。
我々はVLAの新たなファミリーであるRoboVLMsを開発し、3つのシミュレーションタスクと実世界の実験で非常に少ない手動設計と新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2024-12-18T17:07:20Z) - TraceVLA: Visual Trace Prompting Enhances Spatial-Temporal Awareness for Generalist Robotic Policies [95.30717188630432]
VLAモデルの行動予測のための時空間認識を容易にするために,視覚的トレースプロンプトを導入する。
我々は,これまでに収集した150Kロボット操作トラジェクトリのデータセットに基づいてOpenVLAを微調整し,新しいTraceVLAモデルを開発した。
4B Phi-3-Vision に基づくコンパクトな VLA モデルを提案する。
論文 参考訳(メタデータ) (2024-12-13T18:40:51Z) - CogACT: A Foundational Vision-Language-Action Model for Synergizing Cognition and Action in Robotic Manipulation [100.25567121604382]
VLA(Vision-Language-Action)モデルは、言語誘導されたタスクの実行と、目に見えないシナリオへの一般化の観点から、ロボット操作を改善した。
VLM(Vision-Language-Models)に基づく新しい高度なVLAアーキテクチャを提案する。
我々のモデルはタスクパフォーマンスにおいて既存のVLAをはるかに上回るだけでなく、新しいロボットへの顕著な適応と、見えないオブジェクトや背景への一般化も示している。
論文 参考訳(メタデータ) (2024-11-29T12:06:03Z) - Vision Language Models are In-Context Value Learners [89.29486557646624]
本稿では、視覚言語モデル(VLM)に埋め込まれた世界的知識を活用してタスクの進捗を予測する普遍的価値関数推定器である生成価値学習(GVL)を提案する。
ロボットやタスク固有のトレーニングがなければ、GVLは300以上の異なる現実世界のタスクに対して、ゼロショットと数ショットの効果的な値をインコンテキストで予測することができる。
論文 参考訳(メタデータ) (2024-11-07T09:17:50Z) - VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。
VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。
私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文 参考訳(メタデータ) (2024-10-09T17:46:34Z) - ReVLA: Reverting Visual Domain Limitation of Robotic Foundation Models [55.07988373824348]
既存の3つのロボット基礎モデルの視覚的一般化能力について検討する。
本研究は,既存のモデルがドメイン外シナリオに対する堅牢性を示していないことを示す。
モデルマージに基づく段階的なバックボーンリバーサルアプローチを提案する。
論文 参考訳(メタデータ) (2024-09-23T17:47:59Z) - Towards Testing and Evaluating Vision-Language-Action Models for Robotic Manipulation: An Empirical Study [7.8735930411335895]
視覚言語アクション(VLA)モデルは、ロボット操作を前進させる可能性について多くの注目を集めている。
VLAモデルによって提供されるエンドツーエンドの知覚制御ループにもかかわらず、そのようなモデルの能力を包括的に理解する能力は欠如している。
VLAモデルの性能を評価するために,多様なロボット操作シーンを自動的に生成するテストフレームワークであるVLATestを提案する。
論文 参考訳(メタデータ) (2024-09-19T16:33:00Z) - TinyVLA: Towards Fast, Data-Efficient Vision-Language-Action Models for Robotic Manipulation [32.406783380729024]
VLA(Vision-Language-Action)モデルは、エンド・ツー・エンドの学習プロセスを通じて、視覚運動制御と命令理解において顕著な可能性を示している。
現在のVLAモデルは、推論中に遅くなり、大量のロボットデータに対して広範な事前トレーニングを必要としているため、重大な課題に直面している。
既存のVLAモデルに対して2つのアドバンテージを提供する,TinyVLAと呼ばれる,コンパクトな視覚言語アクションモデルを導入した。
論文 参考訳(メタデータ) (2024-09-19T07:10:18Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。