論文の概要: Benchmarking Vision, Language, & Action Models in Procedurally Generated, Open Ended Action Environments
- arxiv url: http://arxiv.org/abs/2505.05540v2
- Date: Tue, 17 Jun 2025 03:16:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 15:22:20.518374
- Title: Benchmarking Vision, Language, & Action Models in Procedurally Generated, Open Ended Action Environments
- Title(参考訳): 手続き的に生成されたオープンエンドアクション環境における視覚・言語・行動モデルのベンチマーク
- Authors: Pranav Guruprasad, Yangyue Wang, Sudipta Chowdhury, Harshvardhan Sikka, Paul Pu Liang,
- Abstract要約: 視覚言語アクション(VLA)モデルは汎用ロボットシステムに向けた重要なステップである。
我々は,最先端VLMとVLAの一般化性能の評価と解析を目的としたベンチマークであるMultiNet v0.2を紹介する。
- 参考スコア(独自算出の注目度): 20.93006455952299
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language-action (VLA) models represent an important step toward general-purpose robotic systems by integrating visual perception, language understanding, and action execution. However, systematic evaluation of these models, particularly their zero-shot generalization capabilities in procedurally out-of-distribution (OOD) environments, remains limited. In this paper, we introduce MultiNet v0.2, a comprehensive benchmark designed to evaluate and analyze the generalization performance of state-of-the-art VLMs and VLAs - including GPT-4o, GPT-4.1, OpenVLA, Pi0 Base, and Pi0 FAST - on diverse procedural tasks from the Procgen benchmark. Our analysis reveals several critical insights: (1) all evaluated models exhibit significant limitations in zero-shot generalization to OOD tasks, with performance heavily influenced by factors such as action representation and task complexity; (2) VLAs generally outperforms other models due to their robust architectural design; and (3) VLM variants demonstrate substantial improvements when constrained appropriately, highlighting the sensitivity of model performance to precise prompt engineering. We release our benchmark, evaluation framework, and findings to enable the assessment of future VLA models and identify critical areas for improvement in their application to out-of-distribution digital tasks.
- Abstract(参考訳): 視覚言語アクション(VLA)モデルは、視覚知覚、言語理解、行動実行を統合することで、汎用ロボットシステムに向けた重要なステップである。
しかし、これらのモデルの体系的評価、特に、プロシージャ・アウト・オブ・ディストリビューション(OOD)環境におけるゼロショット一般化能力は、依然として限られている。
本稿では,GPT-4o, GPT-4.1, OpenVLA, Pi0 Base, Pi0 FASTなど,最先端VLMとVLAの一般化性能の評価と解析を目的とした総合ベンチマークであるMultiNet v0.2を紹介する。
分析の結果, 評価されたモデルはすべて, 動作表現やタスクの複雑さなどの要因の影響を受けながら, OODタスクに対するゼロショットの一般化において重要な限界を示し, 2) VLAは, 強靭なアーキテクチャ設計によって他のモデルよりも優れており, (3) VLMの変種は, 適切に制約された場合の大幅な改善を示し, モデル性能の正確さを強調している。
我々は,将来的なVLAモデルの評価を可能にするためのベンチマーク,評価フレームワーク,および調査結果を公開し,配布外デジタルタスクへの適用における重要な領域を特定した。
関連論文リスト
- Vision-Language Model for Object Detection and Segmentation: A Review and Evaluation [38.20492321295552]
VLM(Vision-Language Model)は、OV(Open-Vocabulary)オブジェクトの検出とセグメンテーションタスクにおいて広く採用されている。
それらはOV関連タスクを約束しているにもかかわらず、従来のビジョンタスクの有効性は評価されていない。
論文 参考訳(メタデータ) (2025-04-13T08:28:13Z) - VACT: A Video Automatic Causal Testing System and a Benchmark [55.53300306960048]
VACTは、現実世界のシナリオにおけるVGMの因果的理解をモデル化、評価、測定するための**自動**フレームワークである。
マルチレベル因果評価指標を導入し、VGMの因果性能を詳細に分析する。
論文 参考訳(メタデータ) (2025-03-08T10:54:42Z) - A Cognitive Paradigm Approach to Probe the Perception-Reasoning Interface in VLMs [3.2228025627337864]
本稿では,視覚言語モデル(VLM)における知覚推論インタフェースを識別するための構造化評価フレームワークを提案する。
本稿では,人間の問題解決戦略を反映した3つの評価パラダイムを提案する。
このフレームワークを適用したCAは、リッチで独立に生成された記述を推論するために強力な言語モデルを活用し、新しい最先端(SOTA)パフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2025-01-23T12:42:42Z) - CogACT: A Foundational Vision-Language-Action Model for Synergizing Cognition and Action in Robotic Manipulation [100.25567121604382]
VLA(Vision-Language-Action)モデルは、言語誘導されたタスクの実行と、目に見えないシナリオへの一般化の観点から、ロボット操作を改善した。
VLM(Vision-Language-Models)に基づく新しい高度なVLAアーキテクチャを提案する。
我々のモデルはタスクパフォーマンスにおいて既存のVLAをはるかに上回るだけでなく、新しいロボットへの顕著な適応と、見えないオブジェクトや背景への一般化も示している。
論文 参考訳(メタデータ) (2024-11-29T12:06:03Z) - Benchmarking Vision, Language, & Action Models on Robotic Learning Tasks [20.93006455952299]
視覚言語アクション(VLA)モデルは汎用ロボットシステムを開発する上で有望な方向を示す。
VLAモデルを評価するための総合的な評価フレームワークとベンチマークスイートを提案する。
論文 参考訳(メタデータ) (2024-11-04T18:01:34Z) - VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。
VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。
私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文 参考訳(メタデータ) (2024-10-09T17:46:34Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。