論文の概要: Benchmarking the Generality of Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2512.11315v1
- Date: Fri, 12 Dec 2025 06:31:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 15:48:11.677014
- Title: Benchmarking the Generality of Vision-Language-Action Models
- Title(参考訳): ビジョン・ランゲージ・アクションモデルの一般性のベンチマーク
- Authors: Pranav Guruprasad, Sudipta Chowdhury, Harsh Sikka, Mridul Sharma, Helen Lu, Sean Rivera, Aryan Khurana, Hangliang Ren, Yangyue Wang,
- Abstract要約: 汎用マルチモーダルエージェントは、知覚、言語、制御を統一することが期待されている。
視覚言語モデルのクロスドメイン一般性を測定するための統合ベンチマークであるMultiNet v1.0を紹介する。
- 参考スコア(独自算出の注目度): 0.9751538234290761
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generalist multimodal agents are expected to unify perception, language, and control - operating robustly across diverse real world domains. However, current evaluation practices remain fragmented across isolated benchmarks, making it difficult to assess whether today's foundation models truly generalize beyond their training distributions. We introduce MultiNet v1.0, a unified benchmark for measuring the cross domain generality of vision language models (VLMs) and vision language action models (VLAs) across six foundational capability regimes. Visual grounding, spatial reasoning, tool use, physical commonsense, multi agent coordination, and continuous robot control. Evaluating GPT 5, Pi0, and Magma, we find that no model demonstrates consistent generality. All exhibit substantial degradation on unseen domains, unfamiliar modalities, or cross domain task shifts despite strong performance within their training distributions.These failures manifest as modality misalignment, output format instability, and catastrophic knowledge degradation under domain transfer.Our findings reveal a persistent gap between the aspiration of generalist intelligence and the actual capabilities of current foundation models.MultiNet v1.0 provides a standardized evaluation substrate for diagnosing these gaps and guiding the development of future generalist agents.Code, data, and leaderboards are publicly available.
- Abstract(参考訳): 汎用マルチモーダルエージェントは、知覚、言語、制御を統一し、様々な現実世界のドメインで堅牢に運用することが期待されている。
しかしながら、現在の評価プラクティスは、孤立したベンチマークで断片化され続けており、今日の基礎モデルは、トレーニングディストリビューションを超えて真に一般化されているかどうかを評価することは困難である。
我々は,視覚言語モデル (VLM) と視覚言語アクションモデル (VLA) のクロスドメイン一般性を測定するための統合ベンチマークであるMultiNet v1.0を紹介する。
視覚的接地、空間的推論、ツールの使用、物理的常識、マルチエージェント調整、連続ロボット制御。
GPT 5, Pi0, Magma を評価すると、モデルが一貫した一般性を示さないことが分かる。
いずれも、トレーニングディストリビューション内での強いパフォーマンスにもかかわらず、未確認領域、不慣れなモダリティ、またはクロスドメインタスクのシフトを著しく劣化させており、これらの障害は、ドメイン転送によるモダリティミスアライメント、出力フォーマットの不安定性、破滅的な知識劣化として現れており、我々の発見は、ジェネラリストインテリジェンスと現在の基盤モデルの実際の能力との間に持続的なギャップがあることを明らかにしている。MultiNet v1.0は、これらのギャップを診断し、将来のジェネラリストエージェントの開発を導くための標準化された評価基盤を提供する。
関連論文リスト
- VAGEN: Reinforcing World Model Reasoning for Multi-Turn VLM Agents [130.70999337445468]
言語モデル(LLM)エージェントと比較して、視覚言語モデル(VLM)エージェントを訓練する際の重要な課題は、テキスト状態から複雑な視覚観察に移行することである。
VLMエージェントは、明示的な視覚状態推論によって内部世界モデルを構築することができるか?
我々は、強化学習(RL)を通して、エージェントの推論プロセスを建築的に実施し、報奨する。
エージェントの状態推定と遷移モデリングへの推論が成功に不可欠であることが分かりました。
論文 参考訳(メタデータ) (2025-10-19T16:05:07Z) - From Intention to Execution: Probing the Generalization Boundaries of Vision-Language-Action Models [5.660635614478238]
VLA(Vision-Language-Action)モデルは、汎用的で汎用的なロボットポリシーを作成することを約束する。
従来の模倣学習ベンチマークは言語命令の欠如のため不適当である。
言語命令,視覚,オブジェクトにまたがる10のサブカテゴリにまたがる50のシミュレーションベースのタスクの統合スイートを導入する。
論文 参考訳(メタデータ) (2025-06-11T16:52:18Z) - From Multimodal LLMs to Generalist Embodied Agents: Methods and Lessons [85.99268361356832]
一般身体エージェント(GEA)にMLLMを適用するプロセスを紹介する。
GEAは、多体アクショントークンーザを通じて、さまざまなドメインにまたがって自分自身をグラウンド化できる単一の統一モデルである。
本研究は,汎用エージェント構築のためのクロスドメインデータとオンラインRLを用いたトレーニングの重要性を明らかにした。
論文 参考訳(メタデータ) (2024-12-11T15:06:25Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - Unsupervised Model Diagnosis [49.36194740479798]
本稿では,ユーザガイドを使わずに,意味論的対実的説明を生成するために,Unsupervised Model Diagnosis (UMO)を提案する。
提案手法は意味論における変化を特定し可視化し,その変化を広範囲なテキストソースの属性と照合する。
論文 参考訳(メタデータ) (2024-10-08T17:59:03Z) - GenRL: Multimodal-foundation world models for generalization in embodied agents [12.263162194821787]
強化学習(RL)は、タスクごとに複雑な報酬設計を必要とするため、スケールアップが難しい。
現在の基盤視覚言語モデル(VLM)は、微調整やその他の適応を具体的文脈で適用する必要がある。
このような領域におけるマルチモーダルデータの欠如は、具体化されたアプリケーションの基盤モデルを開発する上での障害である。
論文 参考訳(メタデータ) (2024-06-26T03:41:48Z) - Unveiling the Generalization Power of Fine-Tuned Large Language Models [81.70754292058258]
大規模言語モデル(LLM)に固有の内在的一般化能力に微調整が及ぼす影響について検討する。
本研究の主目的は、生成タスクと分類タスクを微調整したモデルが、異なる領域やタスクに一般化する際に異なる振る舞いを示すことである。
生成タスクの微調整中にコンテキスト内学習戦略を統合することで、モデルの一般化能力を高めることができる。
論文 参考訳(メタデータ) (2024-03-14T08:18:59Z) - Deep Multimodal Fusion for Generalizable Person Re-identification [15.250738959921872]
DMF(ディープ・マルチモーダル・フュージョン)は、個人再識別タスクの一般的なシナリオのためのディープ・マルチモーダル・フュージョン・ネットワークである。
事前学習段階における特徴表現学習を支援するために、リッチな意味知識が導入される。
実世界の分散アライメントのための事前訓練されたモデルを微調整するために、現実的なデータセットが採用されている。
論文 参考訳(メタデータ) (2022-11-02T07:42:48Z) - INDIGO: Intrinsic Multimodality for Domain Generalization [26.344372409315177]
マルチモーダル情報がどのように「本質的な」方法で活用され、システムが目に見えない領域の下で一般化されるかを検討する。
IntriNsic multimodality for DomaIn GeneralizatiOn (INDIGO)を提案する。
論文 参考訳(メタデータ) (2022-06-13T05:41:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。