論文の概要: VLA-Arena: An Open-Source Framework for Benchmarking Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2512.22539v1
- Date: Sat, 27 Dec 2025 09:40:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.103386
- Title: VLA-Arena: An Open-Source Framework for Benchmarking Vision-Language-Action Models
- Title(参考訳): VLA-Arena:ビジョンランゲージ・アクションモデルのベンチマークのためのオープンソースフレームワーク
- Authors: Borong Zhang, Jiahao Li, Jiachen Shen, Yishuai Cai, Yuhao Zhang, Yuanpei Chen, Juntao Dai, Jiaming Ji, Yaodong Yang,
- Abstract要約: 本稿では,3つの軸にまたがる難易度を定量化するための新しい構造化タスク設計フレームワークを提案する。
タスク構造では、VLA-Arenaの170のタスクは、安全性、ディトラクタ、外挿、ロングホライゾンの4つの次元に分けられる。
タスク定義から自動評価までのエンドツーエンドツールチェーンと、微調整のためのVLA-Arena-S/M/Lデータセットを提供する。
- 参考スコア(独自算出の注目度): 33.143187576673775
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: While Vision-Language-Action models (VLAs) are rapidly advancing towards generalist robot policies, it remains difficult to quantitatively understand their limits and failure modes. To address this, we introduce a comprehensive benchmark called VLA-Arena. We propose a novel structured task design framework to quantify difficulty across three orthogonal axes: (1) Task Structure, (2) Language Command, and (3) Visual Observation. This allows us to systematically design tasks with fine-grained difficulty levels, enabling a precise measurement of model capability frontiers. For Task Structure, VLA-Arena's 170 tasks are grouped into four dimensions: Safety, Distractor, Extrapolation, and Long Horizon. Each task is designed with three difficulty levels (L0-L2), with fine-tuning performed exclusively on L0 to assess general capability. Orthogonal to this, language (W0-W4) and visual (V0-V4) perturbations can be applied to any task to enable a decoupled analysis of robustness. Our extensive evaluation of state-of-the-art VLAs reveals several critical limitations, including a strong tendency toward memorization over generalization, asymmetric robustness, a lack of consideration for safety constraints, and an inability to compose learned skills for long-horizon tasks. To foster research addressing these challenges and ensure reproducibility, we provide the complete VLA-Arena framework, including an end-to-end toolchain from task definition to automated evaluation and the VLA-Arena-S/M/L datasets for fine-tuning. Our benchmark, data, models, and leaderboard are available at https://vla-arena.github.io.
- Abstract(参考訳): VLA(Vision-Language-Action Model)は、一般的なロボットポリシーに向けて急速に進歩しているが、その限界や障害モードを定量的に理解することは困難である。
これを解決するために、VLA-Arenaと呼ばれる包括的なベンチマークを導入する。
本研究では,(1)タスク構造,(2)言語コマンド,(3)視覚的観察という3つの直交軸の難易度を定量化する,新しい構造化タスク設計フレームワークを提案する。
これにより、きめ細かい難易度でタスクを体系的に設計することができ、モデル能力フロンティアの正確な測定を可能にします。
タスク構造では、VLA-Arenaの170のタスクは、安全性、ディトラクタ、外挿、ロングホライゾンの4つの次元に分けられる。
各タスクは3つの難易度(L0-L2)で設計され、L0のみを微調整して一般的な能力を評価する。
これに対して、言語 (W0-W4) と視覚 (V0-V4) の摂動は、どんなタスクにも適用でき、堅牢性の分離解析を可能にする。
我々の最先端のVLAの広範な評価は、一般化に関する記憶傾向の強い傾向、非対称な頑健性、安全制約の考慮の欠如、長期的タスクの学習スキル構築能力の欠如など、いくつかの重要な限界を明らかにしている。
これらの課題に対処し、再現性を確保するために、タスク定義から自動評価に至るまでのエンドツーエンドツールチェーンと、微調整のためのVLA-Arena-S/M/Lデータセットを含む、完全なVLA-Arenaフレームワークを提供する。
ベンチマーク、データ、モデル、およびリーダーボードはhttps://vla-arena.github.io.comで公開されている。
関連論文リスト
- VLNVerse: A Benchmark for Vision-Language Navigation with Versatile, Embodied, Realistic Simulation and Evaluation [61.82502719679122]
本稿では,Versatile, Embodied, Realistic Simulation, EvaluationのベンチマークであるVLNVerseを紹介する。
VLNVerseは、スケーラブルでフルスタックのAI問題としてVLNを再定義する。
ベンチマーク内の全てのタスクに対処できる新しいマルチタスクモデルを提案する。
論文 参考訳(メタデータ) (2025-12-22T04:27:26Z) - Continual Learning for VLMs: A Survey and Taxonomy Beyond Forgetting [70.83781268763215]
視覚言語モデル(VLM)は、大規模事前学習を活用することで、多様なマルチモーダルタスクにおいて優れたパフォーマンスを実現している。
VLMは、クロスモーダル機能ドリフト、共有アーキテクチャによるパラメータ干渉、ゼロショット機能侵食など、ユニークな課題に直面している。
本調査は、生涯の視覚言語システムを開発する研究者にとって、包括的かつ診断的な基準となることを目的としている。
論文 参考訳(メタデータ) (2025-08-06T09:03:10Z) - LoHoVLA: A Unified Vision-Language-Action Model for Long-Horizon Embodied Tasks [31.3295171851909]
実世界のエンボディエージェントは、マルチステップソリューションを必要とするハイレベルな目標に直面します。
ロングホライゾンタスクは、ハイレベルなタスクプランニングと低レベルなモーションコントロールを必要とする。
我々は,LoHoVLAと呼ばれる長期タスクのための統合視覚言語フレームワークを導入する。
論文 参考訳(メタデータ) (2025-05-31T06:01:03Z) - VLABench: A Large-Scale Benchmark for Language-Conditioned Robotics Manipulation with Long-Horizon Reasoning Tasks [100.3234156027118]
本稿では、ユニバーサルLCMタスク学習を評価するためのオープンソースのベンチマークであるVLABenchを紹介する。
VLABenchは、タスクのカテゴリごとに強いランダム化と合計2000以上のオブジェクトを備えた、慎重に設計された100のタスクカテゴリを提供する。
このベンチマークは、メッシュとテクスチャ、空間関係、意味的命令、物理法則、知識伝達、推論の理解を含む複数の能力を評価する。
論文 参考訳(メタデータ) (2024-12-24T06:03:42Z) - A Survey on Vision-Language-Action Models for Embodied AI [90.99896086619854]
エンボディードAIは、人工知能の重要な要素として広く認識されている。
組込みAIにおける言語条件ロボットタスクに対処するために、マルチモーダルモデルの新たなカテゴリが登場した。
具体的AIのための視覚-言語-アクションモデルに関する第1回調査を示す。
論文 参考訳(メタデータ) (2024-05-23T01:43:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。