論文の概要: LIBERO-X: Robustness Litmus for Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2602.06556v1
- Date: Fri, 06 Feb 2026 09:59:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.340507
- Title: LIBERO-X: Robustness Litmus for Vision-Language-Action Models
- Title(参考訳): LIBERO-X:視覚・言語・アクションモデルのためのロバストネスリトマス
- Authors: Guodong Wang, Chenkai Zhang, Qingjie Liu, Jinjin Zhang, Jiancheng Cai, Junjie Liu, Xinmin Liu,
- Abstract要約: この研究は、評価とデータの観点からVLAベンチマークを体系的に再考する。
LIBERO-Xは階層的評価プロトコルを特徴とするベンチマークで,3つのコア機能を対象とした進行難度レベルを示す。
代表的なVLAモデルを用いた実験では、累積摂動下での大幅な性能低下が示されている。
- 参考スコア(独自算出の注目度): 32.29541801424534
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Reliable benchmarking is critical for advancing Vision-Language-Action (VLA) models, as it reveals their generalization, robustness, and alignment of perception with language-driven manipulation tasks. However, existing benchmarks often provide limited or misleading assessments due to insufficient evaluation protocols that inadequately capture real-world distribution shifts. This work systematically rethinks VLA benchmarking from both evaluation and data perspectives, introducing LIBERO-X, a benchmark featuring: 1) A hierarchical evaluation protocol with progressive difficulty levels targeting three core capabilities: spatial generalization, object recognition, and task instruction understanding. This design enables fine-grained analysis of performance degradation under increasing environmental and task complexity; 2) A high-diversity training dataset collected via human teleoperation, where each scene supports multiple fine-grained manipulation objectives to bridge the train-evaluation distribution gap. Experiments with representative VLA models reveal significant performance drops under cumulative perturbations, exposing persistent limitations in scene comprehension and instruction grounding. By integrating hierarchical evaluation with diverse training data, LIBERO-X offers a more reliable foundation for assessing and advancing VLA development.
- Abstract(参考訳): 信頼性の高いベンチマークは、VLA(Vision-Language-Action)モデルの発展に不可欠である。
しかし、既存のベンチマークは、実世界の分散シフトを適切に捉えていない評価プロトコルが不十分であるため、制限または誤解を招く評価を提供することが多い。
この研究は、評価とデータの観点からVLAベンチマークを体系的に再考し、LIBERO-Xというベンチマークを導入した。
1)空間一般化,オブジェクト認識,タスク指示理解という3つのコア機能を対象とした,段階的難易度の高い階層的評価プロトコル。
この設計により、環境・タスクの複雑さの増大による性能劣化のきめ細かい分析が可能となる。
2) 人体遠隔操作による高多様性トレーニングデータセットを作成した。各シーンは,列車評価分布ギャップを埋めるために,複数のきめ細かい操作目標をサポートする。
代表的なVLAモデルを用いた実験では、累積摂動下での大幅な性能低下が示され、シーン理解と命令接地において永続的な制限が露呈された。
階層的評価と多様なトレーニングデータを統合することで、LIBERO-XはVLA開発の評価と進展のための信頼性の高い基盤を提供する。
関連論文リスト
- LTD-Bench: Evaluating Large Language Models by Letting Them Draw [57.237152905238084]
LTD-Benchは、大規模言語モデル(LLM)のブレークスルーベンチマークである。
LLMの評価を抽象的なスコアから直接観察可能な視覚出力に変換する。
LTD-Benchの視覚出力は強力な診断分析を可能にし、モデル類似性を調べるための潜在的アプローチを提供する。
論文 参考訳(メタデータ) (2025-11-04T08:11:23Z) - Rethinking Evaluation of Infrared Small Target Detection [105.59753496831739]
本稿では,画素レベルと目標レベルのパフォーマンスを取り入れたハイブリッドレベルのメトリクスを導入し,システム的エラー解析手法を提案し,クロスデータセット評価の重要性を強調した。
標準化されたベンチマークを容易にするオープンソースツールキットがリリースされた。
論文 参考訳(メタデータ) (2025-09-21T02:45:07Z) - Continual Learning for VLMs: A Survey and Taxonomy Beyond Forgetting [70.83781268763215]
視覚言語モデル(VLM)は、大規模事前学習を活用することで、多様なマルチモーダルタスクにおいて優れたパフォーマンスを実現している。
VLMは、クロスモーダル機能ドリフト、共有アーキテクチャによるパラメータ干渉、ゼロショット機能侵食など、ユニークな課題に直面している。
本調査は、生涯の視覚言語システムを開発する研究者にとって、包括的かつ診断的な基準となることを目的としている。
論文 参考訳(メタデータ) (2025-08-06T09:03:10Z) - Adapting Vision-Language Models for Evaluating World Models [24.813041196394582]
データおよび計算制約下でのシミュレーション環境におけるロールアウトに対する視覚言語評価手法であるUNIVERSEを提案する。
本研究では,タスク形式,コンテキスト長,サンプリング戦略,データ構成を網羅した,完全,部分的,パラメータ効率の微調整を大規模に検討する。
その結果得られた統合評価器は、単一のチェックポイントを使用してタスク固有のベースラインのパフォーマンスにマッチする。
論文 参考訳(メタデータ) (2025-06-22T09:53:28Z) - Rethinking Multilingual Vision-Language Translation: Dataset, Evaluation, and Adaptation [45.551223552275424]
視覚言語翻訳は、画像に埋め込まれた多言語テキストを正確に認識する必要がある課題である。
本稿では,データ品質,モデルアーキテクチャ,評価指標の3つの重要な視点からVLTを総合的に検討する。
論文 参考訳(メタデータ) (2025-06-13T14:23:38Z) - Exploring the Limits of Vision-Language-Action Manipulations in Cross-task Generalization [35.382501238148734]
AGNOSTOSは、操作においてクロスタスクゼロショットの一般化を厳格に評価するために設計された新しいシミュレーションベンチマークである。
X-ICMは、コンテキスト内デモで大きな言語モデルを条件付け、目に見えないタスクに対するアクションシーケンスを予測する手法である。
我々はAGNOSTOSとX-ICMが汎用的なロボット操作を促進する貴重なツールになると信じている。
論文 参考訳(メタデータ) (2025-05-21T15:35:57Z) - Vision Language Models are In-Context Value Learners [89.29486557646624]
本稿では、視覚言語モデル(VLM)に埋め込まれた世界的知識を活用してタスクの進捗を予測する普遍的価値関数推定器である生成価値学習(GVL)を提案する。
ロボットやタスク固有のトレーニングがなければ、GVLは300以上の異なる現実世界のタスクに対して、ゼロショットと数ショットの効果的な値をインコンテキストで予測することができる。
論文 参考訳(メタデータ) (2024-11-07T09:17:50Z) - VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。