論文の概要: LIBERO-PRO: Towards Robust and Fair Evaluation of Vision-Language-Action Models Beyond Memorization
- arxiv url: http://arxiv.org/abs/2510.03827v1
- Date: Sat, 04 Oct 2025 14:56:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.280611
- Title: LIBERO-PRO: Towards Robust and Fair Evaluation of Vision-Language-Action Models Beyond Memorization
- Title(参考訳): LIBERO-PRO:記憶以外の視覚・言語・アクションモデルのロバストかつ公正な評価に向けて
- Authors: Xueyang Zhou, Yangming Xu, Guiyao Tie, Yongchao Chen, Guowen Zhang, Duanfeng Chu, Pan Zhou, Lichao Sun,
- Abstract要約: LIBEROはVision-Language-Action (VLA)モデルを評価するための広く採用されているベンチマークとして登場した。
本稿では,モデル性能を合理的な摂動下で体系的に評価する拡張LIBEROベンチマークであるLIBERO-PROを紹介する。
実験の結果,既存のモデルでは標準LIBERO評価では90%以上の精度が得られたが,一般設定では0.0%に低下した。
- 参考スコア(独自算出の注目度): 33.562814882942
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LIBERO has emerged as a widely adopted benchmark for evaluating Vision-Language-Action (VLA) models; however, its current training and evaluation settings are problematic, often leading to inflated performance estimates and preventing fair model comparison. To address these issues, we introduce LIBERO-PRO, an extended LIBERO benchmark that systematically evaluates model performance under reasonable perturbations across four dimensions: manipulated objects, initial states, task instructions, and environments. Experimental results reveal that, although existing models achieve over 90% accuracy under the standard LIBERO evaluation, their performance collapses to 0.0% under our generalized setting. Crucially, this discrepancy exposes the models' reliance on rote memorization of action sequences and environment layouts from the training set, rather than genuine task understanding or environmental perception. For instance, models persist in executing grasping actions when the target object is replaced with irrelevant items, and their outputs remain unchanged even when given corrupted instructions or even messy tokens. These findings expose the severe flaws in current evaluation practices, and we call on the community to abandon misleading methodologies in favor of robust assessments of model generalization and comprehension. Our code is available at: https://github.com/Zxy-MLlab/LIBERO-PRO.
- Abstract(参考訳): LIBEROはVLA(Vision-Language-Action)モデルを評価するための広く採用されているベンチマークとして登場したが、現在のトレーニングと評価設定には問題があり、しばしば性能評価が膨らませられ、公正なモデル比較が防止される。
これらの問題に対処するために、LIBERO-PROという拡張されたLIBEROベンチマークを導入し、オブジェクトの操作、初期状態、タスク命令、環境の4次元にわたる適切な摂動の下でモデル性能を体系的に評価する。
実験の結果,既存のモデルでは標準LIBERO評価では90%以上の精度が得られたが,一般設定では0.0%に低下した。
この違いは、実際のタスク理解や環境認識よりも、トレーニングセットからのアクションシーケンスと環境レイアウトのロート記憶にモデルが依存していることを明らかにする。
例えば、ターゲットオブジェクトが無関係なアイテムに置き換えられたとき、モデルは把握アクションの実行を継続する。
これらの結果は,現在の評価実践の深刻な欠陥を明らかにし,モデル一般化と理解の堅牢な評価を優先して,誤解を招く方法論を放棄するようコミュニティに呼びかけている。
私たちのコードは、https://github.com/Zxy-MLlab/LIBERO-PRO.comで利用可能です。
関連論文リスト
- Meta-Evaluating Local LLMs: Rethinking Performance Metrics for Serious Games [3.725822359130832]
大規模言語モデル (LLMs) は、真剣なゲームにおける評価指標としてますます研究されている。
本研究では,エネルギーコミュニティにおける意思決定をシミュレートするゲームであるtextitEn-join において,5つの小規模 LLM の信頼性について検討した。
その結果、各モデルの長所と短所を強調し、感度、特異性、全体的なパフォーマンスのトレードオフを明らかにした。
論文 参考訳(メタデータ) (2025-04-13T10:46:13Z) - Does Context Matter? ContextualJudgeBench for Evaluating LLM-based Judges in Contextual Settings [36.449658676568234]
大規模言語モデル(LLM)-as-judgeパラダイムは、モデル出力の安価で信頼性の高い高速な評価要求を満たすために使われてきた。
実世界の文脈評価シナリオにインスパイアされた8つの分割に対して2,000の挑戦的な応答対を持つ判定ベンチマークであるContextualJudgeBenchを提案する。
我々の総合的研究は、文脈情報とその評価基準が最先端モデルにおいても重要な課題であることを示している。
論文 参考訳(メタデータ) (2025-03-19T18:09:19Z) - The Vulnerability of Language Model Benchmarks: Do They Accurately Reflect True LLM Performance? [1.3810901729134184]
大きな言語モデル(LLM)は、真の言語理解と適応性を示すのに失敗しながら、標準化されたテストで優れている。
NLP評価フレームワークの系統的解析により,評価スペクトルにまたがる広範囲にわたる脆弱性が明らかになった。
我々は、操作に抵抗し、データの汚染を最小限に抑え、ドメイン固有のタスクを評価する新しい評価方法の土台を築いた。
論文 参考訳(メタデータ) (2024-12-02T20:49:21Z) - VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。