論文の概要: A2Eval: Agentic and Automated Evaluation for Embodied Brain
- arxiv url: http://arxiv.org/abs/2602.01640v1
- Date: Mon, 02 Feb 2026 04:55:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.909734
- Title: A2Eval: Agentic and Automated Evaluation for Embodied Brain
- Title(参考訳): A2Eval:脳のエージェント的および自動評価
- Authors: Shuai Zhang, Jiayu Hu, Zijie Chen, Zeyuan Ding, Yi Zhang, Yingji Zhang, Ziyi Zhou, Junwei Liao, Shengjie Zhou, Yong Dai, Zhenzhong Lan, Xiaozhu Ju,
- Abstract要約: 現在のVLMの評価は静的で専門家が定義し、手動で注釈付けされたベンチマークに依存している。
Agentic Automatic Evaluation (A2Eval)は、ベンチマークのキュレーションと2つの協調エージェントによる評価を自動化する最初のエージェントフレームワークである。
10のベンチマークと13のモデルで評価され、A2Evalは評価スイートを85%圧縮し、全体的な計算コストを77%削減し、4.6倍のスピードアップを提供する。
- 参考スコア(独自算出の注目度): 26.357063836707223
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current embodied VLM evaluation relies on static, expert-defined, manually annotated benchmarks that exhibit severe redundancy and coverage imbalance. This labor intensive paradigm drains computational and annotation resources, inflates costs, and distorts model rankings, ultimately stifling iterative development. To address this, we propose Agentic Automatic Evaluation (A2Eval), the first agentic framework that automates benchmark curation and evaluation through two collaborative agents. The Data Agent autonomously induces capability dimensions and assembles a balanced, compact evaluation suite, while the Eval Agent synthesizes and validates executable evaluation pipelines, enabling fully autonomous, high-fidelity assessment. Evaluated across 10 benchmarks and 13 models, A2Eval compresses evaluation suites by 85%, reduces overall computational costs by 77%, and delivers a 4.6x speedup while preserving evaluation quality. Crucially, A2Eval corrects systematic ranking biases, improves human alignment to Spearman's rho=0.85, and maintains high ranking fidelity (Kendall's tau=0.81), establishing a new standard for high-fidelity, low-cost embodied assessment. Our code and data will be public soon.
- Abstract(参考訳): 現在のVLM評価は、厳密な冗長性とカバレッジの不均衡を示す静的で専門家が定義した手動の注釈付きベンチマークに依存している。
この労働集約パラダイムは計算資源とアノテーション資源を排水し、コストを膨らませ、モデルランキングを歪ませ、最終的には反復的な開発を阻害する。
これを解決するために,ベンチマークのキュレーションと2つの協調エージェントによる評価を自動化する最初のエージェントフレームワークであるエージェント自動評価(A2Eval)を提案する。
データエージェントは、能力次元を自律的に誘導し、バランスの取れたコンパクトな評価スイートを組み立て、Eval Agentは実行可能な評価パイプラインを合成し、検証し、完全に自律的で高忠実な評価を可能にする。
10のベンチマークと13のモデルで評価され、A2Evalは評価スイートを85%圧縮し、全体的な計算コストを77%削減し、評価品質を維持しながら4.6倍のスピードアップを提供する。
重要な点として、A2Evalは体系的なランキングバイアスを補正し、スピアマンのrho=0.85と人間のアライメントを改善し、高いランク忠実性を維持する(ケンドールのtau=0.81)。
コードとデータはまもなく公開されます。
関連論文リスト
- AutoBench: Automating LLM Evaluation through Reciprocal Peer Assessment [12.9569411072262]
AutoBenchは、大規模言語モデル(LLM)を評価するための、完全に自動化され、自己持続的なフレームワークである
本稿では,eZecute S.R.L によるオープンソースプロジェクトとして開発された AutoBench 方法論の厳密な科学的検証を行う。
論文 参考訳(メタデータ) (2025-10-26T09:20:39Z) - Foundational Automatic Evaluators: Scaling Multi-Task Generative Evaluator Training for Reasoning-Centric Domains [97.5573252172065]
自動推論評価器(FARE)のファミリーを,簡易な反復的リジェクションサンプリング制御による微調整手法で訓練する。
FARE-8Bはより大型のRL訓練評価器に挑戦し、FARE-20Bはオープンソース評価器の新しい標準となる。
推論時リランカとして、FARE-20BはMATH上でのニアオークル性能を達成する。
論文 参考訳(メタデータ) (2025-10-20T17:52:06Z) - Bench-2-CoP: Can We Trust Benchmarking for EU AI Compliance? [2.010294990327175]
現在のAI評価プラクティスは、確立されたベンチマークに大きく依存しています。
この研究は、この「ベンチマーク・規制ギャップ」を定量化する緊急の必要性に対処する。
評価のエコシステムは、その焦点の大部分を狭い行動規範に捧げています。
論文 参考訳(メタデータ) (2025-08-07T15:03:39Z) - The Great Nugget Recall: Automating Fact Extraction and RAG Evaluation with Large Language Models [53.12387628636912]
本稿では,人間のアノテーションに対して評価を行う自動評価フレームワークを提案する。
この手法は2003年にTREC Question Answering (QA) Trackのために開発された。
完全自動ナゲット評価から得られるスコアと人間に基づく変種とのランニングレベルでの強い一致を観察する。
論文 参考訳(メタデータ) (2025-04-21T12:55:06Z) - AutoEval: A Practical Framework for Autonomous Evaluation of Mobile Agents [5.995751996623217]
モバイルエージェントを手作業なしでテストする評価フレームワークであるAutoEvalを提案する。
提案手法では,タスク報酬信号の自動生成に使用可能なUI状態変化表現を設計する。
我々はまた、我々のフレームワークを使って最先端のモバイルエージェントを評価し、その性能と限界について洞察を提供する。
論文 参考訳(メタデータ) (2025-03-04T08:44:30Z) - Early-Exit and Instant Confidence Translation Quality Estimation [46.13074343863971]
本研究では,(1)スケールにおける品質推定のコスト削減,(2)品質推定のための安価な不確実性推定手法の開発,という2つの課題に対処する。
後者に対処するため,従来の手法の性能を若干のコストで一致させる不確実性を考慮した品質評価モデルであるInstant Confidence COMETを導入する。
我々はこれを、初期のモデル層ですでに品質スコアと関連する信頼度を計算できる品質評価モデルであるEarly-Exit COMETに拡張し、計算の早期実行と評価コストの削減を可能にします。
論文 参考訳(メタデータ) (2025-02-20T10:27:13Z) - Autonomous Evaluation and Refinement of Digital Agents [57.12281122337407]
ドメイン汎用自動評価器は,Webナビゲーションやデバイス制御のためのエージェントの性能を大幅に向上させることができることを示す。
我々は、これらのモデルの性能をいくつかの一般的なデジタルエージェントのベンチマークで検証し、オラクル評価指標との74.4から92.9%の一致を見出した。
論文 参考訳(メタデータ) (2024-04-09T17:25:47Z) - From Adversarial Arms Race to Model-centric Evaluation: Motivating a
Unified Automatic Robustness Evaluation Framework [91.94389491920309]
テキストの敵対攻撃は、セマンティック保存されているが、入力に誤解を招く摂動を加えることでモデルの弱点を発見することができる。
既存のロバストネス評価の実践は、包括的評価、非現実的評価プロトコル、無効な対人サンプルの問題を示す可能性がある。
我々は、敵攻撃の利点を活用するために、モデル中心の評価にシフトする統合された自動ロバストネス評価フレームワークを構築した。
論文 参考訳(メタデータ) (2023-05-29T14:55:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。