論文の概要: AutoJudger: An Agent-Driven Framework for Efficient Benchmarking of MLLMs
- arxiv url: http://arxiv.org/abs/2505.21389v1
- Date: Tue, 27 May 2025 16:17:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.7935
- Title: AutoJudger: An Agent-Driven Framework for Efficient Benchmarking of MLLMs
- Title(参考訳): AutoJudger: MLLMの効率的なベンチマークのためのエージェント駆動フレームワーク
- Authors: Xuanwen Ding, Chengjun Pan, Zejun Li, Jiwen Zhang, Siyuan Wang, Zhongyu Wei,
- Abstract要約: AutoJudgerはマルチモーダルな大規模言語モデルの効率的かつ適応的なベンチマークのためのエージェント駆動フレームワークである。
AutoJudgerは、アイテム応答理論(IRT)を用いて、質問の難易度を推定し、自律的な評価エージェントを使用して最も情報性の高いテスト質問を動的に選択する。
- 参考スコア(独自算出の注目度): 24.403284945948272
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluating multimodal large language models (MLLMs) is increasingly expensive, as the growing size and cross-modality complexity of benchmarks demand significant scoring efforts. To tackle with this difficulty, we introduce AutoJudger, an agent-driven framework for efficient and adaptive benchmarking of MLLMs that tackles this escalating cost. AutoJudger employs the Item Response Theory (IRT) to estimate the question difficulty and an autonomous evaluation agent to dynamically select the most informative test questions based on the model's real-time performance. Specifically, AutoJudger incorporates two pivotal components: a semantic-aware retrieval mechanism to ensure that selected questions cover diverse and challenging scenarios across both vision and language modalities, and a dynamic memory that maintains contextual statistics of previously evaluated questions to guide coherent and globally informed question selection throughout the evaluation process. Extensive experiments on four representative multimodal benchmarks demonstrate that our adaptive framework dramatically reduces evaluation expenses, i.e. AutoJudger uses only 4% of the data to achieve over 90% ranking accuracy with the full benchmark evaluation on MMT-Bench.
- Abstract(参考訳): マルチモーダルな大規模言語モデル (MLLM) の評価は、ベンチマークのサイズが増大し、モダリティが複雑化するにつれ、ますますコストがかかる。
この課題に対処するため,エージェント駆動型MLLMベンチマークフレームワークであるAutoJudgerを紹介した。
AutoJudgerはIRT(Item Response Theory)を用いて、質問の難易度を推定し、自律的な評価エージェントを使用して、モデルのリアルタイムパフォーマンスに基づいて最も情報性の高いテスト質問を動的に選択する。
具体的には、AutoJudgerには2つの重要なコンポーネントがある: 選択された質問が視覚と言語モダリティの両方にわたる多様かつ困難なシナリオをカバーすることを保証するセマンティック・アウェア・検索機構と、以前評価された質問の文脈統計を保守し、評価プロセス全体を通して一貫性のある、そして世界的に情報を得た質問選択を導くダイナミックメモリである。
4つの代表的なマルチモーダルベンチマークに対する大規模な実験により、我々の適応的フレームワークは評価コストを劇的に削減し、すなわち、AutoJudgerは、MMT-Benchのベンチマーク評価で90%以上のランキング精度を達成するために、わずか4%しかデータを使用しないことを示した。
関連論文リスト
- MTR-Bench: A Comprehensive Benchmark for Multi-Turn Reasoning Evaluation [56.87891213797931]
大規模言語モデルに対するMTR-Benchの評価について述べる。
4つのクラス、40のタスク、3600のインスタンスを含むMTR-Benchは、様々な推論機能をカバーする。
MTR-Benchは、データセットの構築とモデル評価の両方にまたがる、完全に自動化されたフレームワークを備えている。
論文 参考訳(メタデータ) (2025-05-21T17:59:12Z) - DriveLMM-o1: A Step-by-Step Reasoning Dataset and Large Multimodal Model for Driving Scenario Understanding [76.3876070043663]
自律運転のための段階的視覚的推論を推し進めるためのデータセットとベンチマークであるDriveLMM-o1を提案する。
私たちのベンチマークでは、トレーニングセットに18k以上のVQAサンプル、テストセットに4k以上、知覚、予測、計画に関するさまざまな質問をカバーしています。
我々のモデルは、最終回答精度が+7.49%向上し、以前の最高のオープンソースモデルよりも3.62%向上した。
論文 参考訳(メタデータ) (2025-03-13T17:59:01Z) - REAL-MM-RAG: A Real-World Multi-Modal Retrieval Benchmark [16.55516587540082]
本稿では,リアルタイム検索に不可欠な4つの重要な特性に対処する自動生成ベンチマークREAL-MM-RAGを紹介する。
本稿では,キーワードマッチング以外のモデルのセマンティック理解を評価するために,クエリリフレッシングに基づく多言語レベルのスキームを提案する。
我々のベンチマークでは、特にテーブル重ドキュメントの扱いや、クエリ・リフレージングに対する堅牢性において、重要なモデルの弱点が明らかになっている。
論文 参考訳(メタデータ) (2025-02-17T22:10:47Z) - AutoBench-V: Can Large Vision-Language Models Benchmark Themselves? [65.92331309449015]
本稿では,モデル能力の特定の側面に基づいてLVLMをベンチマークする,オンデマンドで評価を行う自動フレームワークであるAutoBench-Vを紹介する。
5つの要求されたユーザ入力に対して9つの人気のあるLVLMを広範囲に評価することにより、このフレームワークの有効性と信頼性を示す。
論文 参考訳(メタデータ) (2024-10-28T17:55:08Z) - Benchmark Self-Evolving: A Multi-Agent Framework for Dynamic LLM
Evaluation [51.99752147380505]
本稿では,大規模言語モデル(LLM)を動的に評価するベンチマーク自己進化フレームワークを提案する。
マルチエージェントシステムを用いて、元のインスタンスのコンテキストや質問を操作し、信頼性の高い新しいインスタンスをフレーミングする。
我々のフレームワークは、異なるモデル間の性能の相違を拡大し、様々なタスクで同じモデル内で性能の相違を拡大します。
論文 参考訳(メタデータ) (2024-02-18T03:40:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。