論文の概要: FRABench and GenEval: Scaling Fine-Grained Aspect Evaluation across Tasks, Modalities
- arxiv url: http://arxiv.org/abs/2505.12795v2
- Date: Tue, 27 May 2025 02:54:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 14:37:19.563464
- Title: FRABench and GenEval: Scaling Fine-Grained Aspect Evaluation across Tasks, Modalities
- Title(参考訳): FRABenchとGenEval:タスク,モダリティをまたいだ細粒度アスペクトのスケーリング
- Authors: Shibo Hong, Jiahao Ying, Haiyuan Liang, Mengdi Zhang, Jun Kuang, Jiazheng Zhang, Yixin Cao,
- Abstract要約: 既存の"LLM-as-a-Judge"評価器は、通常、いくつかのタスク、アスペクト、モダリティにおいて狭い。
我々は、明示的できめ細かいアスペクト仕様が、自動評価における一般化可能性と客観性の両方の鍵であると主張している。
- 参考スコア(独自算出の注目度): 7.416026808698028
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluating the open-ended outputs of large language models (LLMs) has become a bottleneck as model capabilities, task diversity, and modality coverage rapidly expand. Existing "LLM-as-a-Judge" evaluators are typically narrow in a few tasks, aspects, or modalities, and easily suffer from low consistency. In this paper, we argue that explicit, fine-grained aspect specification is the key to both generalizability and objectivity in automated evaluation. To this end, we propose a hierarchical aspect taxonomy encompassing 112 distinct aspects that unifies evaluation across four representative settings -- Natural Language Generation, Image Understanding, Image Generation, and Interleaved Text-and-Image Generation. Building upon this taxonomy, we create FRABench, a benchmark comprising 60.4k pairwise samples with 325k evaluation labels obtained from a combination of human and LLM annotations. FRABench provides the first large-scale, multi-modal resource for training and meta-evaluating fine-grained LMM judges. Leveraging FRABench, we develop GenEval, a fine-grained evaluator generalizable across tasks and modalities. Experiments show that GenEval (i) attains high agreement with GPT-4o and expert annotators, (ii) transfers robustly to unseen tasks and modalities, and (iii) reveals systematic weaknesses of current LMMs on evaluation.
- Abstract(参考訳): 大規模言語モデル(LLM)のオープンエンドアウトプットを評価することは、モデル能力、タスクの多様性、モダリティカバレッジが急速に拡大するにつれてボトルネックとなっている。
既存の"LLM-as-a-Judge"評価器は、いくつかのタスク、アスペクト、あるいはモダリティにおいて一般的に狭く、一貫性の低下に苦しむ。
本稿では、自動評価における一般化可能性と客観性の両方の鍵となる、明示的できめ細かいアスペクト仕様について論じる。
そこで本研究では,自然言語生成,画像理解,画像生成,インターリーブテキスト・アンド・画像生成という4つの代表的な設定で評価を統一する112の異なる側面を含む階層的側面分類法を提案する。
この分類に基づいてFRABenchを作成した。FRABenchは60.4k対のサンプルと325kの評価ラベルからなるベンチマークで、人間とLLMアノテーションの組み合わせから得られる。
FRABenchは、訓練とメタ評価のための最初の大規模マルチモーダルリソースを提供する。
FRABenchを活用することで、タスクやモダリティにまたがって一般化可能なきめ細かい評価器であるGenEvalを開発する。
GenEvalの実験結果
(i) GPT-4o とエキスパートアノテーションとの高い合意を得る。
(二)見知らぬ課題・モダリティにしっかりと移行し、
(iii) 評価における現在のLMMの系統的弱点を明らかにする。
関連論文リスト
- VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。
本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。
我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文 参考訳(メタデータ) (2025-02-25T23:36:19Z) - EmbodiedBench: Comprehensive Benchmarking Multi-modal Large Language Models for Vision-Driven Embodied Agents [63.43699771428243]
EmbodiedBenchは、視覚駆動型エンボディエージェントを評価するために設計された広範囲なベンチマークである。
我々はEmbodiedBench内のプロプライエタリでオープンソースなMLLMを19件評価した。
MLLMは高レベルのタスクでは優れているが、低レベルの操作には苦労する。
論文 参考訳(メタデータ) (2025-02-13T18:11:34Z) - Automatic Evaluation for Text-to-image Generation: Task-decomposed Framework, Distilled Training, and Meta-evaluation Benchmark [62.58869921806019]
GPT-4oに基づくタスク分解評価フレームワークを提案し、新しいトレーニングデータセットを自動構築する。
我々は、GPT-4oの評価能力を7BオープンソースMLLM、MiniCPM-V-2.6に効果的に蒸留するための革新的なトレーニング戦略を設計する。
実験結果から,我々の蒸留したオープンソースMLLMは,現在のGPT-4oベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2024-11-23T08:06:06Z) - SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。
SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。
我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文 参考訳(メタデータ) (2023-11-28T05:53:55Z) - MMBench: Is Your Multi-modal Model an All-around Player? [114.45702807380415]
視覚言語モデルのマルチモーダル能力を評価するためのベンチマークであるMMBenchを提案する。
MMBenchは、よく設計された品質制御スキームで慎重にキュレートされている。
MMBenchは英語版と中国語版の両方で複数の質問を取り入れている。
論文 参考訳(メタデータ) (2023-07-12T16:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。