Fugu-MT 論文翻訳(概要): FRABench and GenEval: Scaling Fine-Grained Aspect Evaluation across Tasks, Modalities

論文の概要: FRABench and GenEval: Scaling Fine-Grained Aspect Evaluation across Tasks, Modalities

arxiv url: http://arxiv.org/abs/2505.12795v2
Date: Tue, 27 May 2025 02:54:31 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-28 14:37:19.563464
Title: FRABench and GenEval: Scaling Fine-Grained Aspect Evaluation across Tasks, Modalities
Title（参考訳）: FRABenchとGenEval:タスク,モダリティをまたいだ細粒度アスペクトのスケーリング
Authors: Shibo Hong, Jiahao Ying, Haiyuan Liang, Mengdi Zhang, Jun Kuang, Jiazheng Zhang, Yixin Cao,
Abstract要約: 既存の"LLM-as-a-Judge"評価器は、通常、いくつかのタスク、アスペクト、モダリティにおいて狭い。我々は、明示的できめ細かいアスペクト仕様が、自動評価における一般化可能性と客観性の両方の鍵であると主張している。
参考スコア（独自算出の注目度）: 7.416026808698028
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Evaluating the open-ended outputs of large language models (LLMs) has become a bottleneck as model capabilities, task diversity, and modality coverage rapidly expand. Existing "LLM-as-a-Judge" evaluators are typically narrow in a few tasks, aspects, or modalities, and easily suffer from low consistency. In this paper, we argue that explicit, fine-grained aspect specification is the key to both generalizability and objectivity in automated evaluation. To this end, we propose a hierarchical aspect taxonomy encompassing 112 distinct aspects that unifies evaluation across four representative settings -- Natural Language Generation, Image Understanding, Image Generation, and Interleaved Text-and-Image Generation. Building upon this taxonomy, we create FRABench, a benchmark comprising 60.4k pairwise samples with 325k evaluation labels obtained from a combination of human and LLM annotations. FRABench provides the first large-scale, multi-modal resource for training and meta-evaluating fine-grained LMM judges. Leveraging FRABench, we develop GenEval, a fine-grained evaluator generalizable across tasks and modalities. Experiments show that GenEval (i) attains high agreement with GPT-4o and expert annotators, (ii) transfers robustly to unseen tasks and modalities, and (iii) reveals systematic weaknesses of current LMMs on evaluation.
Abstract（参考訳）: 大規模言語モデル(LLM)のオープンエンドアウトプットを評価することは、モデル能力、タスクの多様性、モダリティカバレッジが急速に拡大するにつれてボトルネックとなっている。既存の"LLM-as-a-Judge"評価器は、いくつかのタスク、アスペクト、あるいはモダリティにおいて一般的に狭く、一貫性の低下に苦しむ。本稿では、自動評価における一般化可能性と客観性の両方の鍵となる、明示的できめ細かいアスペクト仕様について論じる。そこで本研究では,自然言語生成,画像理解,画像生成,インターリーブテキスト・アンド・画像生成という4つの代表的な設定で評価を統一する112の異なる側面を含む階層的側面分類法を提案する。この分類に基づいてFRABenchを作成した。FRABenchは60.4k対のサンプルと325kの評価ラベルからなるベンチマークで、人間とLLMアノテーションの組み合わせから得られる。 FRABenchは、訓練とメタ評価のための最初の大規模マルチモーダルリソースを提供する。 FRABenchを活用することで、タスクやモダリティにまたがって一般化可能なきめ細かい評価器であるGenEvalを開発する。 GenEvalの実験結果 (i) GPT-4o とエキスパートアノテーションとの高い合意を得る。 (二)見知らぬ課題・モダリティにしっかりと移行し、 (iii) 評価における現在のLMMの系統的弱点を明らかにする。

関連論文リスト

GLM-4.1V-Thinking: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning [112.51671310005604]
GLM-4.1V-9B-Thinkingは、汎用マルチモーダル理解と推論を促進するために設計された視覚言語モデル(VLM)である。モデルの潜在能力を最大限に活用するために,カリキュラムサンプリングを用いた強化学習を提案する。オープンソースのGLM-4.1V-9B-Thinkingは、同等の大きさのモデル間で最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-07-01T17:55:04Z)
VisionReasoner: Unified Visual Perception and Reasoning via Reinforcement Learning [55.34552054232695]
複数の視覚知覚タスクの推論と解決が可能な統合フレームワークであるVisionReasonerを紹介する。 VisionReasonerは、検出、セグメンテーション、カウントという3つの重要な領域にまたがる10のタスクに対して評価する。
論文参考訳（メタデータ） (2025-05-17T16:51:47Z)
Vision-Language Model for Object Detection and Segmentation: A Review and Evaluation [38.20492321295552]
VLM(Vision-Language Model)は、OV(Open-Vocabulary)オブジェクトの検出とセグメンテーションタスクにおいて広く採用されている。それらはOV関連タスクを約束しているにもかかわらず、従来のビジョンタスクの有効性は評価されていない。
論文参考訳（メタデータ） (2025-04-13T08:28:13Z)
VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文参考訳（メタデータ） (2025-02-25T23:36:19Z)
EmbodiedBench: Comprehensive Benchmarking Multi-modal Large Language Models for Vision-Driven Embodied Agents [63.43699771428243]
EmbodiedBenchは、視覚駆動型エンボディエージェントを評価するために設計された広範囲なベンチマークである。我々はEmbodiedBench内のプロプライエタリでオープンソースなMLLMを19件評価した。 MLLMは高レベルのタスクでは優れているが、低レベルの操作には苦労する。
論文参考訳（メタデータ） (2025-02-13T18:11:34Z)
Automatic Evaluation for Text-to-image Generation: Task-decomposed Framework, Distilled Training, and Meta-evaluation Benchmark [62.58869921806019]
GPT-4oに基づくタスク分解評価フレームワークを提案し、新しいトレーニングデータセットを自動構築する。我々は、GPT-4oの評価能力を7BオープンソースMLLM、MiniCPM-V-2.6に効果的に蒸留するための革新的なトレーニング戦略を設計する。実験結果から,我々の蒸留したオープンソースMLLMは,現在のGPT-4oベースラインよりも有意に優れていた。
論文参考訳（メタデータ） (2024-11-23T08:06:06Z)
Putting GPT-4o to the Sword: A Comprehensive Evaluation of Language, Vision, Speech, and Multimodal Proficiency [3.161954199291541]
本研究は, GPT-4oの言語, 視覚, 音声, マルチモーダル能力を包括的に評価する。 GPT-4oは、言語と推論能力において、複数のドメインにわたる高い精度と効率を示す。モデルは可変性を示し、複雑であいまいな入力を扱う際の制限に直面している。
論文参考訳（メタデータ） (2024-06-19T19:00:21Z)
AlignMMBench: Evaluating Chinese Multimodal Alignment in Large Vision-Language Models [34.843603169616486]
大規模視覚言語モデル(VLM)のアライメント能力を評価するベンチマークであるAlignMMBenchを紹介する。このベンチマークは、現実世界のシナリオとインターネットソースから慎重にキュレートされ、シングルターンとマルチターンの対話シナリオを含む。また,GPT-4の評価能力を超えるルール校正評価器であるCristiqueVLMを開発した。
論文参考訳（メタデータ） (2024-06-13T16:30:14Z)
SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。 SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文参考訳（メタデータ） (2023-11-28T05:53:55Z)
GPT-4V(ision) as a Generalist Evaluator for Vision-Language Tasks [70.98062518872999]
我々は,GPT-4Vの性能評価,基本画像からテキストへの合成,高レベル画像から画像への変換,複数画像からテキストへのアライメントといったタスクに対処する能力を検証する。特に、GPT-4Vは、様々なタスクや評価方法にまたがって人間と有望な合意を示し、マルチモーダルLCMを評価対象として持つ可能性を示している。
論文参考訳（メタデータ） (2023-11-02T16:11:09Z)
MMBench: Is Your Multi-modal Model an All-around Player? [114.45702807380415]
視覚言語モデルのマルチモーダル能力を評価するためのベンチマークであるMMBenchを提案する。 MMBenchは、よく設計された品質制御スキームで慎重にキュレートされている。 MMBenchは英語版と中国語版の両方で複数の質問を取り入れている。
論文参考訳（メタデータ） (2023-07-12T16:23:09Z)
Towards a Unified Multi-Dimensional Evaluator for Text Generation [101.47008809623202]
自然言語生成のための統一多次元評価器UniEvalを提案する。我々はNLG評価をブール質問回答(QA)タスクとして再設定し、異なる質問でモデルを導くことで、複数の次元から評価するために1つの評価器を使うことができる。 3つの典型的なNLGタスクの実験では、UniEvalは既存のメトリクスよりも人間の判断と大きく相関している。
論文参考訳（メタデータ） (2022-10-13T17:17:03Z)
Instruction Tuning for Few-Shot Aspect-Based Sentiment Analysis [72.9124467710526]
生成的アプローチは、テキストから(1つ以上の)4つの要素を1つのタスクとして抽出するために提案されている。本稿では,ABSAを解くための統一的なフレームワークと,それに関連するサブタスクを提案する。
論文参考訳（メタデータ） (2022-10-12T23:38:57Z)
Multi-Task Learning for Dense Prediction Tasks: A Survey [87.66280582034838]
マルチタスク学習(MTL)技術は、性能、計算、メモリフットプリントに関する有望な結果を示している。我々は、コンピュータビジョンにおけるMLLのための最先端のディープラーニングアプローチについて、よく理解された視点を提供する。
論文参考訳（メタデータ） (2020-04-28T09:15:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。