論文の概要: GenEval 2: Addressing Benchmark Drift in Text-to-Image Evaluation
- arxiv url: http://arxiv.org/abs/2512.16853v1
- Date: Thu, 18 Dec 2025 18:26:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:32.206358
- Title: GenEval 2: Addressing Benchmark Drift in Text-to-Image Evaluation
- Title(参考訳): GenEval 2: テキスト・画像評価におけるベンチマークドリフトへの対処
- Authors: Amita Kamath, Kai-Wei Chang, Ranjay Krishna, Luke Zettlemoyer, Yushi Hu, Marjan Ghazvininejad,
- Abstract要約: ベンチマークドリフトは、最も人気のあるT2Iベンチマークの一つであるGenEvalにとって重要な問題であることを示す。
我々は新しいベンチマークGenEval 2を導入し、原始的な視覚概念のカバレッジを改善し、より高度な構成性を実現した。
- 参考スコア(独自算出の注目度): 115.5420203140596
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Automating Text-to-Image (T2I) model evaluation is challenging; a judge model must be used to score correctness, and test prompts must be selected to be challenging for current T2I models but not the judge. We argue that satisfying these constraints can lead to benchmark drift over time, where the static benchmark judges fail to keep up with newer model capabilities. We show that benchmark drift is a significant problem for GenEval, one of the most popular T2I benchmarks. Although GenEval was well-aligned with human judgment at the time of its release, it has drifted far from human judgment over time -- resulting in an absolute error of as much as 17.7% for current models. This level of drift strongly suggests that GenEval has been saturated for some time, as we verify via a large-scale human study. To help fill this benchmarking gap, we introduce a new benchmark, GenEval 2, with improved coverage of primitive visual concepts and higher degrees of compositionality, which we show is more challenging for current models. We also introduce Soft-TIFA, an evaluation method for GenEval 2 that combines judgments for visual primitives, which we show is more well-aligned with human judgment and argue is less likely to drift from human-alignment over time (as compared to more holistic judges such as VQAScore). Although we hope GenEval 2 will provide a strong benchmark for many years, avoiding benchmark drift is far from guaranteed and our work, more generally, highlights the importance of continual audits and improvement for T2I and related automated model evaluation benchmarks.
- Abstract(参考訳): 判断モデルは正当性を評価するために用いられなければならず、テストプロンプトは現行のT2Iモデルでは難しいが、判断者ではない。
これらの制約を満たすことで、静的なベンチマーク判断者が新しいモデル機能に追いつくことができず、時間の経過とともにベンチマークのドリフトにつながると我々は主張する。
ベンチマークドリフトは、最も人気のあるT2Iベンチマークの一つであるGenEvalにとって重要な問題であることを示す。
GenEvalはリリース当時、人間の判断とよく一致していたが、時間とともに人間の判断から遠ざかってきており、現在のモデルでは17.7%の絶対誤差となっている。
このレベルのドリフトは、大規模な人間による研究によって、GenEvalがしばらく飽和していたことを強く示唆している。
このベンチマークギャップを埋めるために、我々はGenEval 2という新しいベンチマークを導入しました。
我々はまた、視覚的プリミティブの判断を組み合わせたGenEval 2の評価手法であるSoft-TIFAを紹介した。
GenEval 2が長年にわたって強力なベンチマークを提供することを期待していますが、ベンチマークドリフトの回避は保証されておらず、より一般的には、継続監査の重要性とT2Iおよび関連する自動モデル評価ベンチマークの改善を強調しています。
関連論文リスト
- Gesture Generation (Still) Needs Improved Human Evaluation Practices: Insights from a Community-Driven State-of-the-Art Benchmark [55.41250396114216]
音声認識による3Dジェスチャー生成における人的評価の実践について検討する。
本稿では,広範に使用されているBEAT2モーションキャプチャーデータセットの詳細な評価プロトコルを提案する。
論文 参考訳(メタデータ) (2025-11-03T05:17:28Z) - CompassJudger-2: Towards Generalist Judge Model via Verifiable Rewards [72.44810390478229]
CompassJudger-2は、タスク駆動のマルチドメインデータキュレーション戦略によって制限を克服する新しいジェネラリストジャッジモデルである。
CompassJudger-2は、複数の判定と報奨ベンチマークで優れた結果を得る。
論文 参考訳(メタデータ) (2025-07-12T01:34:24Z) - Multi-Modal Language Models as Text-to-Image Model Evaluators [16.675735328424786]
MT2IE(Multimodal Text-to-Image Eval)は、評価のためのプロンプトを反復的に生成する評価フレームワークである。
MT2IEの即時一貫性スコアは,従来文献に紹介されていたスコアよりも高い相関性を示した。
論文 参考訳(メタデータ) (2025-05-01T17:47:55Z) - A Comparative Analysis on Ethical Benchmarking in Large Language Models [0.0]
この研究は、インテリジェントシステムが人間の価値を正確に表現し、それに従って行動するかどうかを評価するテストを開発する機械倫理(ME)ベンチマークの分野に貢献する。
我々は,非現実的な倫理的ジレンマによる生態的妥当性の制限,包括的・排他的基準のない非構造的質問生成,人間のアノテーションへの依存によるスケーラビリティの欠如,の3つの主要な課題を明らかにした。
医用領域の現実的な倫理的ジレンマを特徴とするTriage BenchmarkとMedicical Law (MedLaw) Benchmarkの2つのMEベンチマークを紹介した。
論文 参考訳(メタデータ) (2024-10-11T05:05:21Z) - MMBench: Is Your Multi-modal Model an All-around Player? [114.45702807380415]
視覚言語モデルのマルチモーダル能力を評価するためのベンチマークであるMMBenchを提案する。
MMBenchは、よく設計された品質制御スキームで慎重にキュレートされている。
MMBenchは英語版と中国語版の両方で複数の質問を取り入れている。
論文 参考訳(メタデータ) (2023-07-12T16:23:09Z) - HRS-Bench: Holistic, Reliable and Scalable Benchmark for Text-to-Image
Models [39.38477117444303]
HRS-Benchはテキスト・ツー・イメージ(T2I)モデルの評価ベンチマークである。
正確性、堅牢性、一般化、公正性、偏見の5つのカテゴリに分類される13のスキルを測定する。
ファッション、動物、輸送、食品、衣服など50のシナリオをカバーしている。
論文 参考訳(メタデータ) (2023-04-11T17:59:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。