論文の概要: MEF: A Systematic Evaluation Framework for Text-to-Image Models
- arxiv url: http://arxiv.org/abs/2509.17907v1
- Date: Mon, 22 Sep 2025 15:32:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.468094
- Title: MEF: A Systematic Evaluation Framework for Text-to-Image Models
- Title(参考訳): MEF:テキスト・画像モデルのためのシステム評価フレームワーク
- Authors: Xiaojing Dong, Weilin Huang, Liang Li, Yiying Li, Shu Liu, Tongtong Ou, Shuang Ouyang, Yu Tian, Fengxuan Zhao,
- Abstract要約: 現在の評価は、総合ランキングにELO、次元別スコアにMOSのいずれかに依存している。
我々は、T2Iモデルを評価するための体系的で実践的なアプローチであるマジック・アセスメント・フレームワーク(MEF)を紹介する。
評価フレームワークをリリースし,Magic-Bench-377を完全オープンソースにし,視覚生成モデルの評価研究を進めた。
- 参考スコア(独自算出の注目度): 21.006921005280493
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Rapid advances in text-to-image (T2I) generation have raised higher requirements for evaluation methodologies. Existing benchmarks center on objective capabilities and dimensions, but lack an application-scenario perspective, limiting external validity. Moreover, current evaluations typically rely on either ELO for overall ranking or MOS for dimension-specific scoring, yet both methods have inherent shortcomings and limited interpretability. Therefore, we introduce the Magic Evaluation Framework (MEF), a systematic and practical approach for evaluating T2I models. First, we propose a structured taxonomy encompassing user scenarios, elements, element compositions, and text expression forms to construct the Magic-Bench-377, which supports label-level assessment and ensures a balanced coverage of both user scenarios and capabilities. On this basis, we combine ELO and dimension-specific MOS to generate model rankings and fine-grained assessments respectively. This joint evaluation method further enables us to quantitatively analyze the contribution of each dimension to user satisfaction using multivariate logistic regression. By applying MEF to current T2I models, we obtain a leaderboard and key characteristics of the leading models. We release our evaluation framework and make Magic-Bench-377 fully open-source to advance research in the evaluation of visual generative models.
- Abstract(参考訳): テキスト・トゥ・イメージ(T2I)生成の急速な進歩により,評価手法の要求が高まっている。
既存のベンチマークは、客観的な能力と寸法に重点を置いているが、アプリケーション・シナリオの観点が欠如しており、外部の妥当性が制限されている。
さらに、現在の評価では、全体的なランキングはELO、次元別スコアはMOSのいずれかに依存しているが、どちらの手法も固有の欠点と限定的な解釈可能性を持っている。
そこで我々は,T2Iモデルを評価するための体系的かつ実践的なアプローチであるマジック・アセスメント・フレームワーク(MEF)を紹介した。
まず, ユーザシナリオ, 要素, 要素構成, テキスト表現形式を含む構造的分類法を提案し, ラベルレベルの評価をサポートし, ユーザシナリオと能力のバランスの取れたカバレッジを確保するMagic-Bench-377を構築した。
そこで我々は,ELOと次元特異的MOSを組み合わせて,それぞれモデルランキングときめ細かい評価を生成する。
この共同評価手法により,多変量ロジスティック回帰を用いて,各次元のユーザの満足度に対する貢献度を定量的に分析することができる。
現在のT2IモデルにMEFを適用することで、リーダーボードと主要なモデルの特徴が得られる。
評価フレームワークをリリースし,Magic-Bench-377を完全オープンソースにし,視覚生成モデルの評価研究を進めた。
関連論文リスト
- UniGenBench++: A Unified Semantic Evaluation Benchmark for Text-to-Image Generation [40.644151228285246]
テキスト・ツー・イメージ生成のための統合意味評価ベンチマークであるUniGenBench++を紹介する。
カバー範囲と効率性を確保するため、600のプロンプトが階層的に編成されている。
英語と中国語の両方のプロンプトを短くて長い形で提供する。
論文 参考訳(メタデータ) (2025-10-21T14:56:46Z) - Adapting Vision-Language Models for Evaluating World Models [24.813041196394582]
データおよび計算制約下でのシミュレーション環境におけるロールアウトに対する視覚言語評価手法であるUNIVERSEを提案する。
本研究では,タスク形式,コンテキスト長,サンプリング戦略,データ構成を網羅した,完全,部分的,パラメータ効率の微調整を大規模に検討する。
その結果得られた統合評価器は、単一のチェックポイントを使用してタスク固有のベースラインのパフォーマンスにマッチする。
論文 参考訳(メタデータ) (2025-06-22T09:53:28Z) - OneIG-Bench: Omni-dimensional Nuanced Evaluation for Image Generation [23.05106664412349]
テキスト・ツー・イメージ(T2I)モデルは、テキスト・プロンプトに整合した高品質な画像を生成する上で大きな注目を集めている。
OneIG-Benchは、T2Iモデルを複数の次元で評価するためのベンチマークフレームワークである。
論文 参考訳(メタデータ) (2025-06-09T17:50:21Z) - Minos: A Multimodal Evaluation Model for Bidirectional Generation Between Image and Text [51.149562188883486]
我々は,人間とGPTの両方による評価データを組み合わせた大規模マルチモーダル評価データセットであるMinos-Corpusを紹介する。
このコーパスに基づいて,データ選択とバランス,混合SFTトレーニング手法を提案し,DPOをミノの開発に適用する。
論文 参考訳(メタデータ) (2025-06-03T06:17:16Z) - From Rankings to Insights: Evaluation Should Shift Focus from Leaderboard to Feedback [36.68929551237421]
包括的できめ細かい結果を提供する評価フレームワークであるbftextFeedbackerを紹介します。
プロジェクトのホームページとデータセットはhttps://liudan193.io/Feedbacker.comで公開されています。
論文 参考訳(メタデータ) (2025-05-10T16:52:40Z) - VideoGen-Eval: Agent-based System for Video Generation Evaluation [54.662739174367836]
ビデオ生成は、最先端のモデルを評価するのに、既存の評価システムを不十分にしている。
本稿では,コンテンツ構造化,MLLMに基づくコンテンツ判断,時空間次元のパッチツールを統合したエージェント評価システムであるVideoGen-Evalを提案する。
我々は,既存の最先端モデルを評価するためのビデオ生成ベンチマークを導入し,評価システムの有効性を検証する。
論文 参考訳(メタデータ) (2025-03-30T14:12:21Z) - Evaluating LLM-based Agents for Multi-Turn Conversations: A Survey [64.08485471150486]
本研究では,大規模言語モデル(LLM)に基づくマルチターン対話環境におけるエージェントの評価手法について検討する。
我々は250近い学術資料を体系的にレビューし、様々な出版場所から芸術の状態を捉えた。
論文 参考訳(メタデータ) (2025-03-28T14:08:40Z) - EvalGIM: A Library for Evaluating Generative Image Models [26.631349186382664]
テキストから画像への生成モデルを評価するためのライブラリであるEvalGIMを紹介する。
EvalGIMは、品質、多様性、一貫性を測定するために使用されるデータセットとメトリクスを幅広くサポートする。
EvalGIMには、テキストから画像への生成モデルのための2つの新しい分析手法を導入する評価演習も含まれている。
論文 参考訳(メタデータ) (2024-12-13T23:15:35Z) - MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs [97.94579295913606]
MLLM(Multimodal Large Language Models)は、産業と学術の両方から注目を集めている。
開発プロセスでは、モデルの改善に関する直感的なフィードバックとガイダンスを提供するため、評価が重要である。
この研究は、研究者に異なるニーズに応じてMLLMを効果的に評価する方法を簡単に把握し、より良い評価方法を促すことを目的としている。
論文 参考訳(メタデータ) (2024-11-22T18:59:54Z) - Benchmarks as Microscopes: A Call for Model Metrology [76.64402390208576]
現代の言語モデル(LM)は、能力評価において新たな課題を提起する。
メトリクスに自信を持つためには、モデルミアロジの新たな規律が必要です。
論文 参考訳(メタデータ) (2024-07-22T17:52:12Z) - Learning Evaluation Models from Large Language Models for Sequence Generation [61.8421748792555]
本稿では,大規模言語モデルを用いた3段階評価モデルトレーニング手法を提案する。
SummEval ベンチマークによる実験結果から,CSEM は人間ラベルデータなしで評価モデルを効果的に訓練できることが示された。
論文 参考訳(メタデータ) (2023-08-08T16:41:16Z) - MMBench: Is Your Multi-modal Model an All-around Player? [114.45702807380415]
視覚言語モデルのマルチモーダル能力を評価するためのベンチマークであるMMBenchを提案する。
MMBenchは、よく設計された品質制御スキームで慎重にキュレートされている。
MMBenchは英語版と中国語版の両方で複数の質問を取り入れている。
論文 参考訳(メタデータ) (2023-07-12T16:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。