論文の概要: UniGenBench++: A Unified Semantic Evaluation Benchmark for Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2510.18701v1
- Date: Tue, 21 Oct 2025 14:56:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:13.745316
- Title: UniGenBench++: A Unified Semantic Evaluation Benchmark for Text-to-Image Generation
- Title(参考訳): UniGenBench++: テキスト対画像生成のための統一されたセマンティック評価ベンチマーク
- Authors: Yibin Wang, Zhimin Li, Yuhang Zang, Jiazi Bu, Yujie Zhou, Yi Xin, Junjun He, Chunyu Wang, Qinglin Lu, Cheng Jin, Jiaqi Wang,
- Abstract要約: テキスト・ツー・イメージ生成のための統合意味評価ベンチマークであるUniGenBench++を紹介する。
カバー範囲と効率性を確保するため、600のプロンプトが階層的に編成されている。
英語と中国語の両方のプロンプトを短くて長い形で提供する。
- 参考スコア(独自算出の注目度): 40.644151228285246
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent progress in text-to-image (T2I) generation underscores the importance of reliable benchmarks in evaluating how accurately generated images reflect the semantics of their textual prompt. However, (1) existing benchmarks lack the diversity of prompt scenarios and multilingual support, both essential for real-world applicability; (2) they offer only coarse evaluations across primary dimensions, covering a narrow range of sub-dimensions, and fall short in fine-grained sub-dimension assessment. To address these limitations, we introduce UniGenBench++, a unified semantic assessment benchmark for T2I generation. Specifically, it comprises 600 prompts organized hierarchically to ensure both coverage and efficiency: (1) spans across diverse real-world scenarios, i.e., 5 main prompt themes and 20 subthemes; (2) comprehensively probes T2I models' semantic consistency over 10 primary and 27 sub evaluation criteria, with each prompt assessing multiple testpoints. To rigorously assess model robustness to variations in language and prompt length, we provide both English and Chinese versions of each prompt in short and long forms. Leveraging the general world knowledge and fine-grained image understanding capabilities of a closed-source Multi-modal Large Language Model (MLLM), i.e., Gemini-2.5-Pro, an effective pipeline is developed for reliable benchmark construction and streamlined model assessment. Moreover, to further facilitate community use, we train a robust evaluation model that enables offline assessment of T2I model outputs. Through comprehensive benchmarking of both open- and closed-sourced T2I models, we systematically reveal their strengths and weaknesses across various aspects.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)生成の最近の進歩は、生成した画像がテキスト・プロンプトのセマンティクスを正確に反映しているかを評価する上で、信頼性の高いベンチマークの重要性を強調している。
しかし,(1) 既存のベンチマークでは, 実世界の適用性に不可欠な, 即時シナリオと多言語サポートの多様性が欠如している。(2) 一次次元にわたって粗い評価のみを提供し, 狭い範囲のサブ次元をカバーし, きめ細かなサブ次元評価では不足している。
これらの制約に対処するため、我々はT2I生成のための統一的なセマンティックアセスメントベンチマークUniGenBench++を紹介した。
具体的には、600のプロンプトを階層的に構成し、カバレッジと効率を両立させる: 1) 様々な現実世界のシナリオ、すなわち5つの主要なプロンプトテーマと20のサブテーマにまたがる; 2) T2Iモデルのセマンティック一貫性を10のプライマリと27のサブ評価基準で総合的に調査し、各プロンプトが複数のテストポイントを評価する。
言語とプロンプトのバリエーションに対するモデルロバストさを厳格に評価するために、各プロンプトの英語版と中国語版の両方を短くて長い形で提供する。
クローズドソースマルチモーダル大規模言語モデル(MLLM)の一般世界の知識と精細な画像理解機能を活用することにより,信頼性の高いベンチマーク構築と合理化モデル評価のために,Gemini-2.5-Proという効果的なパイプラインを開発した。
さらに,コミュニティ利用をさらに促進するために,T2Iモデル出力のオフライン評価を可能にするロバストな評価モデルを訓練する。
オープンソースとクローズドソースの両方のT2Iモデルの包括的なベンチマークを通じて、さまざまな側面におけるその強みと弱点を体系的に明らかにする。
関連論文リスト
- UNIDOC-BENCH: A Unified Benchmark for Document-Centric Multimodal RAG [82.84014669683863]
マルチモーダル検索拡張生成(MM-RAG)は,大規模言語モデルを現実世界の知識ベースに適用するための重要なアプローチである。
UniDoc-Benchは、70万の現実世界のPDFページから構築されたMM-RAGのための最初の大規模で現実的なベンチマークである。
実験により,マルチモーダルテキスト画像融合RAGシステムは,非モーダルおよび共同マルチモーダル埋め込みに基づく検索において一貫して優れていた。
論文 参考訳(メタデータ) (2025-10-04T04:30:13Z) - Why Settle for One? Text-to-ImageSet Generation and Evaluation [72.55708276046124]
Text-to-ImageSet (T2IS) の生成は,ユーザ命令に基づいて,さまざまな一貫性要件を満たすイメージセットを生成することを目的としている。
トレーニング不要なフレームワークである$textbfAutoT2IS$を提案する。
また,本手法は,多くの未探索現実世界の応用を可能にする能力を示し,その実用的価値を実証する。
論文 参考訳(メタデータ) (2025-06-29T15:01:16Z) - OneIG-Bench: Omni-dimensional Nuanced Evaluation for Image Generation [23.05106664412349]
テキスト・ツー・イメージ(T2I)モデルは、テキスト・プロンプトに整合した高品質な画像を生成する上で大きな注目を集めている。
OneIG-Benchは、T2Iモデルを複数の次元で評価するためのベンチマークフレームワークである。
論文 参考訳(メタデータ) (2025-06-09T17:50:21Z) - TIIF-Bench: How Does Your T2I Model Follow Your Instructions? [7.13169573900556]
本稿では, TIIF-Bench (Text-to-Image Instruction following Benchmark) を提案する。
TIIF-Benchは、複数の次元に沿って組織された5000のプロンプトから構成されており、難易度と複雑さの3つのレベルに分類される。
T2Iモデルのテキスト合成精度と美的コヒーレンスを評価するために,テキストレンダリングとスタイル制御という2つの重要な属性が導入された。
論文 参考訳(メタデータ) (2025-06-02T18:44:07Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。