論文の概要: OneIG-Bench: Omni-dimensional Nuanced Evaluation for Image Generation
- arxiv url: http://arxiv.org/abs/2506.07977v2
- Date: Tue, 10 Jun 2025 12:31:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:40.173558
- Title: OneIG-Bench: Omni-dimensional Nuanced Evaluation for Image Generation
- Title(参考訳): OneIG-Bench:画像生成のための全次元ニュアンス評価
- Authors: Jingjing Chang, Yixiao Fang, Peng Xing, Shuhan Wu, Wei Cheng, Rui Wang, Xianfang Zeng, Gang Yu, Hai-Bao Chen,
- Abstract要約: テキスト・ツー・イメージ(T2I)モデルは、テキスト・プロンプトに整合した高品質な画像を生成する上で大きな注目を集めている。
OneIG-Benchは、T2Iモデルを複数の次元で評価するためのベンチマークフレームワークである。
- 参考スコア(独自算出の注目度): 23.05106664412349
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image (T2I) models have garnered significant attention for generating high-quality images aligned with text prompts. However, rapid T2I model advancements reveal limitations in early benchmarks, lacking comprehensive evaluations, for example, the evaluation on reasoning, text rendering and style. Notably, recent state-of-the-art models, with their rich knowledge modeling capabilities, show promising results on the image generation problems requiring strong reasoning ability, yet existing evaluation systems have not adequately addressed this frontier. To systematically address these gaps, we introduce OneIG-Bench, a meticulously designed comprehensive benchmark framework for fine-grained evaluation of T2I models across multiple dimensions, including prompt-image alignment, text rendering precision, reasoning-generated content, stylization, and diversity. By structuring the evaluation, this benchmark enables in-depth analysis of model performance, helping researchers and practitioners pinpoint strengths and bottlenecks in the full pipeline of image generation. Specifically, OneIG-Bench enables flexible evaluation by allowing users to focus on a particular evaluation subset. Instead of generating images for the entire set of prompts, users can generate images only for the prompts associated with the selected dimension and complete the corresponding evaluation accordingly. Our codebase and dataset are now publicly available to facilitate reproducible evaluation studies and cross-model comparisons within the T2I research community.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)モデルは、テキスト・プロンプトに整合した高品質な画像を生成する上で大きな注目を集めている。
しかし、高速なT2Iモデルの進歩は初期のベンチマークの限界を明らかにし、例えば推論、テキストレンダリング、スタイルの評価など包括的な評価を欠いている。
近年の最先端モデルでは、知識モデリング能力の豊富なモデルでは、強力な推論能力を必要とする画像生成問題に対する有望な結果が示されているが、既存の評価システムは、このフロンティアに十分対応していない。
これらのギャップを体系的に解決するために,我々は,複数次元にわたるT2Iモデルの微粒化評価を行う,厳密に設計された総合的なベンチマークフレームワークであるOneIG-Benchを紹介した。
評価を構造化することにより、モデル性能の詳細な分析を可能にし、研究者や実践者が画像生成の全パイプラインにおいて、強みとボトルネックを見極めるのに役立つ。
具体的には、OneIG-Benchは、ユーザが特定の評価サブセットに集中できるようにすることで、柔軟な評価を可能にする。
ユーザは、一連のプロンプト全体に対して画像を生成する代わりに、選択された次元に関連するプロンプトに対してのみ画像を生成し、それに応じて対応する評価を完了させることができる。
コードベースとデータセットは、T2I研究コミュニティ内で再現可能な評価研究とモデル間比較を容易にするために、公開されています。
関連論文リスト
- Draw ALL Your Imagine: A Holistic Benchmark and Agent Framework for Complex Instruction-based Image Generation [9.978181430065987]
LongBench-T2Iは、複雑な命令の下でテキスト・トゥ・イメージ(T2I)モデルを評価するためのベンチマークである。
LongBench-T2Iは9つの視覚的評価次元にまたがる500の複雑なプロンプトで構成されている。
Plan2Genは複雑な命令駆動の画像生成を容易にするフレームワークで、追加のモデルトレーニングを必要としない。
論文 参考訳(メタデータ) (2025-05-30T16:48:14Z) - EvalMuse-40K: A Reliable and Fine-Grained Benchmark with Comprehensive Human Annotations for Text-to-Image Generation Model Evaluation [29.176750442205325]
本研究では,EvalMuse-40Kベンチマークにコントリビュートし,画像テキストアライメントに関連するタスクに対して,微粒な人間のアノテーションを用いた40K画像テキストペアを収集する。
本稿では,T2Iモデルの画像テキストアライメント機能を評価するための2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2024-12-24T04:08:25Z) - Interleaved Scene Graphs for Interleaved Text-and-Image Generation Assessment [53.45813302866466]
我々は、インターリーブされたテキスト・画像生成のための総合的な評価フレームワークISGを提案する。
ISGは、全体性、構造性、ブロックレベル、画像固有性の4つのレベルで反応を評価する。
ISGと組み合わせて、ISG-Benchというベンチマークを導入し、8つのカテゴリと21のサブカテゴリにわたる1,150のサンプルを網羅した。
論文 参考訳(メタデータ) (2024-11-26T07:55:57Z) - Image Regeneration: Evaluating Text-to-Image Model via Generating Identical Image with Multimodal Large Language Models [54.052963634384945]
画像再生タスクを導入し,テキスト・ツー・イメージ・モデルの評価を行う。
我々はGPT4Vを用いて参照画像とT2Iモデルのテキスト入力のギャップを埋める。
また、生成した画像の品質を高めるために、ImageRepainterフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-14T13:52:43Z) - KITTEN: A Knowledge-Intensive Evaluation of Image Generation on Visual Entities [93.74881034001312]
テキスト・画像生成モデルにおける実体の忠実度に関する系統的研究を行う。
我々はランドマークの建物、航空機、植物、動物など、幅広い現実世界の視覚的実体を生成する能力に焦点をあてる。
その結果、最も高度なテキスト・画像モデルでさえ、正確な視覚的詳細を持つエンティティを生成できないことが判明した。
論文 参考訳(メタデータ) (2024-10-15T17:50:37Z) - PhyBench: A Physical Commonsense Benchmark for Evaluating Text-to-Image Models [50.33699462106502]
テキスト・トゥ・イメージ(T2I)モデルは、物理コモンセンスと整合した画像を生成するのにしばしば失敗する。
現在のT2I評価ベンチマークは、精度、バイアス、安全性などの指標に焦点を当て、モデルの内部知識の評価を無視している。
メカニクス,光学,熱力学,材料特性の4つのカテゴリに700のプロンプトを含む総合的なT2I評価データセットであるPhyBenchを紹介する。
論文 参考訳(メタデータ) (2024-06-17T17:49:01Z) - T2I-CompBench++: An Enhanced and Comprehensive Benchmark for Compositional Text-to-image Generation [55.16845189272573]
T2I-CompBench++は、合成テキスト・画像生成のための拡張ベンチマークである。
8000のコンポジションテキストプロンプトは、属性バインディング、オブジェクト関係、生成数、複雑なコンポジションの4つのグループに分類される。
論文 参考訳(メタデータ) (2023-07-12T17:59:42Z) - LeftRefill: Filling Right Canvas based on Left Reference through
Generalized Text-to-Image Diffusion Model [55.20469538848806]
leftRefillは、参照誘導画像合成のための大規模なテキスト・ツー・イメージ(T2I)拡散モデルを利用する革新的なアプローチである。
本稿では、参照誘導画像合成に大規模なテキスト・ツー・イメージ拡散モデル(T2I)を効果的に活用するための革新的なアプローチであるLeftRefillを紹介する。
論文 参考訳(メタデータ) (2023-05-19T10:29:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。