論文の概要: CompAlign: Improving Compositional Text-to-Image Generation with a Complex Benchmark and Fine-Grained Feedback
- arxiv url: http://arxiv.org/abs/2505.11178v1
- Date: Fri, 16 May 2025 12:23:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:14.96512
- Title: CompAlign: Improving Compositional Text-to-Image Generation with a Complex Benchmark and Fine-Grained Feedback
- Title(参考訳): CompAlign: 複雑なベンチマークと細粒度フィードバックによる合成テキスト画像生成の改善
- Authors: Yixin Wan, Kai-Wei Chang,
- Abstract要約: 最先端のT2Iモデルは、テキストプロンプトによって高解像度の画像を生成することができる。
しかし、複数の対象、属性、空間的関係を規定する構成的なシーンを正確に描写することは困難である。
我々は3次元空間的関係の描写を評価することに焦点を当てた、挑戦的なベンチマークであるCompAlignを紹介する。
- 参考スコア(独自算出の注目度): 58.27353205269664
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: State-of-the-art T2I models are capable of generating high-resolution images given textual prompts. However, they still struggle with accurately depicting compositional scenes that specify multiple objects, attributes, and spatial relations. We present CompAlign, a challenging benchmark with an emphasis on assessing the depiction of 3D-spatial relationships, for evaluating and improving models on compositional image generation. CompAlign consists of 900 complex multi-subject image generation prompts that combine numerical and 3D-spatial relationships with varied attribute bindings. Our benchmark is remarkably challenging, incorporating generation tasks with 3+ generation subjects with complex 3D-spatial relationships. Additionally, we propose CompQuest, an interpretable and accurate evaluation framework that decomposes complex prompts into atomic sub-questions, then utilizes a MLLM to provide fine-grained binary feedback on the correctness of each aspect of generation elements in model-generated images. This enables precise quantification of alignment between generated images and compositional prompts. Furthermore, we propose an alignment framework that uses CompQuest's feedback as preference signals to improve diffusion models' compositional image generation abilities. Using adjustable per-image preferences, our method is easily scalable and flexible for different tasks. Evaluation of 9 T2I models reveals that: (1) models remarkable struggle more with compositional tasks with more complex 3D-spatial configurations, and (2) a noticeable performance gap exists between open-source accessible models and closed-source commercial models. Further empirical study on using CompAlign for model alignment yield promising results: post-alignment diffusion models achieve remarkable improvements in compositional accuracy, especially on complex generation tasks, outperforming previous approaches.
- Abstract(参考訳): 最先端のT2Iモデルは、テキストプロンプトによって高解像度の画像を生成することができる。
しかし、複数の対象、属性、空間的関係を規定する構成的なシーンを正確に描写することは依然として困難である。
合成画像生成モデルの評価と改善のために,3次元空間的関係の描写を評価することに焦点を当てた,挑戦的なベンチマークであるCompAlignを提案する。
CompAlignは900の複雑なマルチオブジェクト画像生成プロンプトで構成されており、数値的および3次元空間的関係と様々な属性結合を組み合わせている。
我々のベンチマークは、複雑な3次元空間的関係を持つ3世代以上の被験者に生成タスクを組み込むことで、極めて困難である。
さらに、複雑なプロンプトを原子サブクエストに分解する解釈可能かつ正確な評価フレームワークであるCompQuestを提案する。
これにより、生成された画像と合成プロンプトとのアライメントの正確な定量化が可能になる。
さらに,CompQuestのフィードバックを選好信号として利用し,拡散モデルの合成画像生成能力を向上させるアライメントフレームワークを提案する。
画像ごとの好みを調整できるので、様々なタスクにスケーラブルで柔軟です。
9つのT2Iモデルの評価結果から,(1)より複雑な3次元空間構成を伴う構成課題に苦戦するモデル,(2)オープンソース・アクセシブルモデルとクローズド・ソース・商用モデルの間には顕著な性能差が存在することが示唆された。
CompAlign を用いたモデルアライメント予測結果のさらなる実証的研究:ポストアライメント拡散モデルにより、特に複雑な生成タスクにおいて、構成精度が著しく向上し、従来の手法よりも優れていた。
関連論文リスト
- GraPE: A Generate-Plan-Edit Framework for Compositional T2I Synthesis [10.47359822447001]
本稿では,複雑な多段階生成のタスクを3段階に分解する,T2I合成の代替パラダイムを提案する。
提案手法は,モジュール性が高く,トレーニングが自由であり,画像生成モデルと編集モデルの組み合わせに対して適用可能であるという事実から,その強みを導出する。
論文 参考訳(メタデータ) (2024-12-08T22:29:56Z) - IterComp: Iterative Composition-Aware Feedback Learning from Model Gallery for Text-to-Image Generation [70.8833857249951]
IterCompは、複数のモデルから合成対応モデルの好みを集約する新しいフレームワークである。
クローズドループ方式で構成性を向上する反復的フィードバック学習法を提案する。
IterCompは、拡散モデルと合成生成のための報酬フィードバック学習の新たな研究の道を開く。
論文 参考訳(メタデータ) (2024-10-09T17:59:13Z) - Divide and Conquer: Language Models can Plan and Self-Correct for
Compositional Text-to-Image Generation [72.6168579583414]
CompAgentは、大規模な言語モデル(LLM)エージェントをコアとして、コンポジションテキスト・画像生成のためのトレーニング不要のアプローチである。
提案手法は,オープンワールド合成T2I生成のための総合的なベンチマークであるT2I-CompBenchに対して10%以上の改善を達成している。
論文 参考訳(メタデータ) (2024-01-28T16:18:39Z) - T2I-CompBench++: An Enhanced and Comprehensive Benchmark for Compositional Text-to-image Generation [55.16845189272573]
T2I-CompBench++は、合成テキスト・画像生成のための拡張ベンチマークである。
8000のコンポジションテキストプロンプトは、属性バインディング、オブジェクト関係、生成数、複雑なコンポジションの4つのグループに分類される。
論文 参考訳(メタデータ) (2023-07-12T17:59:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。