Fugu-MT 論文翻訳(概要): CompAlign: Improving Compositional Text-to-Image Generation with a Complex Benchmark and Fine-Grained Feedback

論文の概要: CompAlign: Improving Compositional Text-to-Image Generation with a Complex Benchmark and Fine-Grained Feedback

arxiv url: http://arxiv.org/abs/2505.11178v1
Date: Fri, 16 May 2025 12:23:58 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-19 14:36:14.96512
Title: CompAlign: Improving Compositional Text-to-Image Generation with a Complex Benchmark and Fine-Grained Feedback
Title（参考訳）: CompAlign: 複雑なベンチマークと細粒度フィードバックによる合成テキスト画像生成の改善
Authors: Yixin Wan, Kai-Wei Chang,
Abstract要約: 最先端のT2Iモデルは、テキストプロンプトによって高解像度の画像を生成することができる。しかし、複数の対象、属性、空間的関係を規定する構成的なシーンを正確に描写することは困難である。我々は3次元空間的関係の描写を評価することに焦点を当てた、挑戦的なベンチマークであるCompAlignを紹介する。
参考スコア（独自算出の注目度）: 58.27353205269664
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: State-of-the-art T2I models are capable of generating high-resolution images given textual prompts. However, they still struggle with accurately depicting compositional scenes that specify multiple objects, attributes, and spatial relations. We present CompAlign, a challenging benchmark with an emphasis on assessing the depiction of 3D-spatial relationships, for evaluating and improving models on compositional image generation. CompAlign consists of 900 complex multi-subject image generation prompts that combine numerical and 3D-spatial relationships with varied attribute bindings. Our benchmark is remarkably challenging, incorporating generation tasks with 3+ generation subjects with complex 3D-spatial relationships. Additionally, we propose CompQuest, an interpretable and accurate evaluation framework that decomposes complex prompts into atomic sub-questions, then utilizes a MLLM to provide fine-grained binary feedback on the correctness of each aspect of generation elements in model-generated images. This enables precise quantification of alignment between generated images and compositional prompts. Furthermore, we propose an alignment framework that uses CompQuest's feedback as preference signals to improve diffusion models' compositional image generation abilities. Using adjustable per-image preferences, our method is easily scalable and flexible for different tasks. Evaluation of 9 T2I models reveals that: (1) models remarkable struggle more with compositional tasks with more complex 3D-spatial configurations, and (2) a noticeable performance gap exists between open-source accessible models and closed-source commercial models. Further empirical study on using CompAlign for model alignment yield promising results: post-alignment diffusion models achieve remarkable improvements in compositional accuracy, especially on complex generation tasks, outperforming previous approaches.
Abstract（参考訳）: 最先端のT2Iモデルは、テキストプロンプトによって高解像度の画像を生成することができる。しかし、複数の対象、属性、空間的関係を規定する構成的なシーンを正確に描写することは依然として困難である。合成画像生成モデルの評価と改善のために,3次元空間的関係の描写を評価することに焦点を当てた,挑戦的なベンチマークであるCompAlignを提案する。 CompAlignは900の複雑なマルチオブジェクト画像生成プロンプトで構成されており、数値的および3次元空間的関係と様々な属性結合を組み合わせている。我々のベンチマークは、複雑な3次元空間的関係を持つ3世代以上の被験者に生成タスクを組み込むことで、極めて困難である。さらに、複雑なプロンプトを原子サブクエストに分解する解釈可能かつ正確な評価フレームワークであるCompQuestを提案する。これにより、生成された画像と合成プロンプトとのアライメントの正確な定量化が可能になる。さらに,CompQuestのフィードバックを選好信号として利用し,拡散モデルの合成画像生成能力を向上させるアライメントフレームワークを提案する。画像ごとの好みを調整できるので、様々なタスクにスケーラブルで柔軟です。 9つのT2Iモデルの評価結果から,(1)より複雑な3次元空間構成を伴う構成課題に苦戦するモデル,(2)オープンソース・アクセシブルモデルとクローズド・ソース・商用モデルの間には顕著な性能差が存在することが示唆された。 CompAlign を用いたモデルアライメント予測結果のさらなる実証的研究:ポストアライメント拡散モデルにより、特に複雑な生成タスクにおいて、構成精度が著しく向上し、従来の手法よりも優れていた。

関連論文リスト

ComposeAnything: Composite Object Priors for Text-to-Image Generation [72.98469853839246]
ComposeAnythingは、既存のT2Iモデルを再トレーニングすることなく、合成画像生成を改善するための新しいフレームワークである。提案手法はまずLLMの連鎖推論能力を活用し,テキストから2.5Dのセマンティックレイアウトを生成する。本モデルでは,テキストを忠実に反映した合成による高品質な画像を生成する。
論文参考訳（メタデータ） (2025-05-30T00:13:36Z)
DIPO: Dual-State Images Controlled Articulated Object Generation Powered by Diverse Data [67.99373622902827]
DIPOは、一対のイメージから調音された3Dオブジェクトを制御可能な生成するためのフレームワークである。本稿では,イメージペア間の関係を捉え,部分配置と関節パラメータを生成するデュアルイメージ拡散モデルを提案する。複雑な3Dオブジェクトの大規模データセットであるPM-Xについて,レンダリング画像,URDFアノテーション,テキスト記述を伴って提案する。
論文参考訳（メタデータ） (2025-05-26T18:55:14Z)
VSC: Visual Search Compositional Text-to-Image Diffusion Model [15.682990658945682]
本稿では,一対のイメージ埋め込みを利用して属性オブジェクトの結合を改善する新しい合成生成手法を提案する。提案手法は,複雑なプロンプトをサブプロンプトに分解し,対応する画像を生成し,テキスト埋め込みと融合して表現を強化する視覚プロトタイプを計算する。提案手法は,T2I CompBenchベンチマークにおける既存の合成テキスト・画像拡散モデルより優れ,画像品質の向上,人間による評価,およびプロンプト内の結合対のスケーリングによる堅牢性の向上を実現している。
論文参考訳（メタデータ） (2025-05-02T08:31:43Z)
GraPE: A Generate-Plan-Edit Framework for Compositional T2I Synthesis [10.47359822447001]
本稿では,複雑な多段階生成のタスクを3段階に分解する,T2I合成の代替パラダイムを提案する。提案手法は,モジュール性が高く,トレーニングが自由であり,画像生成モデルと編集モデルの組み合わせに対して適用可能であるという事実から,その強みを導出する。
論文参考訳（メタデータ） (2024-12-08T22:29:56Z)
BIFRÖST: 3D-Aware Image compositing with Language Instructions [27.484947109237964]
Bifr"ostは、命令ベースの画像合成を実行するために拡散モデルに基づいて構築された、新しい3D対応フレームワークである。 Bifr"ostは、MLLMを2.5D位置予測器として訓練し、デプスマップを生成プロセス中に余分な条件として統合することで問題に対処する。
論文参考訳（メタデータ） (2024-10-24T18:35:12Z)
Progressive Compositionality in Text-to-Image Generative Models [26.877368922903514]
拡散モデルのコントラスト学習のための新しいカリキュラムであるEvoGenを提案する。本研究では,大規模言語モデル(LLM)を活用し,現実的で複雑なシナリオを構成する。また、VQA(Visual-Question Answering)システムと拡散モデルを用いて、コントラストデータセット(ConPair)を自動的にキュレートする。
論文参考訳（メタデータ） (2024-10-22T05:59:29Z)
IterComp: Iterative Composition-Aware Feedback Learning from Model Gallery for Text-to-Image Generation [70.8833857249951]
IterCompは、複数のモデルから合成対応モデルの好みを集約する新しいフレームワークである。クローズドループ方式で構成性を向上する反復的フィードバック学習法を提案する。 IterCompは、拡散モデルと合成生成のための報酬フィードバック学習の新たな研究の道を開く。
論文参考訳（メタデータ） (2024-10-09T17:59:13Z)
Divide and Conquer: Language Models can Plan and Self-Correct for Compositional Text-to-Image Generation [72.6168579583414]
CompAgentは、大規模な言語モデル(LLM)エージェントをコアとして、コンポジションテキスト・画像生成のためのトレーニング不要のアプローチである。提案手法は,オープンワールド合成T2I生成のための総合的なベンチマークであるT2I-CompBenchに対して10%以上の改善を達成している。
論文参考訳（メタデータ） (2024-01-28T16:18:39Z)
T2I-CompBench++: An Enhanced and Comprehensive Benchmark for Compositional Text-to-image Generation [55.16845189272573]
T2I-CompBench++は、合成テキスト・画像生成のための拡張ベンチマークである。 8000のコンポジションテキストプロンプトは、属性バインディング、オブジェクト関係、生成数、複雑なコンポジションの4つのグループに分類される。
論文参考訳（メタデータ） (2023-07-12T17:59:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。