論文の概要: AgentComp: From Agentic Reasoning to Compositional Mastery in Text-to-Image Models
- arxiv url: http://arxiv.org/abs/2512.09081v1
- Date: Tue, 09 Dec 2025 19:54:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.303444
- Title: AgentComp: From Agentic Reasoning to Compositional Mastery in Text-to-Image Models
- Title(参考訳): AgentComp: テキスト-画像モデルにおけるエージェント推論から構成習得へ
- Authors: Arman Zarei, Jiacheng Pan, Matthew Gwilliam, Soheil Feizi, Zhenheng Yang,
- Abstract要約: 重要な制限は、モデルが構成的に類似したプロンプトとイメージを区別するように明示的に訓練されていないことである。
我々は、このような構成のバリエーションをよりよく区別するためにモデルを明示的に訓練するフレームワークであるAgentCompを提案する。
本研究では,テキスト・ツー・イメージの微調整モデルにエージェント的選好最適化手法を適用し,類似したサンプルをよりよく識別する。
- 参考スコア(独自算出の注目度): 46.329647221942395
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image generative models have achieved remarkable visual quality but still struggle with compositionality$-$accurately capturing object relationships, attribute bindings, and fine-grained details in prompts. A key limitation is that models are not explicitly trained to differentiate between compositionally similar prompts and images, resulting in outputs that are close to the intended description yet deviate in fine-grained details. To address this, we propose AgentComp, a framework that explicitly trains models to better differentiate such compositional variations and enhance their reasoning ability. AgentComp leverages the reasoning and tool-use capabilities of large language models equipped with image generation, editing, and VQA tools to autonomously construct compositional datasets. Using these datasets, we apply an agentic preference optimization method to fine-tune text-to-image models, enabling them to better distinguish between compositionally similar samples and resulting in overall stronger compositional generation ability. AgentComp achieves state-of-the-art results on compositionality benchmarks such as T2I-CompBench, without compromising image quality$-$a common drawback in prior approaches$-$and even generalizes to other capabilities not explicitly trained for, such as text rendering.
- Abstract(参考訳): テキストから画像への生成モデルは目覚ましい視覚的品質を達成したが、それでも、オブジェクトの関係性、属性のバインディング、そしてプロンプトのきめ細かな詳細を正確に捉えるのに苦戦している。
重要な制限は、モデルが構成的に類似したプロンプトとイメージを区別するように明示的に訓練されていないことである。
これを解決するために,AgentCompを提案する。AgentCompはモデルに対して,そのような構成のバリエーションをよりよく区別し,推論能力を高めるために,モデルを明確に訓練するフレームワークである。
AgentCompは、画像生成、編集、VQAツールを備えた大規模言語モデルの推論とツール使用機能を活用して、合成データセットを自律的に構築する。
これらのデータセットを用いて、エージェント的選好最適化法を微調整テキスト・画像モデルに適用し、構成的に類似したサンプルをよりよく識別し、全体的な構成生成能力を向上する。
AgentCompは、T2I-CompBenchのようなコンポジション性ベンチマークの最先端の結果を、画像品質を妥協することなく達成する。
関連論文リスト
- CompAlign: Improving Compositional Text-to-Image Generation with a Complex Benchmark and Fine-Grained Feedback [58.27353205269664]
最先端のT2Iモデルは、テキストプロンプトによって高解像度の画像を生成することができる。
しかし、複数の対象、属性、空間的関係を規定する構成的なシーンを正確に描写することは困難である。
我々は3次元空間的関係の描写を評価することに焦点を当てた、挑戦的なベンチマークであるCompAlignを紹介する。
論文 参考訳(メタデータ) (2025-05-16T12:23:58Z) - VSC: Visual Search Compositional Text-to-Image Diffusion Model [15.682990658945682]
本稿では,一対のイメージ埋め込みを利用して属性オブジェクトの結合を改善する新しい合成生成手法を提案する。
提案手法は,複雑なプロンプトをサブプロンプトに分解し,対応する画像を生成し,テキスト埋め込みと融合して表現を強化する視覚プロトタイプを計算する。
提案手法は,T2I CompBenchベンチマークにおける既存の合成テキスト・画像拡散モデルより優れ,画像品質の向上,人間による評価,およびプロンプト内の結合対のスケーリングによる堅牢性の向上を実現している。
論文 参考訳(メタデータ) (2025-05-02T08:31:43Z) - IterComp: Iterative Composition-Aware Feedback Learning from Model Gallery for Text-to-Image Generation [70.8833857249951]
IterCompは、複数のモデルから合成対応モデルの好みを集約する新しいフレームワークである。
クローズドループ方式で構成性を向上する反復的フィードバック学習法を提案する。
IterCompは、拡散モデルと合成生成のための報酬フィードバック学習の新たな研究の道を開く。
論文 参考訳(メタデータ) (2024-10-09T17:59:13Z) - Divide and Conquer: Language Models can Plan and Self-Correct for
Compositional Text-to-Image Generation [72.6168579583414]
CompAgentは、大規模な言語モデル(LLM)エージェントをコアとして、コンポジションテキスト・画像生成のためのトレーニング不要のアプローチである。
提案手法は,オープンワールド合成T2I生成のための総合的なベンチマークであるT2I-CompBenchに対して10%以上の改善を達成している。
論文 参考訳(メタデータ) (2024-01-28T16:18:39Z) - T2I-CompBench++: An Enhanced and Comprehensive Benchmark for Compositional Text-to-image Generation [55.16845189272573]
T2I-CompBench++は、合成テキスト・画像生成のための拡張ベンチマークである。
8000のコンポジションテキストプロンプトは、属性バインディング、オブジェクト関係、生成数、複雑なコンポジションの4つのグループに分類される。
論文 参考訳(メタデータ) (2023-07-12T17:59:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。