論文の概要: coDrawAgents: A Multi-Agent Dialogue Framework for Compositional Image Generation
- arxiv url: http://arxiv.org/abs/2603.12829v1
- Date: Fri, 13 Mar 2026 09:32:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:12.027328
- Title: coDrawAgents: A Multi-Agent Dialogue Framework for Compositional Image Generation
- Title(参考訳): coDrawAgents: 合成画像生成のための多言語対話フレームワーク
- Authors: Chunhan Li, Qifeng Wu, Jia-Hui Pan, Ka-Hei Hui, Jingyu Hu, Yuming Jiang, Bin Sheng, Xihui Liu, Wenjuan Gong, Zhengzhe Liu,
- Abstract要約: 対話型多エージェント対話フレームワークであるcoDrawAgentsを提案する。
インタプリタは、直接テキスト・ツー・イメージ・パスとレイアウト対応マルチエージェント・プロセスとを判定する。
Plannerは、進化する視覚的コンテキストで決定を下しながら、同じセマンティック優先レベルを持つオブジェクトのレイアウトを提案する。
Checkerは空間的一貫性と属性アライメントを検証することで、明示的なエラー訂正機構を導入する。
Painterはイメージをステップごとに合成し、新しく計画されたオブジェクトをキャンバスに組み込んで、その後のイテレーションに対してよりリッチなコンテキストを提供する。
- 参考スコア(独自算出の注目度): 48.027946344020314
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Text-to-image generation has advanced rapidly, but existing models still struggle with faithfully composing multiple objects and preserving their attributes in complex scenes. We propose coDrawAgents, an interactive multi-agent dialogue framework with four specialized agents: Interpreter, Planner, Checker, and Painter that collaborate to improve compositional generation. The Interpreter adaptively decides between a direct text-to-image pathway and a layout-aware multi-agent process. In the layout-aware mode, it parses the prompt into attribute-rich object descriptors, ranks them by semantic salience, and groups objects with the same semantic priority level for joint generation. Guided by the Interpreter, the Planner adopts a divide-and-conquer strategy, incrementally proposing layouts for objects with the same semantic priority level while grounding decisions in the evolving visual context of the canvas. The Checker introduces an explicit error-correction mechanism by validating spatial consistency and attribute alignment, and refining layouts before they are rendered. Finally, the Painter synthesizes the image step by step, incorporating newly planned objects into the canvas to provide richer context for subsequent iterations. Together, these agents address three key challenges: reducing layout complexity, grounding planning in visual context, and enabling explicit error correction. Extensive experiments on benchmarks GenEval and DPG-Bench demonstrate that coDrawAgents substantially improves text-image alignment, spatial accuracy, and attribute binding compared to existing methods.
- Abstract(参考訳): テキスト・ツー・イメージ生成は急速に進歩しているが、既存のモデルは、複数のオブジェクトを忠実に構成し、複雑なシーンでそれらの属性を保存することに苦戦している。
対話型多エージェント対話フレームワークであるcoDrawAgentsを提案する。
インタプリタは、ダイレクトテキスト・ツー・イメージ・パスとレイアウト対応マルチエージェント・プロセスとを適応的に決定する。
レイアウト対応モードでは、プロンプトを属性リッチなオブジェクト記述子に解析し、セマンティックなサリエンスでランク付けし、共同生成のための同じセマンティックな優先度のオブジェクトをグループ化する。
インタプリタによってガイドされたPlannerでは、オブジェクトのレイアウトを同じセマンティック優先度レベルで漸進的に提案し、キャンバスの進化する視覚的コンテキストにおいて決定を下すという、分割/参照戦略を採用している。
Checkerは空間的一貫性と属性アライメントを検証することで明示的なエラー訂正機構を導入し、レンダリング前にレイアウトを精査する。
最後に、Papererはイメージをステップごとに合成し、新しく計画されたオブジェクトをキャンバスに組み込んで、その後のイテレーションでよりリッチなコンテキストを提供する。
これらのエージェントは、レイアウトの複雑さを減らし、視覚的なコンテキストで計画を立て、明示的なエラー修正を可能にする、という3つの重要な課題に対処する。
GenEval と DPG-Bench のベンチマーク実験により、coDrawAgents は既存の手法に比べてテキスト画像のアライメント、空間精度、属性バインディングを大幅に改善することを示した。
関連論文リスト
- I2E: From Image Pixels to Actionable Interactive Environments for Text-Guided Image Editing [59.434028565445885]
I2Eは、画像編集を構造化された環境内の実行可能な相互作用プロセスとして再考する、新しい「分解・テーマ・アクション」パラダイムである。
I2EはDecomposerを使用して、非構造化画像を個別に操作可能なオブジェクト層に変換し、複雑な命令を解析するために、物理を意識したVision-Language-Action Agentを導入する。
I2Eは、複雑な構成命令の処理、物理的妥当性の維持、マルチターン編集安定性の確保において、最先端の手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2026-01-07T09:29:57Z) - CAL-RAG: Retrieval-Augmented Multi-Agent Generation for Content-Aware Layout Design [6.830055289299306]
CAL-RAGは、コンテンツ対応レイアウト生成のための検索拡張エージェントフレームワークである。
我々は、LangGraphを使ってフレームワークを実装し、セマンティック変数に富んだベンチマークで評価する。
その結果,検索強化とエージェント的多段階推論を組み合わせることで,拡張性,解釈性,高忠実度な解が得られることがわかった。
論文 参考訳(メタデータ) (2025-06-27T06:09:56Z) - VSC: Visual Search Compositional Text-to-Image Diffusion Model [15.682990658945682]
本稿では,一対のイメージ埋め込みを利用して属性オブジェクトの結合を改善する新しい合成生成手法を提案する。
提案手法は,複雑なプロンプトをサブプロンプトに分解し,対応する画像を生成し,テキスト埋め込みと融合して表現を強化する視覚プロトタイプを計算する。
提案手法は,T2I CompBenchベンチマークにおける既存の合成テキスト・画像拡散モデルより優れ,画像品質の向上,人間による評価,およびプロンプト内の結合対のスケーリングによる堅牢性の向上を実現している。
論文 参考訳(メタデータ) (2025-05-02T08:31:43Z) - Vision-Aware Text Features in Referring Image Segmentation: From Object Understanding to Context Understanding [26.768147543628096]
本稿では,人間の認知プロセスに触発された対象と文脈の理解を強調する新しい枠組みを提案する。
提案手法は,3つのベンチマークデータセットにおいて,大幅な性能向上を実現する。
論文 参考訳(メタデータ) (2024-04-12T16:38:48Z) - Divide and Conquer: Language Models can Plan and Self-Correct for
Compositional Text-to-Image Generation [72.6168579583414]
CompAgentは、大規模な言語モデル(LLM)エージェントをコアとして、コンポジションテキスト・画像生成のためのトレーニング不要のアプローチである。
提案手法は,オープンワールド合成T2I生成のための総合的なベンチマークであるT2I-CompBenchに対して10%以上の改善を達成している。
論文 参考訳(メタデータ) (2024-01-28T16:18:39Z) - LLM Blueprint: Enabling Text-to-Image Generation with Complex and
Detailed Prompts [60.54912319612113]
拡散に基づく生成モデルは、テキストと画像の生成が著しく進歩するが、長く複雑なテキストプロンプトを処理する際には困難に直面する。
本稿では,Large Language Models (LLM) を利用してテキストプロンプトから重要なコンポーネントを抽出する手法を提案する。
複数のオブジェクトを特徴とする複雑なプロンプトの評価は,ベースライン拡散モデルと比較して,リコールの大幅な改善を示す。
論文 参考訳(メタデータ) (2023-10-16T17:57:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。