論文の概要: LayerCraft: Enhancing Text-to-Image Generation with CoT Reasoning and Layered Object Integration
- arxiv url: http://arxiv.org/abs/2504.00010v1
- Date: Tue, 25 Mar 2025 22:36:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-06 06:33:35.263119
- Title: LayerCraft: Enhancing Text-to-Image Generation with CoT Reasoning and Layered Object Integration
- Title(参考訳): LayerCraft: CoT推論とレイヤオブジェクト統合によるテキスト・ツー・イメージ生成の強化
- Authors: Yuyao Zhang, Jinghao Li, Yu-Wing Tai,
- Abstract要約: テキスト・ツー・イメージ・ジェネレーション(T2I)は幅広い応用分野において重要な研究領域となっている。
LayerCraftは、構造化手続き生成のための自律エージェントとして、大規模言語モデル(LLM)を活用する自動化フレームワークである。
ユーザーは画像内のオブジェクトをカスタマイズでき、最小限の努力で物語駆動で作成できる。
- 参考スコア(独自算出の注目度): 43.14335596346725
- License:
- Abstract: Text-to-image generation (T2I) has become a key area of research with broad applications. However, existing methods often struggle with complex spatial relationships and fine-grained control over multiple concepts. Many existing approaches require significant architectural modifications, extensive training, or expert-level prompt engineering. To address these challenges, we introduce \textbf{LayerCraft}, an automated framework that leverages large language models (LLMs) as autonomous agents for structured procedural generation. LayerCraft enables users to customize objects within an image and supports narrative-driven creation with minimal effort. At its core, the system includes a coordinator agent that directs the process, along with two specialized agents: \textbf{ChainArchitect}, which employs chain-of-thought (CoT) reasoning to generate a dependency-aware 3D layout for precise instance-level control, and the \textbf{Object-Integration Network (OIN)}, which utilizes LoRA fine-tuning on pre-trained T2I models to seamlessly blend objects into specified regions of an image based on textual prompts without requiring architectural changes. Extensive evaluations demonstrate LayerCraft's versatility in applications ranging from multi-concept customization to storytelling. By providing non-experts with intuitive, precise control over T2I generation, our framework democratizes creative image creation. Our code will be released upon acceptance at github.com/PeterYYZhang/LayerCraft
- Abstract(参考訳): テキスト・ツー・イメージ・ジェネレーション(T2I)は幅広い応用分野において重要な研究領域となっている。
しかし、既存の手法は複雑な空間的関係と複数の概念に対するきめ細かい制御にしばしば苦労する。
既存のアプローチの多くは、重要なアーキテクチャ修正、広範なトレーニング、専門家レベルのプロンプトエンジニアリングを必要とする。
これらの課題に対処するために,構造化手続き生成のための自律エージェントとして大規模言語モデル(LLM)を活用する自動化フレームワークである‘textbf{LayerCraft} を紹介した。
LayerCraftは、イメージ内のオブジェクトをカスタマイズし、最小限の労力で物語駆動生成をサポートする。
このシステムの中核には、プロセスを指示するコーディネータエージェントと、2つの特別なエージェントが含まれる: \textbf{ChainArchitect}は、正確なインスタンスレベルの制御のために依存性を意識した3Dレイアウトを生成するチェーン・オブ・シント(CoT)推論と、事前訓練されたT2IモデルでLoRAを微調整して、アーキテクチャ上の変更を必要とせずに、オブジェクトをテキストプロンプトに基づいたイメージの特定領域にシームレスにブレンドするtextbf{Object-Integration Network(OIN)である。
広範囲な評価は、マルチコンセプトのカスタマイズからストーリーテリングまで、アプリケーションにおけるLayerCraftの汎用性を示している。
T2I生成を直感的に正確に制御できる非専門家を提供することで、我々のフレームワークは創造的な画像生成を民主化する。
我々のコードはgithub.com/PeterYZhang/LayerCraftで受け入れられる。
関連論文リスト
- GraPE: A Generate-Plan-Edit Framework for Compositional T2I Synthesis [10.47359822447001]
本稿では,複雑な多段階生成のタスクを3段階に分解する,T2I合成の代替パラダイムを提案する。
提案手法は,モジュール性が高く,トレーニングが自由であり,画像生成モデルと編集モデルの組み合わせに対して適用可能であるという事実から,その強みを導出する。
論文 参考訳(メタデータ) (2024-12-08T22:29:56Z) - Architect: Generating Vivid and Interactive 3D Scenes with Hierarchical 2D Inpainting [47.014044892025346]
Architectは、拡散ベースの2Dイメージのインペイントを活用する、複雑で現実的な3Dエボダイド環境を作成する、生成フレームワークである。
我々のパイプラインはさらに階層的かつ反復的な塗装プロセスに拡張され、大きな家具や小さな物体の配置を連続的に生成し、シーンを豊かにする。
論文 参考訳(メタデータ) (2024-11-14T22:15:48Z) - SceneCraft: Layout-Guided 3D Scene Generation [29.713491313796084]
シーンクラフト(SceneCraft)は、テキスト記述や空間的レイアウトの好みに則った、室内の詳細なシーンを生成する新しい方法である。
本手法は,多様なテクスチャ,一貫した幾何,現実的な視覚的品質を有する複雑な屋内シーン生成において,既存のアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2024-10-11T17:59:58Z) - A Survey of Multimodal-Guided Image Editing with Text-to-Image Diffusion Models [117.77807994397784]
画像編集は、ユーザーが特定の要求を満たすために、与えられた合成画像または実際の画像を編集することを目的としている。
この分野での最近の顕著な進歩は、テキスト・ツー・イメージ(T2I)拡散モデルの開発に基づいている。
T2Iベースの画像編集手法は、編集性能を大幅に向上させ、マルチモーダル入力でガイドされたコンテンツを修正するためのユーザフレンドリーなインタフェースを提供する。
論文 参考訳(メタデータ) (2024-06-20T17:58:52Z) - StoryImager: A Unified and Efficient Framework for Coherent Story Visualization and Completion [78.1014542102578]
ストーリービジュアライゼーションは、ストーリーラインに基づいて現実的で一貫性のある画像を生成することを目的としている。
現在のモデルは、事前訓練されたテキストから画像へのモデルを自動回帰的な方法で変換することで、フレーム・バイ・フレームアーキテクチャを採用している。
双方向で統一的で効率的なフレームワーク,すなわちStoryImagerを提案する。
論文 参考訳(メタデータ) (2024-04-09T03:22:36Z) - Divide and Conquer: Language Models can Plan and Self-Correct for
Compositional Text-to-Image Generation [72.6168579583414]
CompAgentは、大規模な言語モデル(LLM)エージェントをコアとして、コンポジションテキスト・画像生成のためのトレーニング不要のアプローチである。
提案手法は,オープンワールド合成T2I生成のための総合的なベンチマークであるT2I-CompBenchに対して10%以上の改善を達成している。
論文 参考訳(メタデータ) (2024-01-28T16:18:39Z) - Prompt-Free Diffusion: Taking "Text" out of Text-to-Image Diffusion
Models [94.25020178662392]
テキスト・トゥ・イメージ(T2I)の研究はこの1年で爆発的に成長した。
テキストプロンプトエンジニアリングと、カスタマイズされた結果のための高品質なテキストプロンプトの検索は、科学よりも芸術的だ。
本稿では,事前学習したT2I拡散モデルから"Text"を抽出し,ユーザの負担を軽減した。
論文 参考訳(メタデータ) (2023-05-25T16:30:07Z) - Aggregated Contextual Transformations for High-Resolution Image
Inpainting [57.241749273816374]
画像の高精細化のための拡張GANモデルAggregated Contextual-Transformation GAN (AOT-GAN)を提案する。
そこで,提案するAOTブロックの複数のレイヤを積み重ねることで,AOT-GANのジェネレータを構築する。
テクスチャ合成を改善するため,AOT-GANの識別をマスク予測タスクでトレーニングすることで強化する。
論文 参考訳(メタデータ) (2021-04-03T15:50:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。