論文の概要: A Two-Stage System for Layout-Controlled Image Generation using Large Language Models and Diffusion Models
- arxiv url: http://arxiv.org/abs/2511.06888v1
- Date: Mon, 10 Nov 2025 09:40:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.183587
- Title: A Two-Stage System for Layout-Controlled Image Generation using Large Language Models and Diffusion Models
- Title(参考訳): 大規模言語モデルと拡散モデルを用いたレイアウト型画像生成のための2段階システム
- Authors: Jan-Hendrik Koch, Jonas Krumme, Konrad Gadzicki,
- Abstract要約: テキストから画像への拡散モデルは、顕著な生成能力を示すが、対象数や空間配置の正確な制御は欠如している。
この研究は、これらの構成制限に対処する2段階のシステムを導入する。
最初のステージでは、オブジェクトのリストから構造化レイアウトを生成するために、LLM(Large Language Model)を採用している。
第2段階では、レイアウト条件付き拡散モデルを用いて、このレイアウトに付着したフォトリアリスティック画像を合成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Text-to-image diffusion models exhibit remarkable generative capabilities, but lack precise control over object counts and spatial arrangements. This work introduces a two-stage system to address these compositional limitations. The first stage employs a Large Language Model (LLM) to generate a structured layout from a list of objects. The second stage uses a layout-conditioned diffusion model to synthesize a photorealistic image adhering to this layout. We find that task decomposition is critical for LLM-based spatial planning; by simplifying the initial generation to core objects and completing the layout with rule-based insertion, we improve object recall from 57.2% to 99.9% for complex scenes. For image synthesis, we compare two leading conditioning methods: ControlNet and GLIGEN. After domain-specific finetuning on table-setting datasets, we identify a key trade-off: ControlNet preserves text-based stylistic control but suffers from object hallucination, while GLIGEN provides superior layout fidelity at the cost of reduced prompt-based controllability. Our end-to-end system successfully generates images with specified object counts and plausible spatial arrangements, demonstrating the viability of a decoupled approach for compositionally controlled synthesis.
- Abstract(参考訳): テキストから画像への拡散モデルは、顕著な生成能力を示すが、対象数や空間配置の正確な制御は欠如している。
この研究は、これらの構成制限に対処する2段階のシステムを導入する。
最初のステージでは、オブジェクトのリストから構造化レイアウトを生成するために、LLM(Large Language Model)を採用している。
第2段階では、レイアウト条件付き拡散モデルを用いて、このレイアウトに付着したフォトリアリスティック画像を合成する。
コアオブジェクトへの初期生成を簡略化し,ルールベースの挿入でレイアウトを完了することにより,複雑なシーンにおけるオブジェクトリコールを57.2%から99.9%に改善する。
画像合成において,制御ネットとGLIGENの2つの主要な条件付け手法を比較した。
ControlNetはテキストベースのスタイリスティックコントロールを保持するが、オブジェクト幻覚に苦しむ一方、GLIGENは、プロンプトベースの制御性を減らすために、優れたレイアウト忠実度を提供する。
提案システムでは,対象物数と空間配置を指定した画像の生成に成功し,合成合成のための分離された手法の有効性を実証した。
関連論文リスト
- DEFT: Decompositional Efficient Fine-Tuning for Text-to-Image Models [103.18486625853099]
DEFT(Decompositional Efficient Fine-Tuning)は、事前トレーニングされた重み行列を2つのコンポーネントに分解することで適応する。
パーソナライズのためのDreamboothおよびDreambench Plusデータセット、オブジェクトおよびシーン適応のためのInsDetデータセット、ユニバーサル画像生成フレームワークのためのVisualClozeデータセットについて実験を行った。
論文 参考訳(メタデータ) (2025-09-26T18:01:15Z) - MUSE: Multi-Subject Unified Synthesis via Explicit Layout Semantic Expansion [15.787883177836362]
本稿では、参照対象の忠実な再構成と、特定の領域の正確な配置の両方を必要とするレイアウト制御可能な多目的合成(LMS)の課題に対処する。
本稿では,レイアウト仕様とテキストガイダンスをシームレスに統合する統合合成フレームワークMUSEを提案する。
論文 参考訳(メタデータ) (2025-08-20T05:52:26Z) - ComposeAnything: Composite Object Priors for Text-to-Image Generation [72.98469853839246]
ComposeAnythingは、既存のT2Iモデルを再トレーニングすることなく、合成画像生成を改善するための新しいフレームワークである。
提案手法はまずLLMの連鎖推論能力を活用し,テキストから2.5Dのセマンティックレイアウトを生成する。
本モデルでは,テキストを忠実に反映した合成による高品質な画像を生成する。
論文 参考訳(メタデータ) (2025-05-30T00:13:36Z) - Training-Free Layout-to-Image Generation with Marginal Attention Constraints [73.55660250459132]
トレーニング不要なレイアウト・トゥ・イメージ(L2I)アプローチを提案する。
具体的には、テキスト・ビジュアル・クロスアテンション・フィーチャーマップを用いて、生成された画像のレイアウトと提供された命令の不整合を定量化する。
自己アテンション特徴写像の画素間相関を利用して、交差アテンション写像を整列し、境界注意で制約された3つの損失関数を組み合わせ、潜時特徴を更新する。
論文 参考訳(メタデータ) (2024-11-15T05:44:45Z) - DivCon: Divide and Conquer for Complex Numerical and Spatial Reasoning in Text-to-Image Generation [0.0]
近年,拡散駆動型テキスト・ツー・イメージ(T2I)生成は顕著な進歩を遂げている。
レイアウトは、大きな言語モデルとレイアウトベースの拡散モデルを橋渡しするためのインターメジウムとして使用される。
本稿では,生成タスクを複数のサブタスクに分割する分割・コンカレント手法を提案する。
論文 参考訳(メタデータ) (2024-03-11T03:24:44Z) - Layered Rendering Diffusion Model for Controllable Zero-Shot Image Synthesis [15.76266032768078]
本稿では,テキストクエリに依存する拡散モデルにおける空間制御性向上のための革新的な手法を提案する。
まず、摂動分布の基本的な空間的キューとして視覚誘導を導入する。
本稿では,複数のレイヤからなる画像レンダリングプロセスを構築する汎用フレームワークであるLayered Rendering Diffusion (LRDiff)を提案する。
論文 参考訳(メタデータ) (2023-11-30T10:36:19Z) - Unlocking Spatial Comprehension in Text-to-Image Diffusion Models [33.99474729408903]
CompFuserは、テキストから画像への生成モデルにおける空間的理解と属性割り当てを強化する画像生成パイプラインである。
我々のパイプラインは、シーン内のオブジェクト間の空間的関係を定義する命令の解釈を可能にする。
論文 参考訳(メタデータ) (2023-11-28T19:00:02Z) - SSMG: Spatial-Semantic Map Guided Diffusion Model for Free-form
Layout-to-Image Generation [68.42476385214785]
本稿では,レイアウトから派生した特徴写像を用いた空間意味マップガイド(SSMG)拡散モデルを提案する。
SSMGは,従来の研究に比べて空間的,意味的な制御性に優れた生成品質を実現する。
また,RSA(Relation-Sensitive Attention)機構とLSA(Location-Sensitive Attention)機構を提案する。
論文 参考訳(メタデータ) (2023-08-20T04:09:12Z) - LAW-Diffusion: Complex Scene Generation by Diffusion with Layouts [107.11267074981905]
LAW拡散(LAW-Diffusion)と呼ばれる意味制御可能なレイアウト・AWare拡散モデルを提案する。
LAW拡散は、特にコヒーレントな対象関係を持つ最先端の生成性能をもたらすことを示す。
論文 参考訳(メタデータ) (2023-08-13T08:06:18Z) - LayoutDiffusion: Controllable Diffusion Model for Layout-to-image
Generation [46.567682868550285]
本稿では,従来よりも高い生成品質と制御性が得られるLayoutDiffusionという拡散モデルを提案する。
本稿では、領域情報を用いた構造画像パッチを構築し、パッチされた画像を特別なレイアウトに変換し、通常のレイアウトを統一した形で融合させる。
実験の結果,従来のSOTA法では比較的46.35%,COCO-stuff法では26.70%,VG Codeでは44.29%,41.82%であった。
論文 参考訳(メタデータ) (2023-03-30T06:56:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。