論文の概要: LayoutAgent: A Vision-Language Agent Guided Compositional Diffusion for Spatial Layout Planning
- arxiv url: http://arxiv.org/abs/2509.22720v1
- Date: Wed, 24 Sep 2025 20:41:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:18.821306
- Title: LayoutAgent: A Vision-Language Agent Guided Compositional Diffusion for Spatial Layout Planning
- Title(参考訳): LayoutAgent:空間レイアウト計画のための構成拡散誘導型視覚言語エージェント
- Authors: Zezhong Fan, Xiaohan Li, Luyi Ma, Kai Zhao, Liang Peng, Topojoy Biswas, Evren Korpeoglu, Kaushiki Nag, Kannan Achan,
- Abstract要約: 現実的な多目的シーンを設計するには、意味的関係と物理的妥当性を尊重する空間的レイアウトを計画する必要がある。
レイアウト生成のための構成拡散を伴う視覚言語推論を統一するエージェントフレームワークであるLayoutAgentを提案する。
提案手法はまず視覚言語モデルを用いて,セグメント化,オブジェクトサイズ推定,シーングラフ構築,即時書き換えによる入力の事前処理を行う。
最後に、前景条件の画像生成装置は、設計されたプロンプトで案内された計画されたレイアウトにオブジェクトをレンダリングすることで、完全なシーンを構成する。
- 参考スコア(独自算出の注目度): 18.207887244259897
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Designing realistic multi-object scenes requires not only generating images, but also planning spatial layouts that respect semantic relations and physical plausibility. On one hand, while recent advances in diffusion models have enabled high-quality image generation, they lack explicit spatial reasoning, leading to unrealistic object layouts. On the other hand, traditional spatial planning methods in robotics emphasize geometric and relational consistency, but they struggle to capture semantic richness in visual scenes. To bridge this gap, in this paper, we propose LayoutAgent, an agentic framework that unifies vision-language reasoning with compositional diffusion for layout generation. Given multiple input images with target objects in them, our method first employs visual-language model to preprocess the inputs through segmentation, object size estimation, scene graph construction, and prompt rewriting. Then we leverage compositional diffusion-a method traditionally used in robotics-to synthesize bounding boxes that respect object relations encoded in the scene graph for spatial layouts. In the end, a foreground-conditioned image generator composes the complete scene by rendering the objects into the planned layout guided by designed prompts. Experiments demonstrate that LayoutAgent outperforms other state-of-the-art layout generation models in layout coherence, spatial realism and aesthetic alignment.
- Abstract(参考訳): 現実的なマルチオブジェクトシーンを設計するには、画像を生成するだけでなく、意味的関係と物理的妥当性を尊重する空間レイアウトを計画する必要がある。
一方、近年の拡散モデルにより高画質の画像生成が可能になったが、空間的推論が明確でないため、非現実的なオブジェクトレイアウトが実現されている。
一方、ロボット工学における従来の空間計画手法は、幾何学的・関係的整合性を強調しているが、視覚シーンにおける意味的豊かさを捉えるのに苦労している。
このギャップを埋めるために、レイアウト生成のための構成拡散を伴う視覚言語推論を統一するエージェントフレームワークであるLayoutAgentを提案する。
対象物を含む複数の入力画像が与えられた場合、まず視覚言語モデルを用いて、セグメント化、オブジェクトサイズ推定、シーングラフ構築、即時書き直しによる入力を前処理する。
次に,ロボット工学において伝統的に用いられてきた構成拡散法を用いて,空間配置のためのシーングラフに符号化されたオブジェクト関係を尊重する境界ボックスを合成する。
最後に、前景条件の画像生成装置は、設計されたプロンプトで案内された計画されたレイアウトにオブジェクトをレンダリングすることで、完全なシーンを構成する。
実験により、LayoutAgentはレイアウトコヒーレンス、空間的リアリズム、美的アライメントにおいて、他の最先端のレイアウト生成モデルよりも優れていることが示された。
関連論文リスト
- HiScene: Creating Hierarchical 3D Scenes with Isometric View Generation [50.206100327643284]
HiSceneは、2D画像生成と3Dオブジェクト生成のギャップを埋める新しい階層的なフレームワークである。
構成構造を維持しながら2次元表現に整合した3次元コンテンツを生成する。
論文 参考訳(メタデータ) (2025-04-17T16:33:39Z) - GroundingBooth: Grounding Text-to-Image Customization [17.185571339157075]
GroundingBoothは、前景と背景オブジェクトの両方にゼロショット、インスタンスレベルの空間的グラウンドを実現する。
提案するグラウンドモジュールと主観的なクロスアテンション層は、パーソナライズされた画像の作成を可能にする。
論文 参考訳(メタデータ) (2024-09-13T03:40:58Z) - Move Anything with Layered Scene Diffusion [77.45870343845492]
拡散サンプリング過程におけるシーン表現を最適化するために,SceneDiffusionを提案する。
我々の重要な洞察は、異なる空間配置のシーンレンダリングを共同でデノベートすることで、空間的ゆがみを得ることができることである。
生成したシーンは、移動、再サイズ、クローニング、レイヤーワイドな外観編集操作を含む、幅広い空間編集操作をサポートする。
論文 参考訳(メタデータ) (2024-04-10T17:28:16Z) - LAW-Diffusion: Complex Scene Generation by Diffusion with Layouts [107.11267074981905]
LAW拡散(LAW-Diffusion)と呼ばれる意味制御可能なレイアウト・AWare拡散モデルを提案する。
LAW拡散は、特にコヒーレントな対象関係を持つ最先端の生成性能をもたらすことを示す。
論文 参考訳(メタデータ) (2023-08-13T08:06:18Z) - Zero-shot spatial layout conditioning for text-to-image diffusion models [52.24744018240424]
大規模テキスト・画像拡散モデルでは、生成画像モデリングにおける技術の現状が大幅に改善されている。
画像キャンバスのセグメントに関連付けられたテキストからの画像生成を考察し、直感的な自然言語インタフェースと生成されたコンテンツの正確な空間制御を組み合わせた。
ZestGuideは,事前学習したテキスト・画像拡散モデルにプラグイン可能なゼロショットセグメンテーション誘導手法である。
論文 参考訳(メタデータ) (2023-06-23T19:24:48Z) - Geometry Aligned Variational Transformer for Image-conditioned Layout
Generation [38.747175229902396]
画像中の様々なレイアウトを自動回帰的に生成するICVT(Image-Conditioned Variational Transformer)を提案する。
まず、レイアウト要素内のコンテキスト関係をモデル化するために自己認識機構を採用し、一方、クロスアテンション機構は条件付き画像の視覚情報を融合するために使用される。
広告ポスターレイアウト設計データセットを大規模に構築し,微妙なレイアウトと鮮度マップアノテーションを付加する。
論文 参考訳(メタデータ) (2022-09-02T07:19:12Z) - Interactive Image Synthesis with Panoptic Layout Generation [14.1026819862002]
本稿では,Panoptic Layout Generative Adversarial Networks (PLGAN)を提案する。
PLGANは、アモルファス境界を持つ"stuff"と、明確に定義された形状を持つ"things"とを区別するパノプティクス理論を採用している。
我々は、COCO-Stuff、Visual Genome、Landscapeデータセット上の最先端のレイアウトベースモデルとPLGANを実験的に比較した。
論文 参考訳(メタデータ) (2022-03-04T02:45:27Z) - Learned Spatial Representations for Few-shot Talking-Head Synthesis [68.3787368024951]
複数発話頭合成のための新しいアプローチを提案する。
この異方性表現は,従来の手法よりも大幅に改善されることを示す。
論文 参考訳(メタデータ) (2021-04-29T17:59:42Z) - Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。
本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。
本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文 参考訳(メタデータ) (2020-03-16T21:40:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。