論文の概要: InstanceAssemble: Layout-Aware Image Generation via Instance Assembling Attention
- arxiv url: http://arxiv.org/abs/2509.16691v1
- Date: Sat, 20 Sep 2025 13:37:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:15.930513
- Title: InstanceAssemble: Layout-Aware Image Generation via Instance Assembling Attention
- Title(参考訳): InstanceAssemble: インスタンスのアセンブラによるレイアウト対応画像生成
- Authors: Qiang Xiang, Shuang Sun, Binglei Li, Dejia Song, Huaxia Li, Nemo Chen, Xu Tang, Yao Hu, Junping Zhang,
- Abstract要約: 拡散モデルは高品質な画像を生成する際、顕著な能力を示した。
本稿では,インスタンスアセンブルによるレイアウト条件を取り入れた新しいアーキテクチャであるInstanceAssembleを提案する。
本手法は,軽量 LoRA モジュールを用いた既存の DiT ベース T2I モデルへのフレキシブル適応を実現する。
- 参考スコア(独自算出の注目度): 42.72578449522177
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Diffusion models have demonstrated remarkable capabilities in generating high-quality images. Recent advancements in Layout-to-Image (L2I) generation have leveraged positional conditions and textual descriptions to facilitate precise and controllable image synthesis. Despite overall progress, current L2I methods still exhibit suboptimal performance. Therefore, we propose InstanceAssemble, a novel architecture that incorporates layout conditions via instance-assembling attention, enabling position control with bounding boxes (bbox) and multimodal content control including texts and additional visual content. Our method achieves flexible adaption to existing DiT-based T2I models through light-weighted LoRA modules. Additionally, we propose a Layout-to-Image benchmark, Denselayout, a comprehensive benchmark for layout-to-image generation, containing 5k images with 90k instances in total. We further introduce Layout Grounding Score (LGS), an interpretable evaluation metric to more precisely assess the accuracy of L2I generation. Experiments demonstrate that our InstanceAssemble method achieves state-of-the-art performance under complex layout conditions, while exhibiting strong compatibility with diverse style LoRA modules.
- Abstract(参考訳): 拡散モデルは高品質な画像を生成する際、顕著な能力を示した。
レイアウト・トゥ・イメージ(L2I)生成の最近の進歩は、精密かつ制御可能な画像合成を容易にするために、位置条件とテキスト記述を活用している。
全体的な進歩にもかかわらず、現在のL2I法は依然として準最適性能を示している。
そこで,本研究では,テキストと付加視覚コンテンツを含むバウンディングボックス(bbox)とマルチモーダルコンテンツ制御による位置制御を実現する新しいアーキテクチャであるInstanceAssembleを提案する。
本手法は,軽量 LoRA モジュールを用いた既存の DiT ベースの T2I モデルへのフレキシブル適応を実現する。
さらに、レイアウト・ツー・イメージ生成のための総合的なベンチマークであるレイアウト・トゥ・イメージ・ベンチマークであるDenselayoutを提案し、合計で90kインスタンスの5K画像を含む。
さらに,L2I 生成の精度をより正確に評価するための解釈可能な評価指標である Layout Grounding Score (LGS) についても紹介する。
実験では,複雑なレイアウト条件下での最先端のパフォーマンスを実現するとともに,多様なスタイルのLoRAモジュールとの強い互換性を示す。
関連論文リスト
- LAMIC: Layout-Aware Multi-Image Composition via Scalability of Multimodal Diffusion Transformer [32.9330637921386]
LAMICはレイアウト対応のマルチイメージコンポジションフレームワークである。
単一の参照拡散モデルをトレーニング不要な方法でマルチ参照シナリオに拡張する。
ID-S、BG-S、IN-R、AVGのスコアにおいて、既存のマルチ参照ベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2025-08-01T09:51:54Z) - STAY Diffusion: Styled Layout Diffusion Model for Diverse Layout-to-Image Generation [4.769823364778397]
本稿では,写真リアルな画像を生成する拡散モデルを提案し,シーン内のスタイリングされたオブジェクトのきめ細かい制御を実現する。
提案手法は,各レイアウトのグローバルな条件と,重み変調のための自己教師付きセマンティックマップを学習する。
オブジェクトの関係を捉えるためのグローバル条件とイメージ特徴をクロスコンディションするために、新しいスタイルマスク注意(SM Attention)も導入された。
論文 参考訳(メタデータ) (2025-03-15T17:36:24Z) - ToLo: A Two-Stage, Training-Free Layout-To-Image Generation Framework For High-Overlap Layouts [2.799190378263432]
ToLoは、ハイオーバーラップレイアウトのための2段階のトレーニング不要なレイアウト・ツー・イメージ生成フレームワークである。
ToLoは,高オーバラップレイアウトを扱う場合,既存の手法の性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2025-03-03T15:41:51Z) - CreatiLayout: Siamese Multimodal Diffusion Transformer for Creative Layout-to-Image Generation [78.21134311493303]
拡散モデルは、視覚的に魅力的であるだけでなく、芸術的品質の高い画像を生成する能力で認識されている。
レイアウト・ツー・イメージ生成は、より正確で制御可能な生成を可能にするために、地域固有の位置と記述を活用するために提案されている。
本稿では、レイアウトモデル、データセット、プランナを統合した、創造的なレイアウト・ツー・イメージ生成のための体系的なソリューションを提案する。
論文 参考訳(メタデータ) (2024-12-05T04:09:47Z) - Boundary Attention Constrained Zero-Shot Layout-To-Image Generation [47.435234391588494]
近年のテキスト・画像拡散モデルでは,テキストからの高解像度画像の生成に優れるが,空間構成や物体数に対する精密な制御に苦慮している。
本稿では,新たなゼロショットL2IアプローチであるBACONを提案する。
自己アテンション特徴写像の画素間相関を利用して、交差アテンション写像を整列し、境界注意で制約された3つの損失関数を組み合わせ、潜時特徴を更新する。
論文 参考訳(メタデータ) (2024-11-15T05:44:45Z) - SSMG: Spatial-Semantic Map Guided Diffusion Model for Free-form
Layout-to-Image Generation [68.42476385214785]
本稿では,レイアウトから派生した特徴写像を用いた空間意味マップガイド(SSMG)拡散モデルを提案する。
SSMGは,従来の研究に比べて空間的,意味的な制御性に優れた生成品質を実現する。
また,RSA(Relation-Sensitive Attention)機構とLSA(Location-Sensitive Attention)機構を提案する。
論文 参考訳(メタデータ) (2023-08-20T04:09:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。