論文の概要: STAY Diffusion: Styled Layout Diffusion Model for Diverse Layout-to-Image Generation
- arxiv url: http://arxiv.org/abs/2503.12213v1
- Date: Sat, 15 Mar 2025 17:36:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 14:56:57.783861
- Title: STAY Diffusion: Styled Layout Diffusion Model for Diverse Layout-to-Image Generation
- Title(参考訳): STAY拡散: 横レイアウト画像生成のためのスタイル付きレイアウト拡散モデル
- Authors: Ruyu Wang, Xuefeng Hou, Sabrina Schmedding, Marco F. Huber,
- Abstract要約: 本稿では,写真リアルな画像を生成する拡散モデルを提案し,シーン内のスタイリングされたオブジェクトのきめ細かい制御を実現する。
提案手法は,各レイアウトのグローバルな条件と,重み変調のための自己教師付きセマンティックマップを学習する。
オブジェクトの関係を捉えるためのグローバル条件とイメージ特徴をクロスコンディションするために、新しいスタイルマスク注意(SM Attention)も導入された。
- 参考スコア(独自算出の注目度): 4.769823364778397
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In layout-to-image (L2I) synthesis, controlled complex scenes are generated from coarse information like bounding boxes. Such a task is exciting to many downstream applications because the input layouts offer strong guidance to the generation process while remaining easily reconfigurable by humans. In this paper, we proposed STyled LAYout Diffusion (STAY Diffusion), a diffusion-based model that produces photo-realistic images and provides fine-grained control of stylized objects in scenes. Our approach learns a global condition for each layout, and a self-supervised semantic map for weight modulation using a novel Edge-Aware Normalization (EA Norm). A new Styled-Mask Attention (SM Attention) is also introduced to cross-condition the global condition and image feature for capturing the objects' relationships. These measures provide consistent guidance through the model, enabling more accurate and controllable image generation. Extensive benchmarking demonstrates that our STAY Diffusion presents high-quality images while surpassing previous state-of-the-art methods in generation diversity, accuracy, and controllability.
- Abstract(参考訳): レイアウト・トゥ・イメージ(L2I)合成では、境界ボックスのような粗い情報から制御された複雑なシーンが生成される。
このようなタスクは多くのダウンストリームアプリケーションにとってエキサイティングな作業である。なぜなら、入力レイアウトは、人によって容易に再構成可能でありながら、生成プロセスに対して強力なガイダンスを提供するからである。
本稿では,写真リアル画像を生成する拡散モデルであるStyled LAYout Diffusion (STAY Diffusion)を提案する。
提案手法は,各レイアウトのグローバルな条件と,新しいエッジ・アウェア正規化(EAノルム)を用いた重み調整のための自己教師付きセマンティックマップを学習する。
オブジェクトの関係を捉えるためのグローバル条件とイメージ特徴をクロスコンディションするために、新しいスタイルマスク注意(SM Attention)も導入された。
これらの測定はモデルを通して一貫したガイダンスを提供し、より正確で制御可能な画像生成を可能にする。
大規模なベンチマークにより,STAY拡散は従来の最先端手法を越えながら,多様性,正確性,可制御性を実証した。
関連論文リスト
- DMAligner: Enhancing Image Alignment via Diffusion Model Based View Synthesis [63.59932602411222]
DMAlignerは、アライメント指向ビュー合成による画像アライメントのための拡散ベースのフレームワークである。
条件付き画像生成学習のためのダイナミクス対応拡散訓練手法を提案する。
我々は,Blenderを用いたダイナミックシーン画像アライメント(DSIA)データセットを開発した。
論文 参考訳(メタデータ) (2026-02-26T14:00:07Z) - Towards Unified Semantic and Controllable Image Fusion: A Diffusion Transformer Approach [99.80480649258557]
DiTFuseは命令駆動のフレームワークで、単一のモデル内でセマンティクスを意識した融合を実行する。
パブリックなIVIF、MFF、MEFベンチマークの実験では、より優れた量的および質的な性能、よりシャープなテクスチャ、より優れたセマンティック保持が確認されている。
論文 参考訳(メタデータ) (2025-12-08T05:04:54Z) - Laytrol: Preserving Pretrained Knowledge in Layout Control for Multimodal Diffusion Transformers [30.863250877729612]
レイアウト・トゥ・イメージ生成は、所定のレイアウト条件に空間的に整合した画像を生成することを目的としている。
既存のレイアウト・トゥ・イメージ方式では、アダプタモジュールをベース生成モデルに統合することでレイアウト条件を導入するのが一般的である。
本稿では,MM-DiTからパラメータを継承し,事前学習したベースモデルの知識を保存するレイアウト制御ネットワークを提案する。
論文 参考訳(メタデータ) (2025-11-11T07:31:28Z) - JCo-MVTON: Jointly Controllable Multi-Modal Diffusion Transformer for Mask-Free Virtual Try-on [15.59886380067986]
JCo-MVTONは、拡散に基づく画像生成とマルチモーダル条件融合を統合することで制限を克服する新しいフレームワークである。
DressCodeなどの公開ベンチマークで最先端のパフォーマンスを実現し、測定値と人的評価の両方において、既存のメソッドよりも大幅に優れています。
論文 参考訳(メタデータ) (2025-08-25T02:43:57Z) - LocRef-Diffusion:Tuning-Free Layout and Appearance-Guided Generation [17.169772329737913]
LocRef-Diffusionは、画像内の複数のインスタンスの外観と位置をカスタマイズできるチューニング不要のモデルである。
インスタンス配置の精度を高めるために,インスタンス生成位置を制御するレイアウトネットを導入する。
参照画像に対する外観忠実度を改善するために,インスタンスの外観特徴を抽出する外観ネットを用いる。
論文 参考訳(メタデータ) (2024-11-22T08:44:39Z) - Adapting Diffusion Models for Improved Prompt Compliance and Controllable Image Synthesis [43.481539150288434]
この作品は新しい家族を紹介します。
因子グラフ拡散モデル(FG-DM)
FG-DMは結合分布をモデル化する。
イメージやコンディショニング変数、例えばセマンティック、スケッチなどです。
因子グラフ分解による 奥行きや正常な地図です
論文 参考訳(メタデータ) (2024-10-29T00:54:00Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z) - SSMG: Spatial-Semantic Map Guided Diffusion Model for Free-form
Layout-to-Image Generation [68.42476385214785]
本稿では,レイアウトから派生した特徴写像を用いた空間意味マップガイド(SSMG)拡散モデルを提案する。
SSMGは,従来の研究に比べて空間的,意味的な制御性に優れた生成品質を実現する。
また,RSA(Relation-Sensitive Attention)機構とLSA(Location-Sensitive Attention)機構を提案する。
論文 参考訳(メタデータ) (2023-08-20T04:09:12Z) - LAW-Diffusion: Complex Scene Generation by Diffusion with Layouts [107.11267074981905]
LAW拡散(LAW-Diffusion)と呼ばれる意味制御可能なレイアウト・AWare拡散モデルを提案する。
LAW拡散は、特にコヒーレントな対象関係を持つ最先端の生成性能をもたらすことを示す。
論文 参考訳(メタデータ) (2023-08-13T08:06:18Z) - DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing [94.24479528298252]
DragGANは、ピクセルレベルの精度で印象的な編集結果を実現する、インタラクティブなポイントベースの画像編集フレームワークである。
大規模な事前学習拡散モデルを利用することで、実画像と拡散画像の両方における対話的点ベース編集の適用性を大幅に向上する。
本稿では,対話的点ベース画像編集手法の性能を評価するため,DragBenchというベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2023-06-26T06:04:09Z) - A Unified Conditional Framework for Diffusion-based Image Restoration [39.418415473235235]
画像復元のための拡散モデルに基づく統一条件付きフレームワークを提案する。
我々は、軽量なUNetを利用して初期ガイダンスと拡散モデルを予測し、指導の残余を学習する。
そこで本研究では,高解像度画像を扱うために,単純なステップ間パッチ分割方式を提案する。
論文 参考訳(メタデータ) (2023-05-31T17:22:24Z) - LayoutDiffusion: Controllable Diffusion Model for Layout-to-image
Generation [46.567682868550285]
本稿では,従来よりも高い生成品質と制御性が得られるLayoutDiffusionという拡散モデルを提案する。
本稿では、領域情報を用いた構造画像パッチを構築し、パッチされた画像を特別なレイアウトに変換し、通常のレイアウトを統一した形で融合させる。
実験の結果,従来のSOTA法では比較的46.35%,COCO-stuff法では26.70%,VG Codeでは44.29%,41.82%であった。
論文 参考訳(メタデータ) (2023-03-30T06:56:12Z) - Semantic Image Synthesis via Diffusion Models [174.24523061460704]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に事実上のGANベースのアプローチに従っている。
意味画像合成のためのDDPMに基づく新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。