Fugu-MT 論文翻訳(概要): LayoutDiffusion: Controllable Diffusion Model for Layout-to-image Generation

論文の概要: LayoutDiffusion: Controllable Diffusion Model for Layout-to-image Generation

arxiv url: http://arxiv.org/abs/2303.17189v2
Date: Tue, 12 Mar 2024 13:15:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-14 02:25:48.118235
Title: LayoutDiffusion: Controllable Diffusion Model for Layout-to-image Generation
Title（参考訳）: レイアウト拡散:レイアウト画像生成のための制御可能な拡散モデル
Authors: Guangcong Zheng, Xianpan Zhou, Xuewei Li, Zhongang Qi, Ying Shan, Xi Li
Abstract要約: 本稿では,従来よりも高い生成品質と制御性が得られるLayoutDiffusionという拡散モデルを提案する。本稿では、領域情報を用いた構造画像パッチを構築し、パッチされた画像を特別なレイアウトに変換し、通常のレイアウトを統一した形で融合させる。実験の結果,従来のSOTA法では比較的46.35%,COCO-stuff法では26.70%,VG Codeでは44.29%,41.82%であった。
参考スコア（独自算出の注目度）: 46.567682868550285
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recently, diffusion models have achieved great success in image synthesis. However, when it comes to the layout-to-image generation where an image often has a complex scene of multiple objects, how to make strong control over both the global layout map and each detailed object remains a challenging task. In this paper, we propose a diffusion model named LayoutDiffusion that can obtain higher generation quality and greater controllability than the previous works. To overcome the difficult multimodal fusion of image and layout, we propose to construct a structural image patch with region information and transform the patched image into a special layout to fuse with the normal layout in a unified form. Moreover, Layout Fusion Module (LFM) and Object-aware Cross Attention (OaCA) are proposed to model the relationship among multiple objects and designed to be object-aware and position-sensitive, allowing for precisely controlling the spatial related information. Extensive experiments show that our LayoutDiffusion outperforms the previous SOTA methods on FID, CAS by relatively 46.35%, 26.70% on COCO-stuff and 44.29%, 41.82% on VG. Code is available at https://github.com/ZGCTroy/LayoutDiffusion.
Abstract（参考訳）: 近年,拡散モデルは画像合成において大きな成功を収めている。しかし、画像が複数のオブジェクトの複雑なシーンを持つレイアウトからイメージへの生成に関して、グローバルレイアウトマップと個々の詳細なオブジェクトの両方を強固に制御する方法は、依然として難しい課題である。本稿では,従来よりも高い品質と高い制御性が得られる拡散モデルであるlayoutdiffusionを提案する。画像とレイアウトのマルチモーダルな融合を克服するために,領域情報を含む構造的イメージパッチを構築し,パッチされたイメージを特別なレイアウトに変換することで,通常のレイアウトと統一した形態で融合する。さらに,複数物体間の関係をモデル化するためにlfm(layout fusion module)とoaca(object-aware cross attention)を提案する。大規模な実験の結果、LayoutDiffusionは従来のSOTA法よりも46.35%、COCO-stuff法が26.70%、VG法が44.29%、41.82%優れていた。コードはhttps://github.com/ZGCTroy/LayoutDiffusionで入手できる。

関連論文リスト

STAY Diffusion: Styled Layout Diffusion Model for Diverse Layout-to-Image Generation [4.769823364778397]
本稿では,写真リアルな画像を生成する拡散モデルを提案し,シーン内のスタイリングされたオブジェクトのきめ細かい制御を実現する。提案手法は,各レイアウトのグローバルな条件と,重み変調のための自己教師付きセマンティックマップを学習する。オブジェクトの関係を捉えるためのグローバル条件とイメージ特徴をクロスコンディションするために、新しいスタイルマスク注意(SM Attention)も導入された。
論文参考訳（メタデータ） (2025-03-15T17:36:24Z)
ToLo: A Two-Stage, Training-Free Layout-To-Image Generation Framework For High-Overlap Layouts [2.799190378263432]
ToLoは、ハイオーバーラップレイアウトのための2段階のトレーニング不要なレイアウト・ツー・イメージ生成フレームワークである。 ToLoは,高オーバラップレイアウトを扱う場合,既存の手法の性能を大幅に向上させることを示す。
論文参考訳（メタデータ） (2025-03-03T15:41:51Z)
Grounding Text-to-Image Diffusion Models for Controlled High-Quality Image Generation [0.0]
テキスト・ツー・イメージ(T2I)生成拡散モデルは,テキストキャプションから多種多様な高品質な視覚を合成する際,優れた性能を示した。我々は,意味的および空間的接地情報に基づいて,T2I拡散モデルを記述するモデルであるObjectDiffusionを提案する。
論文参考訳（メタデータ） (2025-01-15T22:55:26Z)
CreatiLayout: Siamese Multimodal Diffusion Transformer for Creative Layout-to-Image Generation [78.21134311493303]
拡散モデルは、視覚的に魅力的であるだけでなく、芸術的品質の高い画像を生成する能力で認識されている。従来の手法は主にUNetベースのモデル(SD1.5やSDXLなど)に重点を置いており、限られた努力でMM-DiT(Multimodal Diffusion Transformer)を探索している。 MM-DiTの利点を継承して、画像とテキストのモダリティを処理するために、別々の集合ネットワーク重みを用いる。大規模なレイアウトデータセットであるLayoutSAMには、270万のイメージテキストペアと1070万のエンティティが含まれています。
論文参考訳（メタデータ） (2024-12-05T04:09:47Z)
Generating Compositional Scenes via Text-to-image RGBA Instance Generation [82.63805151691024]
テキストから画像への拡散生成モデルは、退屈な急進的なエンジニアリングを犠牲にして高品質な画像を生成することができる。本稿では, 粒度制御, 柔軟性, 相互作用性を考慮した新しい多段階生成パラダイムを提案する。実験の結果,RGBA拡散モデルでは,オブジェクト属性を正確に制御した多種多様な高品質なインスタンスを生成できることがわかった。
論文参考訳（メタデータ） (2024-11-16T23:44:14Z)
A Global Depth-Range-Free Multi-View Stereo Transformer Network with Pose Embedding [76.44979557843367]
本稿では,事前の深度範囲を排除した新しい多視点ステレオ(MVS)フレームワークを提案する。長距離コンテキスト情報を集約するMDA(Multi-view Disparity Attention)モジュールを導入する。ソース画像のエピポーラ線上のサンプリング点に対応する電流画素の品質を明示的に推定する。
論文参考訳（メタデータ） (2024-11-04T08:50:16Z)
HiCo: Hierarchical Controllable Diffusion Model for Layout-to-image Generation [11.087309945227826]
レイアウト・画像生成のためのtextbfHierarchical textbfControllable (HiCo) 拡散モデルを提案する。我々の重要な洞察は、レイアウトの階層的モデリングを通じて空間的ゆがみを実現することである。自然シーンにおける多目的制御可能なレイアウト生成の性能を評価するため,HiCo-7Kベンチマークを提案する。
論文参考訳（メタデータ） (2024-10-18T09:36:10Z)
Multi-view Aggregation Network for Dichotomous Image Segmentation [76.75904424539543]
Dichotomous Image (DIS) は近年,高解像度自然画像からの高精度物体分割に向けて出現している。既存の手法は、グローバルなローカライゼーションと局所的な洗練を徐々に完了させるために、退屈な複数のエンコーダ・デコーダストリームとステージに依存している。これに触発されて、我々は多視点オブジェクト認識問題としてdisをモデル化し、擬似多視点アグリゲーションネットワーク(MVANet)を提供する。一般的なdis-5Kデータセットの実験では、我々のMVANetは精度と速度の両方で最先端の手法を大きく上回っている。
論文参考訳（メタデータ） (2024-04-11T03:00:00Z)
DivCon: Divide and Conquer for Progressive Text-to-Image Generation [0.0]
拡散駆動型テキスト・ツー・イメージ(T2I)生成は顕著な進歩を遂げた。レイアウトは、大きな言語モデルとレイアウトベースの拡散モデルを橋渡しするためのインターメジウムとして使用される。本稿では,T2I生成タスクを単純なサブタスクに分解する分割対コンカレント手法を提案する。
論文参考訳（メタデータ） (2024-03-11T03:24:44Z)
SSMG: Spatial-Semantic Map Guided Diffusion Model for Free-form Layout-to-Image Generation [68.42476385214785]
本稿では,レイアウトから派生した特徴写像を用いた空間意味マップガイド(SSMG)拡散モデルを提案する。 SSMGは,従来の研究に比べて空間的,意味的な制御性に優れた生成品質を実現する。また,RSA(Relation-Sensitive Attention)機構とLSA(Location-Sensitive Attention)機構を提案する。
論文参考訳（メタデータ） (2023-08-20T04:09:12Z)
DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing [94.24479528298252]
DragGANは、ピクセルレベルの精度で印象的な編集結果を実現する、インタラクティブなポイントベースの画像編集フレームワークである。大規模な事前学習拡散モデルを利用することで、実画像と拡散画像の両方における対話的点ベース編集の適用性を大幅に向上する。本稿では,対話的点ベース画像編集手法の性能を評価するため,DragBenchというベンチマークデータセットを提案する。
論文参考訳（メタデータ） (2023-06-26T06:04:09Z)
LayoutDiffuse: Adapting Foundational Diffusion Models for Layout-to-Image Generation [24.694298869398033]
提案手法は,高い知覚品質とレイアウトアライメントの両面から画像を生成し,効率よく訓練する。提案手法は, GAN, VQ-VAE, 拡散モデルに基づく他の10種類の生成モデルよりも優れていた。
論文参考訳（メタデータ） (2023-02-16T14:20:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。