論文の概要: PSDiffusion: Harmonized Multi-Layer Image Generation via Layout and Appearance Alignment
- arxiv url: http://arxiv.org/abs/2505.11468v1
- Date: Fri, 16 May 2025 17:23:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:15.768587
- Title: PSDiffusion: Harmonized Multi-Layer Image Generation via Layout and Appearance Alignment
- Title(参考訳): PSDiffusion:レイアウトと外観アライメントによる高調波多層画像生成
- Authors: Dingbang Huang, Wenbo Li, Yifei Zhao, Xinyu Pan, Yanhong Zeng, Bo Dai,
- Abstract要約: PSDiffusionは、同時多層テキスト・画像生成のための統合拡散フレームワークである。
我々のモデルは、1つのRGB背景と複数のRGBAフォアグラウンドを持つ多層画像を自動的に生成することができる。
本手法では,層状画像を並列かつ協調的に生成するグローバル層対話機構を提案する。
- 参考スコア(独自算出の注目度): 24.964578950380947
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have made remarkable advancements in generating high-quality images from textual descriptions. Recent works like LayerDiffuse have extended the previous single-layer, unified image generation paradigm to transparent image layer generation. However, existing multi-layer generation methods fail to handle the interactions among multiple layers such as rational global layout, physics-plausible contacts and visual effects like shadows and reflections while maintaining high alpha quality. To solve this problem, we propose PSDiffusion, a unified diffusion framework for simultaneous multi-layer text-to-image generation. Our model can automatically generate multi-layer images with one RGB background and multiple RGBA foregrounds through a single feed-forward process. Unlike existing methods that combine multiple tools for post-decomposition or generate layers sequentially and separately, our method introduces a global-layer interactive mechanism that generates layered-images concurrently and collaboratively, ensuring not only high quality and completeness for each layer, but also spatial and visual interactions among layers for global coherence.
- Abstract(参考訳): 拡散モデルは、テキスト記述から高品質な画像を生成する際、顕著な進歩を遂げた。
LayerDiffuseのような最近の研究は、以前の単一層で統一された画像生成パラダイムを透過的な画像層生成に拡張した。
しかし、既存の多層生成法では、合理的なグローバルレイアウト、物理に有望な接触、シャドーやリフレクションのような視覚効果などの複数の層間の相互作用を処理できず、高いアルファ品質を維持している。
そこで本研究では,複数層テキスト・画像同時生成のための統合拡散フレームワークであるPSDiffusionを提案する。
我々のモデルは、1つのフィードフォワードプロセスにより、1つのRGB背景と複数のRGBAフォアグラウンドを持つ多層画像を自動的に生成することができる。
分割後, 層を逐次, 別々に生成する既存手法とは違って, 各層における高品質・完全性だけでなく, グローバルコヒーレンスのための空間的・視覚的相互作用も保証し, 層像を並列かつ協調的に生成するグローバル層対話機構を導入している。
関連論文リスト
- DreamLayer: Simultaneous Multi-Layer Generation via Diffusion Mode [47.32061459437175]
複数の画像層をコヒーレントなテキスト駆動で生成できるフレームワークであるDreamLayerを紹介する。
透過的なフォアグラウンド層とバックグラウンド層の関係を明示的にモデル化することで、DreamLayerは層間接続を構築する。
実験とユーザスタディにより、DreamLayerはよりコヒーレントで整合したレイヤを生成することが示された。
論文 参考訳(メタデータ) (2025-03-17T05:34:11Z) - ART: Anonymous Region Transformer for Variable Multi-Layer Transparent Image Generation [108.69315278353932]
可変多層透明画像の直接生成を容易にするAnonymous Region Transformer(ART)を導入する。
正確な制御とスケーラブルなレイヤ生成を可能にすることで、ARTはインタラクティブなコンテンツ作成のための新しいパラダイムを確立します。
論文 参考訳(メタデータ) (2025-02-25T16:57:04Z) - LayerFusion: Harmonized Multi-Layer Text-to-Image Generation with Generative Priors [38.47462111828742]
階層化されたコンテンツ生成はグラフィックデザイン、アニメーション、デジタルアートといった創造的な分野に不可欠である。
本稿では,2層画像を生成する遅延拡散モデル(LDM)に基づく新しい画像生成パイプラインを提案する。
ベースライン法と比較して,視覚的コヒーレンス,画像品質,レイヤの整合性に大きな改善が見られた。
論文 参考訳(メタデータ) (2024-12-05T18:59:18Z) - LayerDiff: Exploring Text-guided Multi-layered Composable Image Synthesis via Layer-Collaborative Diffusion Model [70.14953942532621]
層共同拡散モデルであるLayerDiffは、テキスト誘導、多層化、構成可能な画像合成のために設計されている。
本モデルでは,従来の全画像生成手法に匹敵する性能で,高品質な多層画像を生成することができる。
LayerDiffは、レイヤ固有の画像編集やスタイル転送など、幅広いコントロール可能な生成アプリケーションを可能にする。
論文 参考訳(メタデータ) (2024-03-18T16:28:28Z) - Mastering Text-to-Image Diffusion: Recaptioning, Planning, and Generating with Multimodal LLMs [77.86214400258473]
トレーニング不要なテキスト・画像生成/編集フレームワークであるRecaption, Plan and Generate(RPG)を提案する。
RPGは、マルチモーダルLLMの強力な連鎖推論能力を活用し、テキストから画像への拡散モデルの合成性を高める。
本フレームワークはMLLMアーキテクチャとの広範な互換性を示す。
論文 参考訳(メタデータ) (2024-01-22T06:16:29Z) - Text2Layer: Layered Image Generation using Latent Diffusion Model [12.902259486204898]
階層化画像生成の観点から階層化画像を生成することを提案する。
階層画像生成を実現するために,階層画像の再構成が可能なオートエンコーダを訓練する。
実験結果から,提案手法は高品質な階層画像を生成することができることがわかった。
論文 参考訳(メタデータ) (2023-07-19T06:56:07Z) - Deep Image Compositing [93.75358242750752]
ユーザ入力なしで高品質の画像合成を自動生成する手法を提案する。
ラプラシアン・ピラミッド・ブレンディングにインスパイアされ、フォアグラウンドや背景画像からの情報を効果的に融合させるために、密結合型多ストリーム融合ネットワークが提案されている。
実験により,提案手法は高品質な合成物を自動生成し,定性的かつ定量的に既存手法より優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2020-11-04T06:12:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。