論文の概要: PSDiffusion: Harmonized Multi-Layer Image Generation via Layout and Appearance Alignment
- arxiv url: http://arxiv.org/abs/2505.11468v2
- Date: Sat, 08 Nov 2025 20:54:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.346
- Title: PSDiffusion: Harmonized Multi-Layer Image Generation via Layout and Appearance Alignment
- Title(参考訳): PSDiffusion:レイアウトと外観アライメントによる高調波多層画像生成
- Authors: Dingbang Huang, Wenbo Li, Yifei Zhao, Xinyu Pan, Chun Wang, Yanhong Zeng, Bo Dai,
- Abstract要約: 透明な画像層生成はデジタルアートとデザインにおいて重要な役割を果たしている。
既存の手法では、ツールセットを使用して単一のRGBイメージから透過層を分解したり、複数の透過層を順次生成するのが一般的である。
PSDiffusionは,複数層同時生成のための事前学習画像拡散モデルから,画像合成の先行情報を活用する統合拡散フレームワークである。
- 参考スコア(独自算出の注目度): 23.67447416568964
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transparent image layer generation plays a significant role in digital art and design workflows. Existing methods typically decompose transparent layers from a single RGB image using a set of tools or generate multiple transparent layers sequentially. Despite some promising results, these methods often limit their ability to model global layout, physically plausible interactions, and visual effects such as shadows and reflections with high alpha quality due to limited shared global context among layers. To address this issue, we propose PSDiffusion, a unified diffusion framework that leverages image composition priors from pre-trained image diffusion model for simultaneous multi-layer text-to-image generation. Specifically, our method introduces a global layer interaction mechanism to generate layered images collaboratively, ensuring both individual layer quality and coherent spatial and visual relationships across layers. We include extensive experiments on benchmark datasets to demonstrate that PSDiffusion is able to outperform existing methods in generating multi-layer images with plausible structure and enhanced visual fidelity.
- Abstract(参考訳): 透明な画像層生成は、デジタルアートやデザインワークフローにおいて重要な役割を果たす。
既存の手法では、ツールセットを使用して単一のRGBイメージから透過層を分解したり、複数の透過層を順次生成するのが一般的である。
いくつかの有望な結果にもかかわらず、これらの手法は、グローバルレイアウト、物理的に妥当な相互作用、レイヤ間の共有グローバルコンテキストの制限による、高いアルファ品質のシャドウやリフレクションのような視覚効果をモデル化する能力を制限することが多い。
この問題に対処するため,PSDiffusionという統合拡散フレームワークを提案する。
具体的には,グローバルな層間相互作用機構を導入し,各層の品質と空間的・視覚的関係の両面を協調的に生成する。
我々は、PSDiffusionが多層画像の生成において、可塑性構造と拡張された視覚的忠実性で既存の手法より優れていることを示すために、ベンチマークデータセットに関する広範な実験を含む。
関連論文リスト
- DreamLayer: Simultaneous Multi-Layer Generation via Diffusion Mode [47.32061459437175]
複数の画像層をコヒーレントなテキスト駆動で生成できるフレームワークであるDreamLayerを紹介する。
透過的なフォアグラウンド層とバックグラウンド層の関係を明示的にモデル化することで、DreamLayerは層間接続を構築する。
実験とユーザスタディにより、DreamLayerはよりコヒーレントで整合したレイヤを生成することが示された。
論文 参考訳(メタデータ) (2025-03-17T05:34:11Z) - ART: Anonymous Region Transformer for Variable Multi-Layer Transparent Image Generation [108.69315278353932]
可変多層透明画像の直接生成を容易にするAnonymous Region Transformer(ART)を導入する。
正確な制御とスケーラブルなレイヤ生成を可能にすることで、ARTはインタラクティブなコンテンツ作成のための新しいパラダイムを確立します。
論文 参考訳(メタデータ) (2025-02-25T16:57:04Z) - LayerFusion: Harmonized Multi-Layer Text-to-Image Generation with Generative Priors [38.47462111828742]
階層化されたコンテンツ生成はグラフィックデザイン、アニメーション、デジタルアートといった創造的な分野に不可欠である。
本稿では,2層画像を生成する遅延拡散モデル(LDM)に基づく新しい画像生成パイプラインを提案する。
ベースライン法と比較して,視覚的コヒーレンス,画像品質,レイヤの整合性に大きな改善が見られた。
論文 参考訳(メタデータ) (2024-12-05T18:59:18Z) - Generating Compositional Scenes via Text-to-image RGBA Instance Generation [82.63805151691024]
テキストから画像への拡散生成モデルは、退屈な急進的なエンジニアリングを犠牲にして高品質な画像を生成することができる。
本稿では, 粒度制御, 柔軟性, 相互作用性を考慮した新しい多段階生成パラダイムを提案する。
実験の結果,RGBA拡散モデルでは,オブジェクト属性を正確に制御した多種多様な高品質なインスタンスを生成できることがわかった。
論文 参考訳(メタデータ) (2024-11-16T23:44:14Z) - LayerDiff: Exploring Text-guided Multi-layered Composable Image Synthesis via Layer-Collaborative Diffusion Model [70.14953942532621]
層共同拡散モデルであるLayerDiffは、テキスト誘導、多層化、構成可能な画像合成のために設計されている。
本モデルでは,従来の全画像生成手法に匹敵する性能で,高品質な多層画像を生成することができる。
LayerDiffは、レイヤ固有の画像編集やスタイル転送など、幅広いコントロール可能な生成アプリケーションを可能にする。
論文 参考訳(メタデータ) (2024-03-18T16:28:28Z) - Mastering Text-to-Image Diffusion: Recaptioning, Planning, and Generating with Multimodal LLMs [77.86214400258473]
トレーニング不要なテキスト・画像生成/編集フレームワークであるRecaption, Plan and Generate(RPG)を提案する。
RPGは、マルチモーダルLLMの強力な連鎖推論能力を活用し、テキストから画像への拡散モデルの合成性を高める。
本フレームワークはMLLMアーキテクチャとの広範な互換性を示す。
論文 参考訳(メタデータ) (2024-01-22T06:16:29Z) - Text2Layer: Layered Image Generation using Latent Diffusion Model [12.902259486204898]
階層化画像生成の観点から階層化画像を生成することを提案する。
階層画像生成を実現するために,階層画像の再構成が可能なオートエンコーダを訓練する。
実験結果から,提案手法は高品質な階層画像を生成することができることがわかった。
論文 参考訳(メタデータ) (2023-07-19T06:56:07Z) - Deep Image Compositing [93.75358242750752]
ユーザ入力なしで高品質の画像合成を自動生成する手法を提案する。
ラプラシアン・ピラミッド・ブレンディングにインスパイアされ、フォアグラウンドや背景画像からの情報を効果的に融合させるために、密結合型多ストリーム融合ネットワークが提案されている。
実験により,提案手法は高品質な合成物を自動生成し,定性的かつ定量的に既存手法より優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2020-11-04T06:12:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。