論文の概要: DreamLayer: Simultaneous Multi-Layer Generation via Diffusion Mode
- arxiv url: http://arxiv.org/abs/2503.12838v1
- Date: Mon, 17 Mar 2025 05:34:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:30:40.941916
- Title: DreamLayer: Simultaneous Multi-Layer Generation via Diffusion Mode
- Title(参考訳): DreamLayer: 拡散モードによる同時マルチ層生成
- Authors: Junjia Huang, Pengxiang Yan, Jinhang Cai, Jiyang Liu, Zhao Wang, Yitong Wang, Xinglong Wu, Guanbin Li,
- Abstract要約: 複数の画像層をコヒーレントなテキスト駆動で生成できるフレームワークであるDreamLayerを紹介する。
透過的なフォアグラウンド層とバックグラウンド層の関係を明示的にモデル化することで、DreamLayerは層間接続を構築する。
実験とユーザスタディにより、DreamLayerはよりコヒーレントで整合したレイヤを生成することが示された。
- 参考スコア(独自算出の注目度): 47.32061459437175
- License:
- Abstract: Text-driven image generation using diffusion models has recently gained significant attention. To enable more flexible image manipulation and editing, recent research has expanded from single image generation to transparent layer generation and multi-layer compositions. However, existing approaches often fail to provide a thorough exploration of multi-layer structures, leading to inconsistent inter-layer interactions, such as occlusion relationships, spatial layout, and shadowing. In this paper, we introduce DreamLayer, a novel framework that enables coherent text-driven generation of multiple image layers, by explicitly modeling the relationship between transparent foreground and background layers. DreamLayer incorporates three key components, i.e., Context-Aware Cross-Attention (CACA) for global-local information exchange, Layer-Shared Self-Attention (LSSA) for establishing robust inter-layer connections, and Information Retained Harmonization (IRH) for refining fusion details at the latent level. By leveraging a coherent full-image context, DreamLayer builds inter-layer connections through attention mechanisms and applies a harmonization step to achieve seamless layer fusion. To facilitate research in multi-layer generation, we construct a high-quality, diverse multi-layer dataset including 400k samples. Extensive experiments and user studies demonstrate that DreamLayer generates more coherent and well-aligned layers, with broad applicability, including latent-space image editing and image-to-layer decomposition.
- Abstract(参考訳): 近年,拡散モデルを用いたテキスト駆動画像生成が注目されている。
よりフレキシブルな画像操作と編集を可能にするため、最近の研究は、単一画像生成から透明な層生成と多層合成へと拡張されている。
しかし、既存のアプローチは多層構造を徹底的に探索することができず、閉塞関係、空間配置、シャドーイングといった不整合層間相互作用をもたらす。
本稿では,複数の画像層をコヒーレントなテキスト駆動で生成できる新しいフレームワークであるDreamLayerを紹介する。
DreamLayerには、グローバルなローカル情報交換のためのコンテキストアウェア・クロス・アテンション(CACA)、堅牢な層間接続を確立するためのレイヤ共有自己アテンション(LSSA)、潜時レベルでの融合の詳細を精査するための情報保持調和(IRH)という3つの重要なコンポーネントが含まれている。
一貫性のあるフルイメージのコンテキストを活用することで、DreamLayerは注意機構を通じて層間接続を構築し、シームレスな層融合を実現するための調和ステップを適用する。
複数層生成の研究を容易にするため,400kサンプルを含む高品質で多様な多層データセットを構築した。
大規模な実験とユーザスタディにより、DreamLayerはよりコヒーレントで整合性の高いレイヤを生成し、ラテント空間の画像編集や画像から層への分解など幅広い適用性を示している。
関連論文リスト
- LayeringDiff: Layered Image Synthesis via Generation, then Disassembly with Generative Knowledge [14.481577976493236]
LayeringDiffは、階層化されたイメージを合成するための新しいパイプラインである。
合成イメージからレイヤを抽出することで、スクラッチから生成するのではなく、大規模なトレーニングの必要性を回避できる。
実効的な層分解のために,前景層と背景層を推定する前に,大規模事前学習型生成法を適用する。
論文 参考訳(メタデータ) (2025-01-02T11:18:25Z) - LayerFusion: Harmonized Multi-Layer Text-to-Image Generation with Generative Priors [38.47462111828742]
階層化されたコンテンツ生成はグラフィックデザイン、アニメーション、デジタルアートといった創造的な分野に不可欠である。
本稿では,2層画像を生成する遅延拡散モデル(LDM)に基づく新しい画像生成パイプラインを提案する。
ベースライン法と比較して,視覚的コヒーレンス,画像品質,レイヤの整合性に大きな改善が見られた。
論文 参考訳(メタデータ) (2024-12-05T18:59:18Z) - Hierarchical Multi-modal Transformer for Cross-modal Long Document Classification [74.45521856327001]
階層構造テキストと埋め込み画像で長い文書を分類する方法は、新しい問題である。
本稿では,階層型マルチモーダル変換器 (HMT) を用いたクロスモーダルな文書分類手法を提案する。
本稿では,マルチモーダル変換器と動的マルチスケールマルチモーダル変換器を用いて,画像特徴とセクションと文特徴の複雑な関係をモデル化する。
論文 参考訳(メタデータ) (2024-07-14T07:12:25Z) - LayerDiff: Exploring Text-guided Multi-layered Composable Image Synthesis via Layer-Collaborative Diffusion Model [70.14953942532621]
層共同拡散モデルであるLayerDiffは、テキスト誘導、多層化、構成可能な画像合成のために設計されている。
本モデルでは,従来の全画像生成手法に匹敵する性能で,高品質な多層画像を生成することができる。
LayerDiffは、レイヤ固有の画像編集やスタイル転送など、幅広いコントロール可能な生成アプリケーションを可能にする。
論文 参考訳(メタデータ) (2024-03-18T16:28:28Z) - Consolidating Attention Features for Multi-view Image Editing [126.19731971010475]
本研究では,空間制御に基づく幾何学的操作に着目し,様々な視点にまたがって編集プロセスを統合する手法を提案する。
編集画像の内部クエリ機能に基づいて訓練されたニューラルラジアンス場QNeRFを紹介する。
拡散時間の経過とともにクエリをよりよく統合する、プログレッシブで反復的な手法により、プロセスを洗練します。
論文 参考訳(メタデータ) (2024-02-22T18:50:18Z) - Mastering Text-to-Image Diffusion: Recaptioning, Planning, and Generating with Multimodal LLMs [77.86214400258473]
トレーニング不要なテキスト・画像生成/編集フレームワークであるRecaption, Plan and Generate(RPG)を提案する。
RPGは、マルチモーダルLLMの強力な連鎖推論能力を活用し、テキストから画像への拡散モデルの合成性を高める。
本フレームワークはMLLMアーキテクチャとの広範な互換性を示す。
論文 参考訳(メタデータ) (2024-01-22T06:16:29Z) - Text2Layer: Layered Image Generation using Latent Diffusion Model [12.902259486204898]
階層化画像生成の観点から階層化画像を生成することを提案する。
階層画像生成を実現するために,階層画像の再構成が可能なオートエンコーダを訓練する。
実験結果から,提案手法は高品質な階層画像を生成することができることがわかった。
論文 参考訳(メタデータ) (2023-07-19T06:56:07Z) - SLIDE: Single Image 3D Photography with Soft Layering and Depth-aware
Inpainting [54.419266357283966]
シングルイメージの3D写真は、視聴者が新しい視点から静止画を見ることを可能にする。
最近のアプローチでは、単分子深度ネットワークと塗装ネットワークを組み合わせることで、説得力のある結果が得られる。
単一画像3D撮影のためのモジュール・統一システムであるSLIDEについて述べる。
論文 参考訳(メタデータ) (2021-09-02T16:37:20Z) - Diversifying Semantic Image Synthesis and Editing via Class- and
Layer-wise VAEs [8.528384027684192]
本稿では,ローカルからグローバルレベルの各オブジェクトクラスに対するフレキシブルな制御を可能にする,変動型オートエンコーダフレームワークのクラスおよびレイヤワイズ拡張を提案する。
提案手法は,最先端の手法と比較して,可塑性かつ多彩な画像を生成する。
論文 参考訳(メタデータ) (2021-06-25T04:12:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。