論文の概要: LayerDiff: Exploring Text-guided Multi-layered Composable Image Synthesis via Layer-Collaborative Diffusion Model
- arxiv url: http://arxiv.org/abs/2403.11929v1
- Date: Mon, 18 Mar 2024 16:28:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 19:40:35.758850
- Title: LayerDiff: Exploring Text-guided Multi-layered Composable Image Synthesis via Layer-Collaborative Diffusion Model
- Title(参考訳): LayerDiff:Layer-Collaborative Diffusion Modelによるテキスト誘導多層合成画像の探索
- Authors: Runhui Huang, Kaixin Cai, Jianhua Han, Xiaodan Liang, Renjing Pei, Guansong Lu, Songcen Xu, Wei Zhang, Hang Xu,
- Abstract要約: 層共同拡散モデルであるLayerDiffは、テキスト誘導、多層化、構成可能な画像合成のために設計されている。
本モデルでは,従来の全画像生成手法に匹敵する性能で,高品質な多層画像を生成することができる。
LayerDiffは、レイヤ固有の画像編集やスタイル転送など、幅広いコントロール可能な生成アプリケーションを可能にする。
- 参考スコア(独自算出の注目度): 70.14953942532621
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the success of generating high-quality images given any text prompts by diffusion-based generative models, prior works directly generate the entire images, but cannot provide object-wise manipulation capability. To support wider real applications like professional graphic design and digital artistry, images are frequently created and manipulated in multiple layers to offer greater flexibility and control. Therefore in this paper, we propose a layer-collaborative diffusion model, named LayerDiff, specifically designed for text-guided, multi-layered, composable image synthesis. The composable image consists of a background layer, a set of foreground layers, and associated mask layers for each foreground element. To enable this, LayerDiff introduces a layer-based generation paradigm incorporating multiple layer-collaborative attention modules to capture inter-layer patterns. Specifically, an inter-layer attention module is designed to encourage information exchange and learning between layers, while a text-guided intra-layer attention module incorporates layer-specific prompts to direct the specific-content generation for each layer. A layer-specific prompt-enhanced module better captures detailed textual cues from the global prompt. Additionally, a self-mask guidance sampling strategy further unleashes the model's ability to generate multi-layered images. We also present a pipeline that integrates existing perceptual and generative models to produce a large dataset of high-quality, text-prompted, multi-layered images. Extensive experiments demonstrate that our LayerDiff model can generate high-quality multi-layered images with performance comparable to conventional whole-image generation methods. Moreover, LayerDiff enables a broader range of controllable generative applications, including layer-specific image editing and style transfer.
- Abstract(参考訳): 拡散ベースの生成モデルによってテキストプロンプトが与えられると、高品質な画像を生成することに成功したが、以前の作業では画像全体を直接生成するが、オブジェクト指向の操作能力は提供できない。
プロのグラフィックデザインやデジタルアートのようなより広範なリアルなアプリケーションをサポートするために、画像は複数の層で頻繁に作成され、操作され、柔軟性とコントロールが向上する。
そこで本稿では,テキスト誘導,多層化,構成可能な画像合成のためのレイヤ協調拡散モデルであるLayerDiffを提案する。
構成可能な画像は、背景層、前景層の集合、および各前景要素のための関連するマスク層からなる。
これを実現するため、LayerDiffはレイヤ間のパターンをキャプチャするために複数のレイヤ協調アテンションモジュールを組み込んだレイヤベースの生成パラダイムを導入した。
具体的には、層間アテンションモジュールは層間の情報交換と学習を促進するように設計され、テキスト誘導イントラアテンションモジュールは層固有のプロンプトを組み込んで各層に対して特定のコンテンツ生成を指示する。
レイヤ固有のプロンプト強化モジュールは、グローバルプロンプトから詳細なテキストキューをキャプチャする。
さらに、自己マスク誘導サンプリング戦略により、多層画像を生成するモデルの能力をさらに解き放つ。
また、既存の知覚モデルと生成モデルを統合して、高品質でテキストプロンプされた多層画像の大規模なデータセットを生成するパイプラインを提案する。
大規模な実験により,従来の全画像生成手法に匹敵する高画質の多層画像が生成可能であることが示された。
さらにLayerDiffは、レイヤ固有の画像編集やスタイル転送など、幅広いコントロール可能な生成アプリケーションを可能にする。
関連論文リスト
- MULAN: A Multi Layer Annotated Dataset for Controllable Text-to-Image Generation [54.64194935409982]
44K MUlti-Layer-wise RGBA 分解からなる新しいデータセット MuLAn を紹介する。
MuLAnは、高品質な画像のインスタンス分解と空間情報を提供する最初のフォトリアリスティックなリソースである。
我々は,新しい生成・編集技術,特にレイヤワイドソリューションの開発を促進することを目的としている。
論文 参考訳(メタデータ) (2024-04-03T14:58:00Z) - Text2Layer: Layered Image Generation using Latent Diffusion Model [12.902259486204898]
階層化画像生成の観点から階層化画像を生成することを提案する。
階層画像生成を実現するために,階層画像の再構成が可能なオートエンコーダを訓練する。
実験結果から,提案手法は高品質な階層画像を生成することができることがわかった。
論文 参考訳(メタデータ) (2023-07-19T06:56:07Z) - Collage Diffusion [17.660410448312717]
Collage Diffusionは入力層を調和させ、オブジェクトを一緒にフィットさせる。
我々は,各層ごとの特殊テキスト表現を学習することで,入力層の重要な視覚特性を保存する。
Collage Diffusionは、望まれるオブジェクト特性を以前のアプローチよりも良く維持する、グローバルに調和した画像を生成する。
論文 参考訳(メタデータ) (2023-03-01T06:35:42Z) - MontageGAN: Generation and Assembly of Multiple Components by GANs [11.117357750374035]
我々は,多層画像を生成するための生成Adversarial NetworksフレームワークであるMontageGANを提案する。
提案手法は,局所的なGANとグローバルなGANからなる2段階のアプローチを用いた。
論文 参考訳(メタデータ) (2022-05-31T07:34:19Z) - SLIDE: Single Image 3D Photography with Soft Layering and Depth-aware
Inpainting [54.419266357283966]
シングルイメージの3D写真は、視聴者が新しい視点から静止画を見ることを可能にする。
最近のアプローチでは、単分子深度ネットワークと塗装ネットワークを組み合わせることで、説得力のある結果が得られる。
単一画像3D撮影のためのモジュール・統一システムであるSLIDEについて述べる。
論文 参考訳(メタデータ) (2021-09-02T16:37:20Z) - Diversifying Semantic Image Synthesis and Editing via Class- and
Layer-wise VAEs [8.528384027684192]
本稿では,ローカルからグローバルレベルの各オブジェクトクラスに対するフレキシブルな制御を可能にする,変動型オートエンコーダフレームワークのクラスおよびレイヤワイズ拡張を提案する。
提案手法は,最先端の手法と比較して,可塑性かつ多彩な画像を生成する。
論文 参考訳(メタデータ) (2021-06-25T04:12:05Z) - TediGAN: Text-Guided Diverse Face Image Generation and Manipulation [52.83401421019309]
TediGANはマルチモーダル画像生成とテキスト記述による操作のためのフレームワークである。
StyleGANインバージョンモジュールは、よく訓練されたStyleGANの潜在空間に実際の画像をマッピングする。
視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。
インスタンスレベルの最適化は、操作におけるID保存のためのものだ。
論文 参考訳(メタデータ) (2020-12-06T16:20:19Z) - Deep Image Compositing [93.75358242750752]
ユーザ入力なしで高品質の画像合成を自動生成する手法を提案する。
ラプラシアン・ピラミッド・ブレンディングにインスパイアされ、フォアグラウンドや背景画像からの情報を効果的に融合させるために、密結合型多ストリーム融合ネットワークが提案されている。
実験により,提案手法は高品質な合成物を自動生成し,定性的かつ定量的に既存手法より優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2020-11-04T06:12:24Z) - Learning to Compose Hypercolumns for Visual Correspondence [57.93635236871264]
本稿では,画像に条件付けされた関連レイヤを活用することで,動的に効率的な特徴を構成する視覚対応手法を提案する。
提案手法はダイナミックハイパーピクセルフロー(Dynamic Hyperpixel Flow)と呼ばれ,深層畳み込みニューラルネットワークから少数の関連層を選択することにより,高速にハイパーカラム機能を構成することを学習する。
論文 参考訳(メタデータ) (2020-07-21T04:03:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。