論文の概要: LayerFusion: Harmonized Multi-Layer Text-to-Image Generation with Generative Priors
- arxiv url: http://arxiv.org/abs/2412.04460v1
- Date: Thu, 05 Dec 2024 18:59:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 14:40:24.330971
- Title: LayerFusion: Harmonized Multi-Layer Text-to-Image Generation with Generative Priors
- Title(参考訳): LayerFusion: 生成プリミティブによる高調波多層テキスト・画像生成
- Authors: Yusuf Dalva, Yijun Li, Qing Liu, Nanxuan Zhao, Jianming Zhang, Zhe Lin, Pinar Yanardag,
- Abstract要約: 階層化されたコンテンツ生成はグラフィックデザイン、アニメーション、デジタルアートといった創造的な分野に不可欠である。
本稿では,2層画像を生成する遅延拡散モデル(LDM)に基づく新しい画像生成パイプラインを提案する。
ベースライン法と比較して,視覚的コヒーレンス,画像品質,レイヤの整合性に大きな改善が見られた。
- 参考スコア(独自算出の注目度): 38.47462111828742
- License:
- Abstract: Large-scale diffusion models have achieved remarkable success in generating high-quality images from textual descriptions, gaining popularity across various applications. However, the generation of layered content, such as transparent images with foreground and background layers, remains an under-explored area. Layered content generation is crucial for creative workflows in fields like graphic design, animation, and digital art, where layer-based approaches are fundamental for flexible editing and composition. In this paper, we propose a novel image generation pipeline based on Latent Diffusion Models (LDMs) that generates images with two layers: a foreground layer (RGBA) with transparency information and a background layer (RGB). Unlike existing methods that generate these layers sequentially, our approach introduces a harmonized generation mechanism that enables dynamic interactions between the layers for more coherent outputs. We demonstrate the effectiveness of our method through extensive qualitative and quantitative experiments, showing significant improvements in visual coherence, image quality, and layer consistency compared to baseline methods.
- Abstract(参考訳): 大規模拡散モデルはテキスト記述から高品質な画像を生成することに成功し、様々なアプリケーションで人気を博している。
しかし、前景や背景層を持つ透明な画像のような層状コンテンツの生成は、まだ探索されていない領域である。
階層化されたコンテンツ生成はグラフィックデザイン、アニメーション、デジタルアートといった分野における創造的なワークフローにとって不可欠である。
本稿では,透過的な情報を持つ前景層 (RGBA) と背景層 (RGB) の2層からなる画像を生成する,遅延拡散モデル (LDM) に基づく新しい画像生成パイプラインを提案する。
これらの層を逐次生成する既存手法とは異なり,本手法では,階層間の動的相互作用を可能にする調和生成機構を導入し,よりコヒーレントな出力を実現する。
本研究では,視覚的コヒーレンス,画像品質,レイヤの整合性において,ベースライン法と比較して有意な改善が見られた。
関連論文リスト
- Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model [80.61157097223058]
画像分類性能を高めるための一般的な戦略は、T2Iモデルによって生成された合成画像でトレーニングセットを増強することである。
本研究では,既存のデータ拡張技術の欠点について検討する。
Diff-Mixと呼ばれる革新的なクラス間データ拡張手法を導入する。
論文 参考訳(メタデータ) (2024-03-28T17:23:45Z) - LayerDiff: Exploring Text-guided Multi-layered Composable Image Synthesis via Layer-Collaborative Diffusion Model [70.14953942532621]
層共同拡散モデルであるLayerDiffは、テキスト誘導、多層化、構成可能な画像合成のために設計されている。
本モデルでは,従来の全画像生成手法に匹敵する性能で,高品質な多層画像を生成することができる。
LayerDiffは、レイヤ固有の画像編集やスタイル転送など、幅広いコントロール可能な生成アプリケーションを可能にする。
論文 参考訳(メタデータ) (2024-03-18T16:28:28Z) - Layered Rendering Diffusion Model for Controllable Zero-Shot Image Synthesis [15.76266032768078]
本稿では,テキストクエリに依存する拡散モデルにおける空間制御性向上のための革新的な手法を提案する。
まず、摂動分布の基本的な空間的キューとして視覚誘導を導入する。
本稿では,複数のレイヤからなる画像レンダリングプロセスを構築する汎用フレームワークであるLayered Rendering Diffusion (LRDiff)を提案する。
論文 参考訳(メタデータ) (2023-11-30T10:36:19Z) - Semantic Image Synthesis via Class-Adaptive Cross-Attention [7.147779225315707]
SPADEの代わりにクロスアテンション層を用いて形状型相関を学習し、画像生成プロセスの条件付けを行う。
我々のモデルはSPADEの汎用性を継承し、同時に最先端の世代品質を得るとともに、グローバルおよびローカルスタイルの転送を改善する。
論文 参考訳(メタデータ) (2023-08-30T14:49:34Z) - Text2Layer: Layered Image Generation using Latent Diffusion Model [12.902259486204898]
階層化画像生成の観点から階層化画像を生成することを提案する。
階層画像生成を実現するために,階層画像の再構成が可能なオートエンコーダを訓練する。
実験結果から,提案手法は高品質な階層画像を生成することができることがわかった。
論文 参考訳(メタデータ) (2023-07-19T06:56:07Z) - Energy-Based Cross Attention for Bayesian Context Update in
Text-to-Image Diffusion Models [62.603753097900466]
本稿では,文脈ベクトルの後部をモデル化し,適応的文脈制御のための新しいエネルギーベースモデル(EBM)を提案する。
具体的には、まず遅延画像表現とテキスト埋め込みのESMをデノナイズドオートエンコーダの各クロスアテンション層に定式化する。
我々の潜在ESMは、異なるコンテキストからの相互注意出力の線形結合として、ゼロショット合成を可能としています。
論文 参考訳(メタデータ) (2023-06-16T14:30:41Z) - Learning to Compose Hypercolumns for Visual Correspondence [57.93635236871264]
本稿では,画像に条件付けされた関連レイヤを活用することで,動的に効率的な特徴を構成する視覚対応手法を提案する。
提案手法はダイナミックハイパーピクセルフロー(Dynamic Hyperpixel Flow)と呼ばれ,深層畳み込みニューラルネットワークから少数の関連層を選択することにより,高速にハイパーカラム機能を構成することを学習する。
論文 参考訳(メタデータ) (2020-07-21T04:03:22Z) - Hierarchical Opacity Propagation for Image Matting [15.265494938937737]
ピクセル間のより直接的アルファマット伝播のための新しい構造が要求されている。
HOPマッティングは最先端のマッティング法より優れている。
論文 参考訳(メタデータ) (2020-04-07T10:39:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。