論文の概要: LayerFusion: Harmonized Multi-Layer Text-to-Image Generation with Generative Priors
- arxiv url: http://arxiv.org/abs/2412.04460v1
- Date: Thu, 05 Dec 2024 18:59:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 14:40:24.330971
- Title: LayerFusion: Harmonized Multi-Layer Text-to-Image Generation with Generative Priors
- Title(参考訳): LayerFusion: 生成プリミティブによる高調波多層テキスト・画像生成
- Authors: Yusuf Dalva, Yijun Li, Qing Liu, Nanxuan Zhao, Jianming Zhang, Zhe Lin, Pinar Yanardag,
- Abstract要約: 階層化されたコンテンツ生成はグラフィックデザイン、アニメーション、デジタルアートといった創造的な分野に不可欠である。
本稿では,2層画像を生成する遅延拡散モデル(LDM)に基づく新しい画像生成パイプラインを提案する。
ベースライン法と比較して,視覚的コヒーレンス,画像品質,レイヤの整合性に大きな改善が見られた。
- 参考スコア(独自算出の注目度): 38.47462111828742
- License:
- Abstract: Large-scale diffusion models have achieved remarkable success in generating high-quality images from textual descriptions, gaining popularity across various applications. However, the generation of layered content, such as transparent images with foreground and background layers, remains an under-explored area. Layered content generation is crucial for creative workflows in fields like graphic design, animation, and digital art, where layer-based approaches are fundamental for flexible editing and composition. In this paper, we propose a novel image generation pipeline based on Latent Diffusion Models (LDMs) that generates images with two layers: a foreground layer (RGBA) with transparency information and a background layer (RGB). Unlike existing methods that generate these layers sequentially, our approach introduces a harmonized generation mechanism that enables dynamic interactions between the layers for more coherent outputs. We demonstrate the effectiveness of our method through extensive qualitative and quantitative experiments, showing significant improvements in visual coherence, image quality, and layer consistency compared to baseline methods.
- Abstract(参考訳): 大規模拡散モデルはテキスト記述から高品質な画像を生成することに成功し、様々なアプリケーションで人気を博している。
しかし、前景や背景層を持つ透明な画像のような層状コンテンツの生成は、まだ探索されていない領域である。
階層化されたコンテンツ生成はグラフィックデザイン、アニメーション、デジタルアートといった分野における創造的なワークフローにとって不可欠である。
本稿では,透過的な情報を持つ前景層 (RGBA) と背景層 (RGB) の2層からなる画像を生成する,遅延拡散モデル (LDM) に基づく新しい画像生成パイプラインを提案する。
これらの層を逐次生成する既存手法とは異なり,本手法では,階層間の動的相互作用を可能にする調和生成機構を導入し,よりコヒーレントな出力を実現する。
本研究では,視覚的コヒーレンス,画像品質,レイヤの整合性において,ベースライン法と比較して有意な改善が見られた。
関連論文リスト
- Enhancing Image Generation Fidelity via Progressive Prompts [25.099694657440992]
本稿では,地域プロンプトのための粗い-to-ファインジェネレーションパイプラインを提案する。
より深いレイヤが常にハイレベルなコンテントコントロールを担っているのに対して、浅いレイヤはローレベルなコンテントコントロールを処理しているのです。
提案する地域横断 - 粗い - きめ細かな世代に対する注意制御 - に様々なプロンプトが注入される。
論文 参考訳(メタデータ) (2025-01-13T05:48:32Z) - LayeringDiff: Layered Image Synthesis via Generation, then Disassembly with Generative Knowledge [14.481577976493236]
LayeringDiffは、階層化されたイメージを合成するための新しいパイプラインである。
合成イメージからレイヤを抽出することで、スクラッチから生成するのではなく、大規模なトレーニングの必要性を回避できる。
実効的な層分解のために,前景層と背景層を推定する前に,大規模事前学習型生成法を適用する。
論文 参考訳(メタデータ) (2025-01-02T11:18:25Z) - Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model [80.61157097223058]
画像分類性能を高めるための一般的な戦略は、T2Iモデルによって生成された合成画像でトレーニングセットを増強することである。
本研究では,既存のデータ拡張技術の欠点について検討する。
Diff-Mixと呼ばれる革新的なクラス間データ拡張手法を導入する。
論文 参考訳(メタデータ) (2024-03-28T17:23:45Z) - LayerDiff: Exploring Text-guided Multi-layered Composable Image Synthesis via Layer-Collaborative Diffusion Model [70.14953942532621]
層共同拡散モデルであるLayerDiffは、テキスト誘導、多層化、構成可能な画像合成のために設計されている。
本モデルでは,従来の全画像生成手法に匹敵する性能で,高品質な多層画像を生成することができる。
LayerDiffは、レイヤ固有の画像編集やスタイル転送など、幅広いコントロール可能な生成アプリケーションを可能にする。
論文 参考訳(メタデータ) (2024-03-18T16:28:28Z) - Text2Layer: Layered Image Generation using Latent Diffusion Model [12.902259486204898]
階層化画像生成の観点から階層化画像を生成することを提案する。
階層画像生成を実現するために,階層画像の再構成が可能なオートエンコーダを訓練する。
実験結果から,提案手法は高品質な階層画像を生成することができることがわかった。
論文 参考訳(メタデータ) (2023-07-19T06:56:07Z) - Energy-Based Cross Attention for Bayesian Context Update in
Text-to-Image Diffusion Models [62.603753097900466]
本稿では,文脈ベクトルの後部をモデル化し,適応的文脈制御のための新しいエネルギーベースモデル(EBM)を提案する。
具体的には、まず遅延画像表現とテキスト埋め込みのESMをデノナイズドオートエンコーダの各クロスアテンション層に定式化する。
我々の潜在ESMは、異なるコンテキストからの相互注意出力の線形結合として、ゼロショット合成を可能としています。
論文 参考訳(メタデータ) (2023-06-16T14:30:41Z) - Deep Image Compositing [93.75358242750752]
ユーザ入力なしで高品質の画像合成を自動生成する手法を提案する。
ラプラシアン・ピラミッド・ブレンディングにインスパイアされ、フォアグラウンドや背景画像からの情報を効果的に融合させるために、密結合型多ストリーム融合ネットワークが提案されている。
実験により,提案手法は高品質な合成物を自動生成し,定性的かつ定量的に既存手法より優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2020-11-04T06:12:24Z) - Learning to Compose Hypercolumns for Visual Correspondence [57.93635236871264]
本稿では,画像に条件付けされた関連レイヤを活用することで,動的に効率的な特徴を構成する視覚対応手法を提案する。
提案手法はダイナミックハイパーピクセルフロー(Dynamic Hyperpixel Flow)と呼ばれ,深層畳み込みニューラルネットワークから少数の関連層を選択することにより,高速にハイパーカラム機能を構成することを学習する。
論文 参考訳(メタデータ) (2020-07-21T04:03:22Z) - Hierarchical Opacity Propagation for Image Matting [15.265494938937737]
ピクセル間のより直接的アルファマット伝播のための新しい構造が要求されている。
HOPマッティングは最先端のマッティング法より優れている。
論文 参考訳(メタデータ) (2020-04-07T10:39:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。