Fugu-MT 論文翻訳(概要): LayerFusion: Harmonized Multi-Layer Text-to-Image Generation with Generative Priors

論文の概要: LayerFusion: Harmonized Multi-Layer Text-to-Image Generation with Generative Priors

arxiv url: http://arxiv.org/abs/2412.04460v1
Date: Thu, 05 Dec 2024 18:59:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-06 20:43:02.217057
Title: LayerFusion: Harmonized Multi-Layer Text-to-Image Generation with Generative Priors
Title（参考訳）: LayerFusion: 生成プリミティブによる高調波多層テキスト・画像生成
Authors: Yusuf Dalva, Yijun Li, Qing Liu, Nanxuan Zhao, Jianming Zhang, Zhe Lin, Pinar Yanardag,
Abstract要約: 階層化されたコンテンツ生成はグラフィックデザイン、アニメーション、デジタルアートといった創造的な分野に不可欠である。本稿では,2層画像を生成する遅延拡散モデル(LDM)に基づく新しい画像生成パイプラインを提案する。ベースライン法と比較して,視覚的コヒーレンス,画像品質,レイヤの整合性に大きな改善が見られた。
参考スコア（独自算出の注目度）: 38.47462111828742
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large-scale diffusion models have achieved remarkable success in generating high-quality images from textual descriptions, gaining popularity across various applications. However, the generation of layered content, such as transparent images with foreground and background layers, remains an under-explored area. Layered content generation is crucial for creative workflows in fields like graphic design, animation, and digital art, where layer-based approaches are fundamental for flexible editing and composition. In this paper, we propose a novel image generation pipeline based on Latent Diffusion Models (LDMs) that generates images with two layers: a foreground layer (RGBA) with transparency information and a background layer (RGB). Unlike existing methods that generate these layers sequentially, our approach introduces a harmonized generation mechanism that enables dynamic interactions between the layers for more coherent outputs. We demonstrate the effectiveness of our method through extensive qualitative and quantitative experiments, showing significant improvements in visual coherence, image quality, and layer consistency compared to baseline methods.
Abstract（参考訳）: 大規模拡散モデルはテキスト記述から高品質な画像を生成することに成功し、様々なアプリケーションで人気を博している。しかし、前景や背景層を持つ透明な画像のような層状コンテンツの生成は、まだ探索されていない領域である。階層化されたコンテンツ生成はグラフィックデザイン、アニメーション、デジタルアートといった分野における創造的なワークフローにとって不可欠である。本稿では,透過的な情報を持つ前景層 (RGBA) と背景層 (RGB) の2層からなる画像を生成する,遅延拡散モデル (LDM) に基づく新しい画像生成パイプラインを提案する。これらの層を逐次生成する既存手法とは異なり,本手法では,階層間の動的相互作用を可能にする調和生成機構を導入し,よりコヒーレントな出力を実現する。本研究では,視覚的コヒーレンス,画像品質,レイヤの整合性において,ベースライン法と比較して有意な改善が見られた。

関連論文リスト

PSDiffusion: Harmonized Multi-Layer Image Generation via Layout and Appearance Alignment [24.964578950380947]
PSDiffusionは、同時多層テキスト・画像生成のための統合拡散フレームワークである。我々のモデルは、1つのRGB背景と複数のRGBAフォアグラウンドを持つ多層画像を自動的に生成することができる。本手法では,層状画像を並列かつ協調的に生成するグローバル層対話機構を提案する。
論文参考訳（メタデータ） (2025-05-16T17:23:35Z)
Mogao: An Omni Foundation Model for Interleaved Multi-Modal Generation [54.588082888166504]
我々は、因果アプローチを通じてインターリーブされたマルチモーダル生成を可能にする統一的なフレームワークであるMogaoを提案する。 Mogooは、Deep-fusion設計、デュアルビジョンエンコーダ、インターリーブされた回転位置埋め込み、マルチモーダル分類器フリーガイダンスなど、アーキテクチャ設計における重要な技術的改善のセットを統合している。実験により,モガオはマルチモーダル理解とテキスト・ツー・イメージ生成において最先端の性能を発揮するとともに,高品質でコヒーレントなインターリーブ・アウトプットの創出にも優れていることが示された。
論文参考訳（メタデータ） (2025-05-08T17:58:57Z)
DreamLayer: Simultaneous Multi-Layer Generation via Diffusion Mode [47.32061459437175]
複数の画像層をコヒーレントなテキスト駆動で生成できるフレームワークであるDreamLayerを紹介する。透過的なフォアグラウンド層とバックグラウンド層の関係を明示的にモデル化することで、DreamLayerは層間接続を構築する。実験とユーザスタディにより、DreamLayerはよりコヒーレントで整合したレイヤを生成することが示された。
論文参考訳（メタデータ） (2025-03-17T05:34:11Z)
ART: Anonymous Region Transformer for Variable Multi-Layer Transparent Image Generation [108.69315278353932]
可変多層透明画像の直接生成を容易にするAnonymous Region Transformer(ART)を導入する。正確な制御とスケーラブルなレイヤ生成を可能にすることで、ARTはインタラクティブなコンテンツ作成のための新しいパラダイムを確立します。
論文参考訳（メタデータ） (2025-02-25T16:57:04Z)
LayeringDiff: Layered Image Synthesis via Generation, then Disassembly with Generative Knowledge [14.481577976493236]
LayeringDiffは、階層化されたイメージを合成するための新しいパイプラインである。合成イメージからレイヤを抽出することで、スクラッチから生成するのではなく、大規模なトレーニングの必要性を回避できる。実効的な層分解のために,前景層と背景層を推定する前に,大規模事前学習型生成法を適用する。
論文参考訳（メタデータ） (2025-01-02T11:18:25Z)
Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model [80.61157097223058]
画像分類性能を高めるための一般的な戦略は、T2Iモデルによって生成された合成画像でトレーニングセットを増強することである。本研究では,既存のデータ拡張技術の欠点について検討する。 Diff-Mixと呼ばれる革新的なクラス間データ拡張手法を導入する。
論文参考訳（メタデータ） (2024-03-28T17:23:45Z)
LayerDiff: Exploring Text-guided Multi-layered Composable Image Synthesis via Layer-Collaborative Diffusion Model [70.14953942532621]
層共同拡散モデルであるLayerDiffは、テキスト誘導、多層化、構成可能な画像合成のために設計されている。本モデルでは,従来の全画像生成手法に匹敵する性能で,高品質な多層画像を生成することができる。 LayerDiffは、レイヤ固有の画像編集やスタイル転送など、幅広いコントロール可能な生成アプリケーションを可能にする。
論文参考訳（メタデータ） (2024-03-18T16:28:28Z)
Layered Rendering Diffusion Model for Controllable Zero-Shot Image Synthesis [15.76266032768078]
本稿では,テキストクエリに依存する拡散モデルにおける空間制御性向上のための革新的な手法を提案する。まず、摂動分布の基本的な空間的キューとして視覚誘導を導入する。本稿では,複数のレイヤからなる画像レンダリングプロセスを構築する汎用フレームワークであるLayered Rendering Diffusion (LRDiff)を提案する。
論文参考訳（メタデータ） (2023-11-30T10:36:19Z)
Text2Layer: Layered Image Generation using Latent Diffusion Model [12.902259486204898]
階層化画像生成の観点から階層化画像を生成することを提案する。階層画像生成を実現するために,階層画像の再構成が可能なオートエンコーダを訓練する。実験結果から,提案手法は高品質な階層画像を生成することができることがわかった。
論文参考訳（メタデータ） (2023-07-19T06:56:07Z)
Energy-Based Cross Attention for Bayesian Context Update in Text-to-Image Diffusion Models [62.603753097900466]
本稿では,文脈ベクトルの後部をモデル化し,適応的文脈制御のための新しいエネルギーベースモデル(EBM)を提案する。具体的には、まず遅延画像表現とテキスト埋め込みのESMをデノナイズドオートエンコーダの各クロスアテンション層に定式化する。我々の潜在ESMは、異なるコンテキストからの相互注意出力の線形結合として、ゼロショット合成を可能としています。
論文参考訳（メタデータ） (2023-06-16T14:30:41Z)
Learning to Compose Hypercolumns for Visual Correspondence [57.93635236871264]
本稿では,画像に条件付けされた関連レイヤを活用することで,動的に効率的な特徴を構成する視覚対応手法を提案する。提案手法はダイナミックハイパーピクセルフロー(Dynamic Hyperpixel Flow)と呼ばれ,深層畳み込みニューラルネットワークから少数の関連層を選択することにより,高速にハイパーカラム機能を構成することを学習する。
論文参考訳（メタデータ） (2020-07-21T04:03:22Z)
Hierarchical Opacity Propagation for Image Matting [15.265494938937737]
ピクセル間のより直接的アルファマット伝播のための新しい構造が要求されている。 HOPマッティングは最先端のマッティング法より優れている。
論文参考訳（メタデータ） (2020-04-07T10:39:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。