論文の概要: LayeringDiff: Layered Image Synthesis via Generation, then Disassembly with Generative Knowledge
- arxiv url: http://arxiv.org/abs/2501.01197v1
- Date: Thu, 02 Jan 2025 11:18:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:13:41.644993
- Title: LayeringDiff: Layered Image Synthesis via Generation, then Disassembly with Generative Knowledge
- Title(参考訳): LayeringDiff: 生成を介して階層化された画像合成を行い、生成知識で分解する
- Authors: Kyoungkook Kang, Gyujin Sim, Geonung Kim, Donguk Kim, Seungho Nam, Sunghyun Cho,
- Abstract要約: LayeringDiffは、階層化されたイメージを合成するための新しいパイプラインである。
合成イメージからレイヤを抽出することで、スクラッチから生成するのではなく、大規模なトレーニングの必要性を回避できる。
実効的な層分解のために,前景層と背景層を推定する前に,大規模事前学習型生成法を適用する。
- 参考スコア(独自算出の注目度): 14.481577976493236
- License:
- Abstract: Layers have become indispensable tools for professional artists, allowing them to build a hierarchical structure that enables independent control over individual visual elements. In this paper, we propose LayeringDiff, a novel pipeline for the synthesis of layered images, which begins by generating a composite image using an off-the-shelf image generative model, followed by disassembling the image into its constituent foreground and background layers. By extracting layers from a composite image, rather than generating them from scratch, LayeringDiff bypasses the need for large-scale training to develop generative capabilities for individual layers. Furthermore, by utilizing a pretrained off-the-shelf generative model, our method can produce diverse contents and object scales in synthesized layers. For effective layer decomposition, we adapt a large-scale pretrained generative prior to estimate foreground and background layers. We also propose high-frequency alignment modules to refine the fine-details of the estimated layers. Our comprehensive experiments demonstrate that our approach effectively synthesizes layered images and supports various practical applications.
- Abstract(参考訳): レイヤーはプロのアーティストにとって欠かせないツールとなり、個々の視覚要素を独立的に制御できる階層構造を構築することができるようになった。
本稿では,階層画像合成のための新しいパイプラインであるLayeringDiffを提案する。このパイプラインは,まず,既設画像生成モデルを用いて合成画像を生成し,次いでその構成層と背景層に分解する。
合成画像からレイヤを抽出することで、レイヤをスクラッチから生成する代わりに、LayeringDiffは個々のレイヤの生成機能を開発するための大規模なトレーニングの必要性を回避している。
さらに, 既訓練オフザシェルフ生成モデルを利用することで, 合成層における多様な内容やオブジェクトスケールを生成できる。
実効的な層分解のために,前景層と背景層を推定する前に,大規模事前学習型生成法を適用する。
また,推定層の詳細を改良するための高周波数アライメントモジュールを提案する。
包括的実験により,階層化画像を効果的に合成し,様々な実用的応用を支援することが実証された。
関連論文リスト
- LayerDiff: Exploring Text-guided Multi-layered Composable Image Synthesis via Layer-Collaborative Diffusion Model [70.14953942532621]
層共同拡散モデルであるLayerDiffは、テキスト誘導、多層化、構成可能な画像合成のために設計されている。
本モデルでは,従来の全画像生成手法に匹敵する性能で,高品質な多層画像を生成することができる。
LayerDiffは、レイヤ固有の画像編集やスタイル転送など、幅広いコントロール可能な生成アプリケーションを可能にする。
論文 参考訳(メタデータ) (2024-03-18T16:28:28Z) - Neural Spline Fields for Burst Image Fusion and Layer Separation [40.9442467471977]
ニューラルスプライン場を用いた2層α合成画像とフローモデルを用いた多目的中間表現を提案する。
提案手法では, バースト画像を高分解能な再構成に融合し, 透過層と閉塞層に分解することができる。
後処理のステップや事前学習がないため、当社の一般化可能なモデルは、既存の専用イメージやマルチビューの障害物除去アプローチよりも優れています。
論文 参考訳(メタデータ) (2023-12-21T18:54:19Z) - ControlCom: Controllable Image Composition using Diffusion Model [45.48263800282992]
1つの拡散モデルにおいて4つのタスクを統一する制御可能な画像合成法を提案する。
また,拡散モデルにおける前景の詳細を強化するために,局所的な拡張モジュールを提案する。
提案手法は,公開ベンチマークと実世界のデータの両方を用いて評価する。
論文 参考訳(メタデータ) (2023-08-19T14:56:44Z) - Text2Layer: Layered Image Generation using Latent Diffusion Model [12.902259486204898]
階層化画像生成の観点から階層化画像を生成することを提案する。
階層画像生成を実現するために,階層画像の再構成が可能なオートエンコーダを訓練する。
実験結果から,提案手法は高品質な階層画像を生成することができることがわかった。
論文 参考訳(メタデータ) (2023-07-19T06:56:07Z) - Composer: Creative and Controllable Image Synthesis with Composable
Conditions [57.78533372393828]
ビッグデータで学んだ最近の大規模な生成モデルは、驚くべき画像を合成できるが、制御性は限られている。
この研究は、合成品質とモデルの創造性を維持しつつ、空間配置やパレットのような出力画像の柔軟な制御を可能にする新しい世代パラダイムを提供する。
論文 参考訳(メタデータ) (2023-02-20T05:48:41Z) - SLIDE: Single Image 3D Photography with Soft Layering and Depth-aware
Inpainting [54.419266357283966]
シングルイメージの3D写真は、視聴者が新しい視点から静止画を見ることを可能にする。
最近のアプローチでは、単分子深度ネットワークと塗装ネットワークを組み合わせることで、説得力のある結果が得られる。
単一画像3D撮影のためのモジュール・統一システムであるSLIDEについて述べる。
論文 参考訳(メタデータ) (2021-09-02T16:37:20Z) - Deep Image Compositing [93.75358242750752]
ユーザ入力なしで高品質の画像合成を自動生成する手法を提案する。
ラプラシアン・ピラミッド・ブレンディングにインスパイアされ、フォアグラウンドや背景画像からの情報を効果的に融合させるために、密結合型多ストリーム融合ネットワークが提案されている。
実験により,提案手法は高品質な合成物を自動生成し,定性的かつ定量的に既存手法より優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2020-11-04T06:12:24Z) - Generative Hierarchical Features from Synthesizing Images [65.66756821069124]
画像合成の学習は、広範囲のアプリケーションにまたがって一般化可能な顕著な階層的な視覚的特徴をもたらす可能性があることを示す。
生成的階層的特徴(Generative Hierarchical Feature, GH-Feat)と呼ばれるエンコーダが生成する視覚的特徴は、生成的タスクと識別的タスクの両方に強い伝達性を有する。
論文 参考訳(メタデータ) (2020-07-20T18:04:14Z) - MulayCap: Multi-layer Human Performance Capture Using A Monocular Video
Camera [68.51530260071914]
単眼ビデオカメラを用いた新しい人体パフォーマンスキャプチャ手法である MulayCap について,事前スキャンを必要とせずに紹介する。
この手法は、幾何再構成とテクスチャレンダリングに「多層」表現を用いる。
MulayCapは、布の編集、再ターゲット、リライト、ARアプリケーションなど、さまざまな重要な編集アプリケーションに適用できる。
論文 参考訳(メタデータ) (2020-04-13T08:13:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。