論文の概要: Transparent Image Layer Diffusion using Latent Transparency
- arxiv url: http://arxiv.org/abs/2402.17113v4
- Date: Sun, 23 Jun 2024 03:47:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 01:51:30.665960
- Title: Transparent Image Layer Diffusion using Latent Transparency
- Title(参考訳): Latent Transparency を用いた透過層拡散
- Authors: Lvmin Zhang, Maneesh Agrawala,
- Abstract要約: 本稿では,大規模な事前学習型潜伏拡散モデルを用いて透過的な画像を生成する手法であるLayerDiffuseを提案する。
この手法は,アルファチャネル透過性を事前学習した潜伏拡散モデルの潜伏多様体に符号化する「潜伏透過性」を学習する。
これは、付加された透明性を潜在オフセットとして調節することにより、大きな拡散モデルの生産可能な品質を保っている。
- 参考スコア(独自算出の注目度): 30.77316047044662
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present LayerDiffuse, an approach enabling large-scale pretrained latent diffusion models to generate transparent images. The method allows generation of single transparent images or of multiple transparent layers. The method learns a "latent transparency" that encodes alpha channel transparency into the latent manifold of a pretrained latent diffusion model. It preserves the production-ready quality of the large diffusion model by regulating the added transparency as a latent offset with minimal changes to the original latent distribution of the pretrained model. In this way, any latent diffusion model can be converted into a transparent image generator by finetuning it with the adjusted latent space. We train the model with 1M transparent image layer pairs collected using a human-in-the-loop collection scheme. We show that latent transparency can be applied to different open source image generators, or be adapted to various conditional control systems to achieve applications like foreground/background-conditioned layer generation, joint layer generation, structural control of layer contents, etc. A user study finds that in most cases (97%) users prefer our natively generated transparent content over previous ad-hoc solutions such as generating and then matting. Users also report the quality of our generated transparent images is comparable to real commercial transparent assets like Adobe Stock.
- Abstract(参考訳): 本稿では,大規模な事前学習型潜伏拡散モデルを用いて透過的な画像を生成する手法であるLayerDiffuseを提案する。
この方法は、単一の透明な画像や複数の透明な層を生成することができる。
この手法は,アルファチャネル透過性を事前学習した潜伏拡散モデルの潜伏多様体に符号化する「潜伏透過性」を学習する。
事前訓練されたモデルの本来の潜伏分布に最小限の変更を加えて、付加された透明性を潜伏オフセットとして調節することにより、大規模な拡散モデルの生産可能な品質を保っている。
このようにして、調整された潜伏空間で微調整することで、任意の潜伏拡散モデルを透明な画像生成器に変換することができる。
1Mの透明な画像層ペアでトレーニングを行う。
本研究では,様々なオープンソース画像生成装置に潜時透過性を適用したり,各種条件制御システムに適応して,前景/バックグラウンド条件付き層生成,接合層生成,層内容の構造制御などの応用を実現できることを示す。
ユーザ調査によると、ほとんどのケース(97%)のユーザは、生成やマッチングといった従来のアドホックなソリューションよりも、ネイティブに生成された透明なコンテンツを好む。
ユーザが生成した透明な画像の品質は、Adobe Stockのような本物の商用透明な資産に匹敵する。
関連論文リスト
- Stable Flow: Vital Layers for Training-Free Image Editing [74.52248787189302]
拡散モデルはコンテンツ合成と編集の分野に革命をもたらした。
最近のモデルでは、従来のUNetアーキテクチャをDiffusion Transformer (DiT)に置き換えている。
画像形成に欠かせないDiT内の「硝子層」を自動同定する手法を提案する。
次に、実画像編集を可能にするために、フローモデルのための改良された画像反転手法を提案する。
論文 参考訳(メタデータ) (2024-11-21T18:59:51Z) - Merging and Splitting Diffusion Paths for Semantically Coherent Panoramas [33.334956022229846]
本稿では,Merge-Attend-Diffuse演算子を提案する。
具体的には、拡散経路をマージし、自己および横断的意図をプログラムし、集約された潜在空間で操作する。
提案手法は,生成した画像の入力プロンプトと視覚的品質との整合性を維持しつつ,セマンティック・コヒーレンスを増大させる。
論文 参考訳(メタデータ) (2024-08-28T09:22:32Z) - Zippo: Zipping Color and Transparency Distributions into a Single Diffusion Model [56.84435912555532]
色と透明性の分布を単一の拡散モデルに分解する統合フレームワークZippoを提案する。
ZippoはアルファマットからRGBイメージを生成し、入力イメージから透過性を予測できる。
実験では,Zippoのテキスト条件の透過的な画像生成能力について紹介した。
論文 参考訳(メタデータ) (2024-03-17T04:02:39Z) - ControlMat: A Controlled Generative Approach to Material Capture [7.641962898125423]
写真からの材料再構成は、3Dコンテンツ生成の民主化の鍵となる要素である。
制御不能な照明を入力とする1枚の写真に拡散モデルを適用し, 可塑性, タイル状, 高解像度の物理ベースデジタル材料を生成する。
論文 参考訳(メタデータ) (2023-09-04T16:18:49Z) - DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing [94.24479528298252]
DragGANは、ピクセルレベルの精度で印象的な編集結果を実現する、インタラクティブなポイントベースの画像編集フレームワークである。
大規模な事前学習拡散モデルを利用することで、実画像と拡散画像の両方における対話的点ベース編集の適用性を大幅に向上する。
本稿では,対話的点ベース画像編集手法の性能を評価するため,DragBenchというベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2023-06-26T06:04:09Z) - Real-World Image Variation by Aligning Diffusion Inversion Chain [53.772004619296794]
生成した画像と実世界の画像の間にはドメインギャップがあり、これは実世界の画像の高品質なバリエーションを生成する上での課題である。
実世界画像のアライメントによる変化(RIVAL)と呼ばれる新しい推論パイプラインを提案する。
我々のパイプラインは、画像生成プロセスとソース画像の反転チェーンを整列させることにより、画像の変動の生成品質を向上させる。
論文 参考訳(メタデータ) (2023-05-30T04:09:47Z) - Controlled and Conditional Text to Image Generation with Diffusion Prior [1.8690858882873838]
DALLE-2の2ステッププロセスは、テキストからCLIPイメージの埋め込みを生成するDiffusion Priorと、CLIPイメージの埋め込みから画像を生成するDiffusion Decoderで構成される。
提案手法は,カラー条件付き生成のための領域固有生成と既存のベースラインの迅速なエンジニアリングよりも,定量的かつ質的に優れていることを示す。
論文 参考訳(メタデータ) (2023-02-23T00:10:40Z) - MultiDiffusion: Fusing Diffusion Paths for Controlled Image Generation [34.61940502872307]
MultiDiffusionは、汎用的で制御可能な画像生成を可能にする統一されたフレームワークである。
高品質で多様な画像を生成するために,MultiDiffusionが容易に適用可能であることを示す。
論文 参考訳(メタデータ) (2023-02-16T06:28:29Z) - Uncovering the Disentanglement Capability in Text-to-Image Diffusion
Models [60.63556257324894]
画像生成モデルの重要な特性は、異なる属性をアンタングルする能力である。
本稿では,2つのテキスト埋め込みの混合重みをスタイルマッチングとコンテンツ保存に最適化した,シンプルで軽量な画像編集アルゴリズムを提案する。
実験により,提案手法は拡散モデルに基づく画像編集アルゴリズムよりも優れた性能で,幅広い属性を修正可能であることが示された。
論文 参考訳(メタデータ) (2022-12-16T19:58:52Z) - SinDiffusion: Learning a Diffusion Model from a Single Natural Image [159.4285444680301]
SinDiffusionは1つの自然な画像からパッチの内部分布を捉えるためにデノナイズ拡散モデルを利用する。
SinDiffusionは、2つのコア設計に基づいている。まず、SinDiffusionは、段階的にスケールが成長する複数のモデルではなく、1つのスケールで1つのモデルで訓練されている。
第2に,拡散ネットワークのパッチレベルの受容領域は,画像のパッチ統計を捉える上で重要かつ効果的であることを示す。
論文 参考訳(メタデータ) (2022-11-22T18:00:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。