論文の概要: Towards Enhanced Controllability of Diffusion Models
- arxiv url: http://arxiv.org/abs/2302.14368v1
- Date: Tue, 28 Feb 2023 07:43:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-01 17:37:47.983922
- Title: Towards Enhanced Controllability of Diffusion Models
- Title(参考訳): 拡散モデルの制御性向上に向けて
- Authors: Wonwoong Cho, Hareesh Ravi, Midhun Harikumar, Vinh Khuc, Krishna Kumar
Singh, Jingwan Lu, David I. Inouye, Ajinkya Kale
- Abstract要約: 我々は,2つの潜伏符号に条件付き拡散モデル,空間的内容マスクと平らなスタイルの埋め込みを訓練する。
既存の手法と比較して制御性が向上し, 画像操作, 参照ベース画像翻訳, スタイル転送に拡散モデルが有効であることを示す。
- 参考スコア(独自算出の注目度): 22.84630454597448
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Denoising Diffusion models have shown remarkable capabilities in generating
realistic, high-quality and diverse images. However, the extent of
controllability and editability with diffusion models is underexplored relative
to GANs. Inspired by techniques based on the latent space of GAN models for
image manipulation, we propose to train a diffusion model conditioned on two
latent codes, a spatial content mask and a flattened style embedding. We rely
on the inductive bias of the progressive denoising process of diffusion models
to encode pose/layout information in the spatial structure mask and
semantic/style information in the style code. We extend the sampling technique
from composable diffusion models to allow for some dependence between
conditional inputs. This improves the quality of the generations significantly
while also providing control over the amount of guidance from each latent code
separately as well as from their joint distribution. To further enhance
controllability, we vary the level of guidance for structure and style latents
based on the denoising timestep. We observe more controllability compared to
existing methods and show that without explicit training objectives, diffusion
models can be leveraged for effective image manipulation, reference based image
translation and style transfer.
- Abstract(参考訳): 雑音拡散モデルでは、リアルで高品質で多様な画像を生成することができる。
しかし、拡散モデルによる制御可能性と編集性の範囲はgansと比較して過小評価されている。
画像操作のためのganモデルの潜在空間に基づく手法に着想を得て,空間的コンテンツマスクとフラットなスタイル埋め込みという2つの潜在コードに基づく拡散モデルを訓練する。
拡散モデルの進行分節化過程の帰納的バイアスに基づき,空間構造マスクのポーズ・レイアウト情報とスタイルコードにおける意味・スタイル情報を符号化する。
条件付き入力間の依存性を許容するために,合成可能な拡散モデルからサンプリング手法を拡張する。
これにより、世代の品質が大幅に向上すると同時に、各潜在コードからのガイダンスの量と、それらの共同配布のコントロールも可能となる。
制御性をさらに高めるために,分別時間ステップに基づいて,構造やスタイル潜伏者の指導レベルを異にする。
従来の手法と比較して制御性が向上し,明示的なトレーニング目標がなければ,拡散モデルが効果的な画像操作,参照ベース画像翻訳,スタイル転送に活用できることを示す。
関連論文リスト
- SODA: Bottleneck Diffusion Models for Representation Learning [75.7331354734152]
本稿では,表現学習のための自己教師付き拡散モデルSODAを紹介する。
このモデルには、ソースビューをコンパクトな表現に蒸留するイメージエンコーダが組み込まれており、関連する新規ビューの生成を導く。
エンコーダと復調復調復調復調復調復調復調復調復号器の密集ボトルネックを付与することにより,拡散モデルを強力な表現学習器に変換することができることを示す。
論文 参考訳(メタデータ) (2023-11-29T18:53:34Z) - Latent Diffusion Counterfactual Explanations [28.574246724214962]
潜在拡散対実説明(LDCE)について紹介する。
LDCEは、最近のクラスまたはテキスト条件の潜在拡散モデルの能力を利用して、対実生成を高速化する。
LDCEがモデルエラーに対する洞察を提供し、ブラックボックスモデル行動の理解を深める方法を示す。
論文 参考訳(メタデータ) (2023-10-10T14:42:34Z) - InfoDiffusion: Representation Learning Using Information Maximizing
Diffusion Models [35.566528358691336]
InfoDiffusionは低次元潜伏変数を持つ拡散モデルを拡張するアルゴリズムである。
情報拡散は、観測された変数と隠れた変数の相互情報に規則化された学習目標に依存する。
インフォディフュージョンは、最先端の生成的およびコントラスト的手法と競合する非絡み合いおよび人間解釈可能な潜在表現を学習する。
論文 参考訳(メタデータ) (2023-06-14T21:48:38Z) - Diffusion in Diffusion: Cyclic One-Way Diffusion for
Text-Vision-Conditioned Generation [12.666899346355622]
本研究では,拡散(機械学習)特性の拡散(物理学)について検討する。
拡散現象の方向を制御するために,循環一流拡散法(COW)を提案する。
提案するCOWは,厳密な視覚条件に基づいて,より柔軟なカスタマイズを実現することができることを示す。
論文 参考訳(メタデータ) (2023-06-14T05:25:06Z) - Improving Diffusion-based Image Translation using Asymmetric Gradient
Guidance [51.188396199083336]
非対称勾配法の適用により拡散サンプリングの逆過程を導出する手法を提案する。
我々のモデルの適応性は、画像融合モデルと潜時拡散モデルの両方で実装できる。
実験により,本手法は画像翻訳タスクにおいて,様々な最先端モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-06-07T12:56:56Z) - Training Diffusion Models with Reinforcement Learning [82.29328477109826]
拡散モデルは、ログのような目的に近似して訓練される。
本稿では,下流目的のための拡散モデルを直接最適化するための強化学習手法について検討する。
本稿では,多段階決定問題としてデノベーションを行うことによって,ポリシー勾配アルゴリズムのクラスを実現する方法について述べる。
論文 参考訳(メタデータ) (2023-05-22T17:57:41Z) - ShiftDDPMs: Exploring Conditional Diffusion Models by Shifting Diffusion
Trajectories [144.03939123870416]
本稿では,前処理に条件を導入することで,新しい条件拡散モデルを提案する。
いくつかのシフト規則に基づいて各条件に対して排他的拡散軌跡を割り当てるために、余剰潜在空間を用いる。
我々は textbfShiftDDPMs と呼ぶメソッドを定式化し、既存のメソッドの統一的な視点を提供する。
論文 参考訳(メタデータ) (2023-02-05T12:48:21Z) - SinDiffusion: Learning a Diffusion Model from a Single Natural Image [159.4285444680301]
SinDiffusionは1つの自然な画像からパッチの内部分布を捉えるためにデノナイズ拡散モデルを利用する。
SinDiffusionは、2つのコア設計に基づいている。まず、SinDiffusionは、段階的にスケールが成長する複数のモデルではなく、1つのスケールで1つのモデルで訓練されている。
第2に,拡散ネットワークのパッチレベルの受容領域は,画像のパッチ統計を捉える上で重要かつ効果的であることを示す。
論文 参考訳(メタデータ) (2022-11-22T18:00:03Z) - Unifying Diffusion Models' Latent Space, with Applications to
CycleDiffusion and Guidance [95.12230117950232]
関係領域で独立に訓練された2つの拡散モデルから共通潜時空間が現れることを示す。
テキスト・画像拡散モデルにCycleDiffusionを適用することで、大規模なテキスト・画像拡散モデルがゼロショット画像・画像拡散エディタとして使用できることを示す。
論文 参考訳(メタデータ) (2022-10-11T15:53:52Z) - On Conditioning the Input Noise for Controlled Image Generation with
Diffusion Models [27.472482893004862]
条件付き画像生成は、画像編集、ストック写真の生成、および3Dオブジェクト生成におけるいくつかのブレークスルーの道を開いた。
本研究では,入出力ノイズアーチファクトを慎重に構築した条件拡散モデルを提案する。
論文 参考訳(メタデータ) (2022-05-08T13:18:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。