論文の概要: Unsupervised Discovery of Interpretable Directions in h-space of
Pre-trained Diffusion Models
- arxiv url: http://arxiv.org/abs/2310.09912v3
- Date: Thu, 30 Nov 2023 11:03:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 13:05:13.286995
- Title: Unsupervised Discovery of Interpretable Directions in h-space of
Pre-trained Diffusion Models
- Title(参考訳): 事前学習拡散モデルのh空間における解釈方向の教師なし発見
- Authors: Zijian Zhang, Luping Liu, Zhijie Lin, Yichen Zhu, Zhou Zhao
- Abstract要約: 本稿では,事前学習した拡散モデルのh空間における解釈可能な方向を特定するための,教師なしおよび学習に基づく最初の手法を提案する。
我々は、事前訓練された拡散モデルのh-スペースで動作するシフト制御モジュールを用いて、サンプルをシフトしたバージョンに操作する。
それらを共同で最適化することで、モデルは自然に絡み合った、解釈可能な方向を発見する。
- 参考スコア(独自算出の注目度): 63.1637853118899
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose the first unsupervised and learning-based method to identify
interpretable directions in h-space of pre-trained diffusion models. Our method
is derived from an existing technique that operates on the GAN latent space.
Specifically, we employ a shift control module that works on h-space of
pre-trained diffusion models to manipulate a sample into a shifted version of
itself, followed by a reconstructor to reproduce both the type and the strength
of the manipulation. By jointly optimizing them, the model will spontaneously
discover disentangled and interpretable directions. To prevent the discovery of
meaningless and destructive directions, we employ a discriminator to maintain
the fidelity of shifted sample. Due to the iterative generative process of
diffusion models, our training requires a substantial amount of GPU VRAM to
store numerous intermediate tensors for back-propagating gradient. To address
this issue, we propose a general VRAM-efficient training algorithm based on
gradient checkpointing technique to back-propagate any gradient through the
whole generative process, with acceptable occupancy of VRAM and sacrifice of
training efficiency. Compared with existing related works on diffusion models,
our method inherently identifies global and scalable directions, without
necessitating any other complicated procedures. Extensive experiments on
various datasets demonstrate the effectiveness of our method.
- Abstract(参考訳): 本稿では,事前学習された拡散モデルのh空間における解釈可能な方向を識別する,教師なし学習に基づく最初の手法を提案する。
提案手法は,GAN潜在空間で動作する既存の手法から導かれる。
具体的には、事前学習した拡散モデルのh-スペースで動作するシフト制御モジュールを用いて、サンプルを自分自身のシフトバージョンに操作し、次いで再構成器を用いて操作のタイプと強度を再現する。
それらを共同で最適化することで、モデルは自然に絡み合った解釈可能な方向を発見する。
無意味かつ破壊的な方向の発見を防止するため、シフトサンプルの忠実性を維持するために識別器を用いる。
拡散モデルの反復的生成過程のため、バックプロパゲート勾配に多くの中間テンソルを格納するために、我々のトレーニングは相当量のGPU VRAMを必要とする。
この問題に対処するため, 勾配チェックポインティングに基づく一般的なVRAM効率トレーニングアルゴリズムを提案し, VRAMの占有を許容し, トレーニング効率を犠牲にしながら, 生成過程全体を通して勾配をバックプロパガントする。
拡散モデルに関する既存の研究と比較して,本手法は,他の複雑な手順を必要とせず,本質的にグローバルかつスケーラブルな方向を識別する。
各種データセットに対する大規模な実験により,本手法の有効性が示された。
関連論文リスト
- Diffusion State-Guided Projected Gradient for Inverse Problems [82.24625224110099]
逆問題に対する拡散状態ガイド型射影勾配(DiffStateGrad)を提案する。
DiffStateGrad は拡散過程の中間状態の低ランク近似である部分空間に測定勾配を投影する。
DiffStateGradは、測定手順のステップサイズとノイズの選択によって拡散モデルのロバスト性を向上させる。
論文 参考訳(メタデータ) (2024-10-04T14:26:54Z) - Learning Diffusion Priors from Observations by Expectation Maximization [6.224769485481242]
不完全および雑音のみから拡散モデルをトレーニングするための予測最大化アルゴリズムに基づく新しい手法を提案する。
提案手法は,非条件拡散モデルに対する改良された後続サンプリング方式の提案と動機付けである。
論文 参考訳(メタデータ) (2024-05-22T15:04:06Z) - Observation-Guided Diffusion Probabilistic Models [41.749374023639156]
観測誘導拡散確率モデル(OGDM)と呼ばれる新しい拡散に基づく画像生成法を提案する。
本手法は,観測プロセスの指導をマルコフ連鎖と統合することにより,トレーニング目標を再構築する。
本研究では,強力な拡散モデルベースライン上での多様な推論手法を用いたトレーニングアルゴリズムの有効性を示す。
論文 参考訳(メタデータ) (2023-10-06T06:29:06Z) - CamoDiffusion: Camouflaged Object Detection via Conditional Diffusion
Models [72.93652777646233]
カモフラーゲ型物体検出(COD)は、カモフラーゲ型物体とその周囲の類似性が高いため、コンピュータビジョンにおいて難しい課題である。
本研究では,CODを拡散モデルを利用した条件付きマスク生成タスクとして扱う新しいパラダイムを提案する。
カモ拡散(CamoDiffusion)と呼ばれる本手法では,拡散モデルのデノナイズプロセスを用いてマスクの雑音を反復的に低減する。
論文 参考訳(メタデータ) (2023-05-29T07:49:44Z) - Diff-Instruct: A Universal Approach for Transferring Knowledge From
Pre-trained Diffusion Models [77.83923746319498]
本稿では,任意の生成モデルの学習を指導するDiff-Instructというフレームワークを提案する。
Diff-Instructは、最先端の単一ステップ拡散モデルであることを示す。
GANモデルの精製実験により、Diff-InstructはGANモデルの事前訓練されたジェネレータを一貫して改善できることが示されている。
論文 参考訳(メタデータ) (2023-05-29T04:22:57Z) - Towards Controllable Diffusion Models via Reward-Guided Exploration [15.857464051475294]
強化学習(RL)による拡散モデルの学習段階を導く新しい枠組みを提案する。
RLは、政策そのものではなく、指数スケールの報酬に比例したペイオフ分布からのサンプルによる政策勾配を計算することができる。
3次元形状と分子生成タスクの実験は、既存の条件拡散モデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-04-14T13:51:26Z) - Reflected Diffusion Models [93.26107023470979]
本稿では,データのサポートに基づいて進化する反射微分方程式を逆転する反射拡散モデルを提案する。
提案手法は,一般化されたスコアマッチング損失を用いてスコア関数を学習し,標準拡散モデルの主要成分を拡張する。
論文 参考訳(メタデータ) (2023-04-10T17:54:38Z) - Decomposed Diffusion Sampler for Accelerating Large-Scale Inverse
Problems [64.29491112653905]
本稿では, 拡散サンプリング法とクリロフ部分空間法を相乗的に組み合わせた, 新規で効率的な拡散サンプリング手法を提案する。
具体的には、ツイーディの公式による分母化標本における接空間がクリロフ部分空間を成すならば、その分母化データによるCGは、接空間におけるデータの整合性更新を確実に維持する。
提案手法は,従来の最先端手法よりも80倍以上高速な推論時間を実現する。
論文 参考訳(メタデータ) (2023-03-10T07:42:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。