論文の概要: Unsupervised Discovery of Semantic Latent Directions in Diffusion Models
- arxiv url: http://arxiv.org/abs/2302.12469v1
- Date: Fri, 24 Feb 2023 05:54:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-27 14:22:56.962565
- Title: Unsupervised Discovery of Semantic Latent Directions in Diffusion Models
- Title(参考訳): 拡散モデルにおける意味的潜在方向の教師なし発見
- Authors: Yong-Hyun Park, Mingi Kwon, Junghyo Jo, Youngjung Uh
- Abstract要約: 本論文では,mathcalX$ of DMsにおける潜伏変数 $mathbfx_t の解釈可能な編集方向を検出するための教師なし手法を提案する。
発見されたセマンティック潜伏方向は、主に不整合な属性変化をもたらし、異なるサンプル間でグローバルに一貫性がある。
- 参考スコア(独自算出の注目度): 6.107812768939554
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the success of diffusion models (DMs), we still lack a thorough
understanding of their latent space. While image editing with GANs builds upon
latent space, DMs rely on editing the conditions such as text prompts. We
present an unsupervised method to discover interpretable editing directions for
the latent variables $\mathbf{x}_t \in \mathcal{X}$ of DMs. Our method adopts
Riemannian geometry between $\mathcal{X}$ and the intermediate feature maps
$\mathcal{H}$ of the U-Nets to provide a deep understanding over the
geometrical structure of $\mathcal{X}$. The discovered semantic latent
directions mostly yield disentangled attribute changes, and they are globally
consistent across different samples. Furthermore, editing in earlier timesteps
edits coarse attributes, while ones in later timesteps focus on high-frequency
details. We define the curvedness of a line segment between samples to show
that $\mathcal{X}$ is a curved manifold. Experiments on different baselines and
datasets demonstrate the effectiveness of our method even on Stable Diffusion.
Our source code will be publicly available for the future researchers.
- Abstract(参考訳): 拡散モデル(DM)の成功にもかかわらず、我々はその潜在空間を十分に理解していない。
GANによる画像編集は遅延空間上に構築されるが、DMはテキストプロンプトなどの条件の編集に依存する。
DMの潜在変数 $\mathbf{x}_t \in \mathcal{X}$ の解釈可能な編集方向を検出するための教師なし手法を提案する。
本手法は、u-nets の $\mathcal{x}$ と中間特徴写像 $\mathcal{h}$ の間のリーマン幾何学を採用し、$\mathcal{x}$ の幾何学的構造を深く理解する。
検出された意味的潜在方向は、主に異種属性の変更をもたらし、異なるサンプル間でグローバルに一貫性がある。
さらに、初期のタイムステップでの編集は粗い属性を編集し、後のタイムステップでは高周波の詳細にフォーカスする。
標本間の直線セグメントの曲線性を定義し、$\mathcal{X}$ が曲線多様体であることを示す。
異なるベースラインとデータセットの実験は、安定拡散においても、我々の方法の有効性を示す。
私たちのソースコードは、将来の研究者向けに公開される予定だ。
関連論文リスト
- Self-Ensembling Gaussian Splatting for Few-Shot Novel View Synthesis [55.561961365113554]
3D Gaussian Splatting (3DGS) は新規ビュー合成(NVS)に顕著な効果を示した
しかし、3DGSモデルはスパースポーズビューで訓練すると過度に適合する傾向にあり、その一般化能力は新規ビューに制限される。
オーバーフィッティング問題を緩和するために,Self-Ensembling Gaussian Splatting (SE-GS) アプローチを提案する。
提案手法は,NVSの品質向上に寄与し,既存の最先端手法よりも優れる。
論文 参考訳(メタデータ) (2024-10-31T18:43:48Z) - Amortizing intractable inference in diffusion models for vision, language, and control [89.65631572949702]
本稿では,p(mathbfx)$以前の拡散生成モデルとブラックボックス制約,あるいは関数$r(mathbfx)$からなるモデルにおいて,データ上の後部サンプルである $mathbfxsim prm post(mathbfx)propto p(mathbfx)r(mathbfx)$について検討する。
我々は,データフリー学習目標である相対軌道バランスの正しさを,サンプルから抽出した拡散モデルの訓練のために証明する。
論文 参考訳(メタデータ) (2024-05-31T16:18:46Z) - Nearly $d$-Linear Convergence Bounds for Diffusion Models via Stochastic
Localization [40.808942894229325]
データ次元において線形である第1収束境界を提供する。
拡散モデルは任意の分布を近似するために少なくとも$tilde O(fracd log2(1/delta)varepsilon2)$ stepsを必要とすることを示す。
論文 参考訳(メタデータ) (2023-08-07T16:01:14Z) - Understanding the Latent Space of Diffusion Models through the Lens of
Riemannian Geometry [14.401252409755084]
幾何的視点から、mathcalX$ の潜在空間 $mathbfx_t を解析する。
我々のアプローチでは、プルバック計量を利用して$mathcalX$内の局所潜伏基底を導出する。
注目すべきは、我々の発見した局所潜伏基底は、画像編集機能を実現することである。
論文 参考訳(メタデータ) (2023-07-24T15:06:42Z) - Effective Minkowski Dimension of Deep Nonparametric Regression: Function
Approximation and Statistical Theories [70.90012822736988]
ディープ非パラメトリック回帰に関する既存の理論は、入力データが低次元多様体上にある場合、ディープニューラルネットワークは本質的なデータ構造に適応できることを示した。
本稿では,$mathcalS$で表される$mathbbRd$のサブセットに入力データが集中するという緩和された仮定を導入する。
論文 参考訳(メタデータ) (2023-06-26T17:13:31Z) - Discovering Interpretable Directions in the Semantic Latent Space of Diffusion Models [21.173910627285338]
DDM(Denoising Diffusion Models)は、GAN(Generative Adversarial Networks)の強力な競合相手として登場した。
本稿では,h-spaceの特性について検討し,その中に意味のある意味的方向を求めるための新しい手法を提案する。
私たちのアプローチは、アーキテクチャの変更、テキストベースのガイダンス、CLIPベースの最適化、モデル微調整を必要とせずに適用できます。
論文 参考訳(メタデータ) (2023-03-20T12:59:32Z) - Neural Implicit Manifold Learning for Topology-Aware Density Estimation [15.878635603835063]
現在の生成モデルは、ニューラルネットワークを介して$m$次元の潜在変数をマッピングすることで、$mathcalM$を学ぶ。
我々のモデルは、プッシュフォワードモデルよりも複雑なトポロジーを持つ多様体支持分布を正確に学習できることが示される。
論文 参考訳(メタデータ) (2022-06-22T18:00:00Z) - The Manifold Hypothesis for Gradient-Based Explanations [55.01671263121624]
勾配に基づく説明アルゴリズムは知覚的に整合した説明を提供する。
特徴属性がデータの接する空間と一致しているほど、知覚的に一致している傾向にあることを示す。
説明アルゴリズムは、その説明をデータ多様体と整合させるよう積極的に努力すべきである。
論文 参考訳(メタデータ) (2022-06-15T08:49:24Z) - SPAGHETTI: Editing Implicit Shapes Through Part Aware Generation [85.09014441196692]
本稿では, $mathbfE$diting $mathbfI$mplicit $mathbfS$hapes $mathbfT$hroughを紹介する。
我々のアーキテクチャは、形状セグメントを変換し、補間し、組み合わせることで、暗黙の形状の操作を可能にする。
論文 参考訳(メタデータ) (2022-01-31T12:31:41Z) - Differentially Private Exploration in Reinforcement Learning with Linear
Representation [102.17246636801649]
まず,線形混合MDP(Ayob et al., 2020)の設定(モデルベース設定)について検討し,共同・局所微分プライベート(DP)探索を統一的に分析するための枠組みを提供する。
我々はさらに、線形MDP(Jin et al., 2020)におけるプライバシー保護探索(つまりモデルフリー設定)について研究し、$widetildeO(sqrtK/epsilon)$ regret bound for $(epsilon,delta)を提供する。
論文 参考訳(メタデータ) (2021-12-02T19:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。