論文の概要: Unsupervised Discovery of Semantic Latent Directions in Diffusion Models
- arxiv url: http://arxiv.org/abs/2302.12469v1
- Date: Fri, 24 Feb 2023 05:54:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-27 14:22:56.962565
- Title: Unsupervised Discovery of Semantic Latent Directions in Diffusion Models
- Title(参考訳): 拡散モデルにおける意味的潜在方向の教師なし発見
- Authors: Yong-Hyun Park, Mingi Kwon, Junghyo Jo, Youngjung Uh
- Abstract要約: 本論文では,mathcalX$ of DMsにおける潜伏変数 $mathbfx_t の解釈可能な編集方向を検出するための教師なし手法を提案する。
発見されたセマンティック潜伏方向は、主に不整合な属性変化をもたらし、異なるサンプル間でグローバルに一貫性がある。
- 参考スコア(独自算出の注目度): 6.107812768939554
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the success of diffusion models (DMs), we still lack a thorough
understanding of their latent space. While image editing with GANs builds upon
latent space, DMs rely on editing the conditions such as text prompts. We
present an unsupervised method to discover interpretable editing directions for
the latent variables $\mathbf{x}_t \in \mathcal{X}$ of DMs. Our method adopts
Riemannian geometry between $\mathcal{X}$ and the intermediate feature maps
$\mathcal{H}$ of the U-Nets to provide a deep understanding over the
geometrical structure of $\mathcal{X}$. The discovered semantic latent
directions mostly yield disentangled attribute changes, and they are globally
consistent across different samples. Furthermore, editing in earlier timesteps
edits coarse attributes, while ones in later timesteps focus on high-frequency
details. We define the curvedness of a line segment between samples to show
that $\mathcal{X}$ is a curved manifold. Experiments on different baselines and
datasets demonstrate the effectiveness of our method even on Stable Diffusion.
Our source code will be publicly available for the future researchers.
- Abstract(参考訳): 拡散モデル(DM)の成功にもかかわらず、我々はその潜在空間を十分に理解していない。
GANによる画像編集は遅延空間上に構築されるが、DMはテキストプロンプトなどの条件の編集に依存する。
DMの潜在変数 $\mathbf{x}_t \in \mathcal{X}$ の解釈可能な編集方向を検出するための教師なし手法を提案する。
本手法は、u-nets の $\mathcal{x}$ と中間特徴写像 $\mathcal{h}$ の間のリーマン幾何学を採用し、$\mathcal{x}$ の幾何学的構造を深く理解する。
検出された意味的潜在方向は、主に異種属性の変更をもたらし、異なるサンプル間でグローバルに一貫性がある。
さらに、初期のタイムステップでの編集は粗い属性を編集し、後のタイムステップでは高周波の詳細にフォーカスする。
標本間の直線セグメントの曲線性を定義し、$\mathcal{X}$ が曲線多様体であることを示す。
異なるベースラインとデータセットの実験は、安定拡散においても、我々の方法の有効性を示す。
私たちのソースコードは、将来の研究者向けに公開される予定だ。
関連論文リスト
- Provably learning a multi-head attention layer [55.2904547651831]
マルチヘッドアテンション層は、従来のフィードフォワードモデルとは分離したトランスフォーマーアーキテクチャの重要な構成要素の1つである。
本研究では,ランダムな例から多面的注意層を実証的に学習する研究を開始する。
最悪の場合、$m$に対する指数的依存は避けられないことを示す。
論文 参考訳(メタデータ) (2024-02-06T15:39:09Z) - Nearly $d$-Linear Convergence Bounds for Diffusion Models via Stochastic
Localization [40.808942894229325]
データ次元において線形である第1収束境界を提供する。
拡散モデルは任意の分布を近似するために少なくとも$tilde O(fracd log2(1/delta)varepsilon2)$ stepsを必要とすることを示す。
論文 参考訳(メタデータ) (2023-08-07T16:01:14Z) - Understanding the Latent Space of Diffusion Models through the Lens of
Riemannian Geometry [14.401252409755084]
幾何的視点から、mathcalX$ の潜在空間 $mathbfx_t を解析する。
我々のアプローチでは、プルバック計量を利用して$mathcalX$内の局所潜伏基底を導出する。
注目すべきは、我々の発見した局所潜伏基底は、画像編集機能を実現することである。
論文 参考訳(メタデータ) (2023-07-24T15:06:42Z) - Effective Minkowski Dimension of Deep Nonparametric Regression: Function
Approximation and Statistical Theories [70.90012822736988]
ディープ非パラメトリック回帰に関する既存の理論は、入力データが低次元多様体上にある場合、ディープニューラルネットワークは本質的なデータ構造に適応できることを示した。
本稿では,$mathcalS$で表される$mathbbRd$のサブセットに入力データが集中するという緩和された仮定を導入する。
論文 参考訳(メタデータ) (2023-06-26T17:13:31Z) - Discovering Interpretable Directions in the Semantic Latent Space of
Diffusion Models [33.29870829048959]
DDM(Denoising Diffusion Models)は、GAN(Generative Adversarial Networks)の強力な競合相手として登場した。
本稿では,h-spaceの特性について検討し,その中に意味のある意味的方向を求めるための新しい手法を提案する。
私たちのアプローチは、アーキテクチャの変更、テキストベースのガイダンス、CLIPベースの最適化、モデル微調整を必要とせずに適用できます。
論文 参考訳(メタデータ) (2023-03-20T12:59:32Z) - Neural Implicit Manifold Learning for Topology-Aware Density Estimation [15.878635603835063]
現在の生成モデルは、ニューラルネットワークを介して$m$次元の潜在変数をマッピングすることで、$mathcalM$を学ぶ。
我々のモデルは、プッシュフォワードモデルよりも複雑なトポロジーを持つ多様体支持分布を正確に学習できることが示される。
論文 参考訳(メタデータ) (2022-06-22T18:00:00Z) - SPAGHETTI: Editing Implicit Shapes Through Part Aware Generation [85.09014441196692]
本稿では, $mathbfE$diting $mathbfI$mplicit $mathbfS$hapes $mathbfT$hroughを紹介する。
我々のアーキテクチャは、形状セグメントを変換し、補間し、組み合わせることで、暗黙の形状の操作を可能にする。
論文 参考訳(メタデータ) (2022-01-31T12:31:41Z) - Differentially Private Exploration in Reinforcement Learning with Linear
Representation [102.17246636801649]
まず,線形混合MDP(Ayob et al., 2020)の設定(モデルベース設定)について検討し,共同・局所微分プライベート(DP)探索を統一的に分析するための枠組みを提供する。
我々はさらに、線形MDP(Jin et al., 2020)におけるプライバシー保護探索(つまりモデルフリー設定)について研究し、$widetildeO(sqrtK/epsilon)$ regret bound for $(epsilon,delta)を提供する。
論文 参考訳(メタデータ) (2021-12-02T19:59:50Z) - Manifold Topology Divergence: a Framework for Comparing Data Manifolds [109.0784952256104]
本研究では,深部生成モデルの評価を目的としたデータ多様体の比較フレームワークを開発する。
クロスバーコードに基づき,manifold Topology Divergence score(MTop-Divergence)を導入する。
MTop-Divergenceは,様々なモードドロップ,モード内崩壊,モード発明,画像乱れを正確に検出する。
論文 参考訳(メタデータ) (2021-06-08T00:30:43Z) - Mask-Guided Discovery of Semantic Manifolds in Generative Models [0.0]
StyleGAN2は、低次元の潜在空間内のランダムベクトルから人間の顔の画像を生成する。
モデルはブラックボックスとして動作し、出力の制御も、データから学んだ構造についての洞察も提供しない。
顔の空間的局所化領域の変化の多様体を探索する手法を提案する。
論文 参考訳(メタデータ) (2021-05-15T18:06:38Z) - Neural Bayes: A Generic Parameterization Method for Unsupervised
Representation Learning [175.34232468746245]
本稿ではニューラルベイズと呼ばれるパラメータ化手法を提案する。
これは一般に計算が難しい統計量の計算を可能にする。
このパラメータ化のための2つの独立したユースケースを示す。
論文 参考訳(メタデータ) (2020-02-20T22:28:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。