論文の概要: Understanding the Latent Space of Diffusion Models through the Lens of
Riemannian Geometry
- arxiv url: http://arxiv.org/abs/2307.12868v1
- Date: Mon, 24 Jul 2023 15:06:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-25 13:52:54.127538
- Title: Understanding the Latent Space of Diffusion Models through the Lens of
Riemannian Geometry
- Title(参考訳): リーマン幾何学のレンズによる拡散モデルの潜在空間の理解
- Authors: Yong-Hyun Park, Mingi Kwon, Jaewoong Choi, Junghyo Jo, Youngjung Uh
- Abstract要約: 幾何的視点から、mathcalX$ の潜在空間 $mathbfx_t を解析する。
検出された潜在基底は、教師なし画像編集機能を可能にする。
- 参考スコア(独自算出の注目度): 6.641004071558601
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the success of diffusion models (DMs), we still lack a thorough
understanding of their latent space. To understand the latent space
$\mathbf{x}_t \in \mathcal{X}$, we analyze them from a geometrical perspective.
Specifically, we utilize the pullback metric to find the local latent basis in
$\mathcal{X}$ and their corresponding local tangent basis in $\mathcal{H}$, the
intermediate feature maps of DMs. The discovered latent basis enables
unsupervised image editing capability through latent space traversal. We
investigate the discovered structure from two perspectives. First, we examine
how geometric structure evolves over diffusion timesteps. Through analysis, we
show that 1) the model focuses on low-frequency components early in the
generative process and attunes to high-frequency details later; 2) At early
timesteps, different samples share similar tangent spaces; and 3) The simpler
datasets that DMs trained on, the more consistent the tangent space for each
timestep. Second, we investigate how the geometric structure changes based on
text conditioning in Stable Diffusion. The results show that 1) similar prompts
yield comparable tangent spaces; and 2) the model depends less on text
conditions in later timesteps. To the best of our knowledge, this paper is the
first to present image editing through $\mathbf{x}$-space traversal and provide
thorough analyses of the latent structure of DMs.
- Abstract(参考訳): 拡散モデル(DM)の成功にもかかわらず、我々はその潜在空間を十分に理解していない。
潜在空間 $\mathbf{x}_t \in \mathcal{X}$ を理解するために、幾何学的観点から解析する。
具体的には、プルバック計量を用いて、$\mathcal{X}$とその対応する局所接点基底である$\mathcal{H}$、DMの中間特徴写像を求める。
検出された潜時ベースにより、潜時空間トラバーサルによる教師なし画像編集が可能となる。
得られた構造を2つの観点から検討する。
まず,拡散時間ステップで幾何学構造がどのように進化するかを検討する。
分析を通して
1) モデルは,生成過程の初期に低周波成分に着目し,その後,高周波詳細に順応する。
2)初期の段階では、異なるサンプルが類似した接地空間を共有し、
3) DMがトレーニングしたより単純なデータセットは、各タイムステップの接点空間をより一貫性のあるものにします。
第2に,安定拡散におけるテキスト条件に基づく幾何学構造の変化について検討する。
その結果は
1)類似のプロンプトは、同等の接空間を生じる。
2) モデルは後続の時間ステップにおいてテキスト条件に依存しない。
私たちの知る限りでは、この論文は$\mathbf{x}$-space トラバーサルによる画像編集を初めて提示し、dmsの潜在構造を徹底的に分析した。
関連論文リスト
- Monge-Ampere Regularization for Learning Arbitrary Shapes from Point Clouds [69.69726932986923]
任意の曲面型をモデル化するための新しい暗黙曲面表現であるスケールド2乗距離関数 (S$2$DF) を提案する。
S$2$DFは、ゼロレベルセットでのUDFの非微分可能性問題に効果的に対処しながら、内部領域と外部領域を区別しない。
S$2$DF はモンゲ・アンペア型の二次偏微分方程式を満たすことを示した。
論文 参考訳(メタデータ) (2024-10-24T06:56:34Z) - Provably learning a multi-head attention layer [55.2904547651831]
マルチヘッドアテンション層は、従来のフィードフォワードモデルとは分離したトランスフォーマーアーキテクチャの重要な構成要素の1つである。
本研究では,ランダムな例から多面的注意層を実証的に学習する研究を開始する。
最悪の場合、$m$に対する指数的依存は避けられないことを示す。
論文 参考訳(メタデータ) (2024-02-06T15:39:09Z) - Unsupervised Discovery of Semantic Latent Directions in Diffusion Models [6.107812768939554]
本論文では,mathcalX$ of DMsにおける潜伏変数 $mathbfx_t の解釈可能な編集方向を検出するための教師なし手法を提案する。
発見されたセマンティック潜伏方向は、主に不整合な属性変化をもたらし、異なるサンプル間でグローバルに一貫性がある。
論文 参考訳(メタデータ) (2023-02-24T05:54:34Z) - Understanding Deep Neural Function Approximation in Reinforcement
Learning via $\epsilon$-Greedy Exploration [53.90873926758026]
本稿では、強化学習(RL)における深部神経機能近似の理論的研究について述べる。
我々は、Besov(およびBarron)関数空間によって与えられるディープ(および2層)ニューラルネットワークによる$epsilon$-greedy探索により、バリューベースのアルゴリズムに焦点を当てる。
我々の解析は、ある平均測度$mu$の上の$L2(mathrmdmu)$-integrable空間における時間差誤差を再構成し、非イド設定の下で一般化問題に変換する。
論文 参考訳(メタデータ) (2022-09-15T15:42:47Z) - SPAGHETTI: Editing Implicit Shapes Through Part Aware Generation [85.09014441196692]
本稿では, $mathbfE$diting $mathbfI$mplicit $mathbfS$hapes $mathbfT$hroughを紹介する。
我々のアーキテクチャは、形状セグメントを変換し、補間し、組み合わせることで、暗黙の形状の操作を可能にする。
論文 参考訳(メタデータ) (2022-01-31T12:31:41Z) - Differentially Private Exploration in Reinforcement Learning with Linear
Representation [102.17246636801649]
まず,線形混合MDP(Ayob et al., 2020)の設定(モデルベース設定)について検討し,共同・局所微分プライベート(DP)探索を統一的に分析するための枠組みを提供する。
我々はさらに、線形MDP(Jin et al., 2020)におけるプライバシー保護探索(つまりモデルフリー設定)について研究し、$widetildeO(sqrtK/epsilon)$ regret bound for $(epsilon,delta)を提供する。
論文 参考訳(メタデータ) (2021-12-02T19:59:50Z) - Mask-Guided Discovery of Semantic Manifolds in Generative Models [0.0]
StyleGAN2は、低次元の潜在空間内のランダムベクトルから人間の顔の画像を生成する。
モデルはブラックボックスとして動作し、出力の制御も、データから学んだ構造についての洞察も提供しない。
顔の空間的局所化領域の変化の多様体を探索する手法を提案する。
論文 参考訳(メタデータ) (2021-05-15T18:06:38Z) - The Geometry of Time in Topological Quantum Gravity of the Ricci Flow [62.997667081978825]
我々は、リッチフロー方程式の族に付随する非相対論的量子重力の研究を継続する。
この位相重力はコホモロジー型であり、$cal N=2$拡張BRST対称性を示す。
我々は、場が$g_ij$, $ni$, $n$であり、(i)$g_ij$の位相的変形と(ii)超局所非相対論的空間の極限からなる理論の標準的な一段階BRSTゲージ固定を実証する。
論文 参考訳(メタデータ) (2020-11-12T06:57:10Z) - Predicting First Passage Percolation Shapes Using Neural Networks [0.0]
我々は、発見されたサイトの集合の形状を適切に予測できるニューラルネットワークを構築し、適合させる。
主な目的は、通過時間の分布から形状の印象を得るための新しいツールを研究者に与えることである。
論文 参考訳(メタデータ) (2020-06-24T19:10:21Z) - Zooming for Efficient Model-Free Reinforcement Learning in Metric Spaces [26.297887542066505]
本研究では,自然距離を持つと仮定される連続的な状態-作用空間を用いたエピソディック強化学習について考察する。
本稿では,連続的な帯域幅からアイデアを生かし,共同空間の適応的離散化を学習するオンラインアルゴリズムZoomRLを提案する。
ZoomRL が最悪の後悔点である $tildeO(Hfrac52 Kfracd+1d+2)$ ここでは$H$ が計画的地平線、$K$ がエピソード数、$d$ が空間の被覆次元であることを示す。
論文 参考訳(メタデータ) (2020-03-09T12:32:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。