論文の概要: Understanding the Latent Space of Diffusion Models through the Lens of
Riemannian Geometry
- arxiv url: http://arxiv.org/abs/2307.12868v2
- Date: Fri, 27 Oct 2023 02:34:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-30 17:16:42.821455
- Title: Understanding the Latent Space of Diffusion Models through the Lens of
Riemannian Geometry
- Title(参考訳): リーマン幾何学のレンズによる拡散モデルの潜在空間の理解
- Authors: Yong-Hyun Park, Mingi Kwon, Jaewoong Choi, Junghyo Jo, Youngjung Uh
- Abstract要約: 幾何的視点から、mathcalX$ の潜在空間 $mathbfx_t を解析する。
我々のアプローチでは、プルバック計量を利用して$mathcalX$内の局所潜伏基底を導出する。
注目すべきは、我々の発見した局所潜伏基底は、画像編集機能を実現することである。
- 参考スコア(独自算出の注目度): 14.401252409755084
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the success of diffusion models (DMs), we still lack a thorough
understanding of their latent space. To understand the latent space
$\mathbf{x}_t \in \mathcal{X}$, we analyze them from a geometrical perspective.
Our approach involves deriving the local latent basis within $\mathcal{X}$ by
leveraging the pullback metric associated with their encoding feature maps.
Remarkably, our discovered local latent basis enables image editing
capabilities by moving $\mathbf{x}_t$, the latent space of DMs, along the basis
vector at specific timesteps. We further analyze how the geometric structure of
DMs evolves over diffusion timesteps and differs across different text
conditions. This confirms the known phenomenon of coarse-to-fine generation, as
well as reveals novel insights such as the discrepancy between $\mathbf{x}_t$
across timesteps, the effect of dataset complexity, and the time-varying
influence of text prompts. To the best of our knowledge, this paper is the
first to present image editing through $\mathbf{x}$-space traversal, editing
only once at specific timestep $t$ without any additional training, and
providing thorough analyses of the latent structure of DMs. The code to
reproduce our experiments can be found at
https://github.com/enkeejunior1/Diffusion-Pullback.
- Abstract(参考訳): 拡散モデル(DM)の成功にもかかわらず、我々はその潜在空間を十分に理解していない。
潜在空間 $\mathbf{x}_t \in \mathcal{X}$ を理解するために、幾何学的観点から解析する。
我々のアプローチは、それらのエンコーディングフィーチャマップに関連付けられたプルバックメトリックを利用することで、$\mathcal{x}$内の局所的潜在基底を導出します。
注目すべきことに、発見されたローカル潜伏基底は、特定の時間ステップで基底ベクトルに沿ってDMの潜伏空間である$\mathbf{x}_t$を移動することで、画像編集機能を実現する。
さらに,DMの幾何学的構造が拡散時間経過とともにどのように進化し,異なるテキスト条件で異なるかを解析する。
これは、粗大な生成の既知の現象を確認し、タイムステップ間の$\mathbf{x}_t$の相違、データセットの複雑さの影響、テキストプロンプトの時間変化の影響など、新しい洞察を明らかにしている。
私たちの知る限りでは、この論文は$\mathbf{x}$-space トラバーサルによる画像編集を最初に提示し、追加のトレーニングなしで特定の時間ステップ $t$ でのみ編集し、dmsの潜在構造を徹底的に分析する。
実験を再現するコードは、https://github.com/enkeejunior1/Diffusion-Pullback.orgにある。
関連論文リスト
- Self-Ensembling Gaussian Splatting for Few-Shot Novel View Synthesis [55.561961365113554]
3D Gaussian Splatting (3DGS) は新規ビュー合成(NVS)に顕著な効果を示した
しかし、3DGSモデルはスパースポーズビューで訓練すると過度に適合する傾向にあり、その一般化能力は新規ビューに制限される。
オーバーフィッティング問題を緩和するために,Self-Ensembling Gaussian Splatting (SE-GS) アプローチを提案する。
提案手法は,NVSの品質向上に寄与し,既存の最先端手法よりも優れる。
論文 参考訳(メタデータ) (2024-10-31T18:43:48Z) - Monge-Ampere Regularization for Learning Arbitrary Shapes from Point Clouds [69.69726932986923]
任意の曲面型をモデル化するための新しい暗黙曲面表現であるスケールド2乗距離関数 (S$2$DF) を提案する。
S$2$DFは、ゼロレベルセットでのUDFの非微分可能性問題に効果的に対処しながら、内部領域と外部領域を区別しない。
S$2$DF はモンゲ・アンペア型の二次偏微分方程式を満たすことを示した。
論文 参考訳(メタデータ) (2024-10-24T06:56:34Z) - Provably learning a multi-head attention layer [55.2904547651831]
マルチヘッドアテンション層は、従来のフィードフォワードモデルとは分離したトランスフォーマーアーキテクチャの重要な構成要素の1つである。
本研究では,ランダムな例から多面的注意層を実証的に学習する研究を開始する。
最悪の場合、$m$に対する指数的依存は避けられないことを示す。
論文 参考訳(メタデータ) (2024-02-06T15:39:09Z) - Unsupervised Discovery of Semantic Latent Directions in Diffusion Models [6.107812768939554]
本論文では,mathcalX$ of DMsにおける潜伏変数 $mathbfx_t の解釈可能な編集方向を検出するための教師なし手法を提案する。
発見されたセマンティック潜伏方向は、主に不整合な属性変化をもたらし、異なるサンプル間でグローバルに一貫性がある。
論文 参考訳(メタデータ) (2023-02-24T05:54:34Z) - Understanding Deep Neural Function Approximation in Reinforcement
Learning via $\epsilon$-Greedy Exploration [53.90873926758026]
本稿では、強化学習(RL)における深部神経機能近似の理論的研究について述べる。
我々は、Besov(およびBarron)関数空間によって与えられるディープ(および2層)ニューラルネットワークによる$epsilon$-greedy探索により、バリューベースのアルゴリズムに焦点を当てる。
我々の解析は、ある平均測度$mu$の上の$L2(mathrmdmu)$-integrable空間における時間差誤差を再構成し、非イド設定の下で一般化問題に変換する。
論文 参考訳(メタデータ) (2022-09-15T15:42:47Z) - SPAGHETTI: Editing Implicit Shapes Through Part Aware Generation [85.09014441196692]
本稿では, $mathbfE$diting $mathbfI$mplicit $mathbfS$hapes $mathbfT$hroughを紹介する。
我々のアーキテクチャは、形状セグメントを変換し、補間し、組み合わせることで、暗黙の形状の操作を可能にする。
論文 参考訳(メタデータ) (2022-01-31T12:31:41Z) - Differentially Private Exploration in Reinforcement Learning with Linear
Representation [102.17246636801649]
まず,線形混合MDP(Ayob et al., 2020)の設定(モデルベース設定)について検討し,共同・局所微分プライベート(DP)探索を統一的に分析するための枠組みを提供する。
我々はさらに、線形MDP(Jin et al., 2020)におけるプライバシー保護探索(つまりモデルフリー設定)について研究し、$widetildeO(sqrtK/epsilon)$ regret bound for $(epsilon,delta)を提供する。
論文 参考訳(メタデータ) (2021-12-02T19:59:50Z) - Mask-Guided Discovery of Semantic Manifolds in Generative Models [0.0]
StyleGAN2は、低次元の潜在空間内のランダムベクトルから人間の顔の画像を生成する。
モデルはブラックボックスとして動作し、出力の制御も、データから学んだ構造についての洞察も提供しない。
顔の空間的局所化領域の変化の多様体を探索する手法を提案する。
論文 参考訳(メタデータ) (2021-05-15T18:06:38Z) - Predicting First Passage Percolation Shapes Using Neural Networks [0.0]
我々は、発見されたサイトの集合の形状を適切に予測できるニューラルネットワークを構築し、適合させる。
主な目的は、通過時間の分布から形状の印象を得るための新しいツールを研究者に与えることである。
論文 参考訳(メタデータ) (2020-06-24T19:10:21Z) - Zooming for Efficient Model-Free Reinforcement Learning in Metric Spaces [26.297887542066505]
本研究では,自然距離を持つと仮定される連続的な状態-作用空間を用いたエピソディック強化学習について考察する。
本稿では,連続的な帯域幅からアイデアを生かし,共同空間の適応的離散化を学習するオンラインアルゴリズムZoomRLを提案する。
ZoomRL が最悪の後悔点である $tildeO(Hfrac52 Kfracd+1d+2)$ ここでは$H$ が計画的地平線、$K$ がエピソード数、$d$ が空間の被覆次元であることを示す。
論文 参考訳(メタデータ) (2020-03-09T12:32:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。