Fugu-MT 論文翻訳(概要): Understanding the Latent Space of Diffusion Models through the Lens of Riemannian Geometry

論文の概要: Understanding the Latent Space of Diffusion Models through the Lens of Riemannian Geometry

arxiv url: http://arxiv.org/abs/2307.12868v2
Date: Fri, 27 Oct 2023 02:34:05 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-30 17:16:42.821455
Title: Understanding the Latent Space of Diffusion Models through the Lens of Riemannian Geometry
Title（参考訳）: リーマン幾何学のレンズによる拡散モデルの潜在空間の理解
Authors: Yong-Hyun Park, Mingi Kwon, Jaewoong Choi, Junghyo Jo, Youngjung Uh
Abstract要約: 幾何的視点から、mathcalX$ の潜在空間 $mathbfx_t を解析する。我々のアプローチでは、プルバック計量を利用して$mathcalX$内の局所潜伏基底を導出する。注目すべきは、我々の発見した局所潜伏基底は、画像編集機能を実現することである。
参考スコア（独自算出の注目度）: 14.401252409755084
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Despite the success of diffusion models (DMs), we still lack a thorough understanding of their latent space. To understand the latent space $\mathbf{x}_t \in \mathcal{X}$, we analyze them from a geometrical perspective. Our approach involves deriving the local latent basis within $\mathcal{X}$ by leveraging the pullback metric associated with their encoding feature maps. Remarkably, our discovered local latent basis enables image editing capabilities by moving $\mathbf{x}_t$, the latent space of DMs, along the basis vector at specific timesteps. We further analyze how the geometric structure of DMs evolves over diffusion timesteps and differs across different text conditions. This confirms the known phenomenon of coarse-to-fine generation, as well as reveals novel insights such as the discrepancy between $\mathbf{x}_t$ across timesteps, the effect of dataset complexity, and the time-varying influence of text prompts. To the best of our knowledge, this paper is the first to present image editing through $\mathbf{x}$-space traversal, editing only once at specific timestep $t$ without any additional training, and providing thorough analyses of the latent structure of DMs. The code to reproduce our experiments can be found at https://github.com/enkeejunior1/Diffusion-Pullback.
Abstract（参考訳）: 拡散モデル(DM)の成功にもかかわらず、我々はその潜在空間を十分に理解していない。潜在空間 $\mathbf{x}_t \in \mathcal{X}$ を理解するために、幾何学的観点から解析する。我々のアプローチは、それらのエンコーディングフィーチャマップに関連付けられたプルバックメトリックを利用することで、$\mathcal{x}$内の局所的潜在基底を導出します。注目すべきことに、発見されたローカル潜伏基底は、特定の時間ステップで基底ベクトルに沿ってDMの潜伏空間である$\mathbf{x}_t$を移動することで、画像編集機能を実現する。さらに,DMの幾何学的構造が拡散時間経過とともにどのように進化し,異なるテキスト条件で異なるかを解析する。これは、粗大な生成の既知の現象を確認し、タイムステップ間の$\mathbf{x}_t$の相違、データセットの複雑さの影響、テキストプロンプトの時間変化の影響など、新しい洞察を明らかにしている。私たちの知る限りでは、この論文は$\mathbf{x}$-space トラバーサルによる画像編集を最初に提示し、追加のトレーニングなしで特定の時間ステップ $t$ でのみ編集し、dmsの潜在構造を徹底的に分析する。実験を再現するコードは、https://github.com/enkeejunior1/Diffusion-Pullback.orgにある。

関連論文リスト

Simple Semi-supervised Knowledge Distillation from Vision-Language Models via $\mathbf{\ exttt{D}}$ual-$\mathbf{\ exttt{H}}$ead $\mathbf{\ exttt{O}}$ptimization [49.2338910653152]
VLM(Vision-Constrained Model)は、ラベル付きデータが最小限に抑えられたリッチテキスト情報を活用することで、様々なタスクで顕著な成功を収めた。知識蒸留(KD)は、この問題に対して確立された解決策を提供するが、近年のVLMからのKDアプローチでは、多段階のトレーニングや追加のチューニングがしばしば行われている。本稿では,VLMの知識を,半言語設定でコンパクトなタスク固有モデルに伝達する,シンプルで効果的なKDフレームワークであるmathbftextttDHO$を提案する。
論文参考訳（メタデータ） (2025-05-12T15:39:51Z)
Outsourced diffusion sampling: Efficient posterior inference in latent spaces of generative models [65.71506381302815]
本稿では、$p(mathbfxmidmathbfy) propto p_theta(mathbfx)$ という形式の後続分布からサンプリングするコストを償却する。多くのモデルと関心の制約に対して、ノイズ空間の後方はデータ空間の後方よりも滑らかであり、そのような償却推論に対してより快適である。
論文参考訳（メタデータ） (2025-02-10T19:49:54Z)
Can Diffusion Models Learn Hidden Inter-Feature Rules Behind Images? [21.600998338094794]
画像特徴間の隠れルールを学習する拡散モデル(DM)の能力に焦点を当てる。 DMが機能間規則(p(mathbfy|mathbfx)$)を正確にキャプチャできるかどうかを検討する。我々は、DMのルール学習能力を評価するために、強く相関した特徴を持つ4つの合成タスクを設計する。
論文参考訳（メタデータ） (2025-02-07T07:49:37Z)
Conditional Mutual Information Based Diffusion Posterior Sampling for Solving Inverse Problems [3.866047645663101]
コンピュータビジョンでは、インペイント、デブロアリング、超解像といったタスクは逆問題として一般的に定式化される。近年, 拡散モデル (DM) が, 雑音の線形逆問題に対処するための有望なアプローチとして出現している。本稿では,逆問題の解法におけるDMの有効性を改善するための情報理論的手法を提案する。
論文参考訳（メタデータ） (2025-01-06T09:45:26Z)
Self-Ensembling Gaussian Splatting for Few-Shot Novel View Synthesis [55.561961365113554]
3D Gaussian Splatting (3DGS) は新規ビュー合成(NVS)に顕著な効果を示したしかし、3DGSモデルはスパースポーズビューで訓練すると過度に適合する傾向にあり、その一般化能力は新規ビューに制限される。オーバーフィッティング問題を緩和するために,Self-Ensembling Gaussian Splatting (SE-GS) アプローチを提案する。提案手法は,NVSの品質向上に寄与し,既存の最先端手法よりも優れる。
論文参考訳（メタデータ） (2024-10-31T18:43:48Z)
Monge-Ampere Regularization for Learning Arbitrary Shapes from Point Clouds [69.69726932986923]
任意の曲面型をモデル化するための新しい暗黙曲面表現であるスケールド2乗距離関数 (S$2$DF) を提案する。 S$2$DFは、ゼロレベルセットでのUDFの非微分可能性問題に効果的に対処しながら、内部領域と外部領域を区別しない。 S$2$DF はモンゲ・アンペア型の二次偏微分方程式を満たすことを示した。
論文参考訳（メタデータ） (2024-10-24T06:56:34Z)
Provably learning a multi-head attention layer [55.2904547651831]
マルチヘッドアテンション層は、従来のフィードフォワードモデルとは分離したトランスフォーマーアーキテクチャの重要な構成要素の1つである。本研究では,ランダムな例から多面的注意層を実証的に学習する研究を開始する。最悪の場合、$m$に対する指数的依存は避けられないことを示す。
論文参考訳（メタデータ） (2024-02-06T15:39:09Z)
Unsupervised Discovery of Semantic Latent Directions in Diffusion Models [6.107812768939554]
本論文では,mathcalX$ of DMsにおける潜伏変数 $mathbfx_t の解釈可能な編集方向を検出するための教師なし手法を提案する。発見されたセマンティック潜伏方向は、主に不整合な属性変化をもたらし、異なるサンプル間でグローバルに一貫性がある。
論文参考訳（メタデータ） (2023-02-24T05:54:34Z)
Understanding Deep Neural Function Approximation in Reinforcement Learning via $\epsilon$-Greedy Exploration [53.90873926758026]
本稿では、強化学習(RL)における深部神経機能近似の理論的研究について述べる。我々は、Besov(およびBarron)関数空間によって与えられるディープ(および2層)ニューラルネットワークによる$epsilon$-greedy探索により、バリューベースのアルゴリズムに焦点を当てる。我々の解析は、ある平均測度$mu$の上の$L2(mathrmdmu)$-integrable空間における時間差誤差を再構成し、非イド設定の下で一般化問題に変換する。
論文参考訳（メタデータ） (2022-09-15T15:42:47Z)
SPAGHETTI: Editing Implicit Shapes Through Part Aware Generation [85.09014441196692]
本稿では, $mathbfE$diting $mathbfI$mplicit $mathbfS$hapes $mathbfT$hroughを紹介する。我々のアーキテクチャは、形状セグメントを変換し、補間し、組み合わせることで、暗黙の形状の操作を可能にする。
論文参考訳（メタデータ） (2022-01-31T12:31:41Z)
Differentially Private Exploration in Reinforcement Learning with Linear Representation [102.17246636801649]
まず,線形混合MDP(Ayob et al., 2020)の設定(モデルベース設定)について検討し,共同・局所微分プライベート(DP)探索を統一的に分析するための枠組みを提供する。我々はさらに、線形MDP(Jin et al., 2020)におけるプライバシー保護探索(つまりモデルフリー設定)について研究し、$widetildeO(sqrtK/epsilon)$ regret bound for $(epsilon,delta)を提供する。
論文参考訳（メタデータ） (2021-12-02T19:59:50Z)
Mask-Guided Discovery of Semantic Manifolds in Generative Models [0.0]
StyleGAN2は、低次元の潜在空間内のランダムベクトルから人間の顔の画像を生成する。モデルはブラックボックスとして動作し、出力の制御も、データから学んだ構造についての洞察も提供しない。顔の空間的局所化領域の変化の多様体を探索する手法を提案する。
論文参考訳（メタデータ） (2021-05-15T18:06:38Z)
Predicting First Passage Percolation Shapes Using Neural Networks [0.0]
我々は、発見されたサイトの集合の形状を適切に予測できるニューラルネットワークを構築し、適合させる。主な目的は、通過時間の分布から形状の印象を得るための新しいツールを研究者に与えることである。
論文参考訳（メタデータ） (2020-06-24T19:10:21Z)
Zooming for Efficient Model-Free Reinforcement Learning in Metric Spaces [26.297887542066505]
本研究では,自然距離を持つと仮定される連続的な状態-作用空間を用いたエピソディック強化学習について考察する。本稿では,連続的な帯域幅からアイデアを生かし,共同空間の適応的離散化を学習するオンラインアルゴリズムZoomRLを提案する。 ZoomRL が最悪の後悔点である $tildeO(Hfrac52 Kfracd+1d+2)$ ここでは$H$ が計画的地平線、$K$ がエピソード数、$d$ が空間の被覆次元であることを示す。
論文参考訳（メタデータ） (2020-03-09T12:32:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。