論文の概要: Resolving Memorization in Empirical Diffusion Model for Manifold Data in High-Dimensional Spaces
- arxiv url: http://arxiv.org/abs/2505.02508v1
- Date: Mon, 05 May 2025 09:40:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.634621
- Title: Resolving Memorization in Empirical Diffusion Model for Manifold Data in High-Dimensional Spaces
- Title(参考訳): 高次元空間におけるマニフォールドデータの経験的拡散モデルにおける記憶の解消
- Authors: Yang Lyu, Yuchun Qian, Tan Minh Nguyen, Xin T. Tong,
- Abstract要約: 慣性拡散モデル(Inertial diffusion model)は、新しいデータサンプルを生成する一般的な計算ツールである。
我々は、慣性拡散モデルサンプル分布を選択することは、次元$d$の$C2$多様体上のデータ分布の$Oleft(n-frac2d+4right)$Wasserstein-1近似であることを示す。
注目すべきは、この上界が周囲空間次元から完全に解放されることである。
- 参考スコア(独自算出の注目度): 5.716752583983991
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models is a popular computational tool to generate new data samples. It utilizes a forward diffusion process that add noise to the data distribution and then use a reverse process to remove noises to produce samples from the data distribution. However, when the empirical data distribution consists of $n$ data point, using the empirical diffusion model will necessarily produce one of the existing data points. This is often referred to as the memorization effect, which is usually resolved by sophisticated machine learning procedures in the current literature. This work shows that the memorization problem can be resolved by a simple inertia update step at the end of the empirical diffusion model simulation. Our inertial diffusion model requires only the empirical diffusion model score function and it does not require any further training. We show that choosing the inertia diffusion model sample distribution is an $O\left(n^{-\frac{2}{d+4}}\right)$ Wasserstein-1 approximation of a data distribution lying on a $C^2$ manifold of dimension $d$. Since this estimate is significant smaller the Wasserstein1 distance between population and empirical distributions, it rigorously shows the inertial diffusion model produces new data samples. Remarkably, this upper bound is completely free of the ambient space dimension, since there is no training involved. Our analysis utilizes the fact that the inertial diffusion model samples are approximately distributed as the Gaussian kernel density estimator on the manifold. This reveals an interesting connection between diffusion model and manifold learning.
- Abstract(参考訳): 拡散モデルは、新しいデータサンプルを生成する一般的な計算ツールである。
これは、データ分散にノイズを加える前方拡散プロセスを使用し、その後、逆プロセスを使用してノイズを取り除き、データ分散からサンプルを生成する。
しかし、経験的データ分布が$n$のデータポイントからなる場合、経験的拡散モデルを用いることで、既存のデータポイントの1つを生成する必要がある。
これはしばしば記憶効果と呼ばれ、通常は現在の文学における洗練された機械学習の手順によって解決される。
本研究は,経験的拡散モデルシミュレーションの最後に,単純な慣性更新ステップで記憶問題を解くことができることを示す。
我々の慣性拡散モデルは経験的拡散モデルスコア関数のみを必要とし、それ以上の訓練は必要としない。
我々は、慣性拡散モデルサンプル分布を選択することは、$O\left(n^{-\frac{2}{d+4}}\right)$Wasserstein-1の次元$d$のC^2$多様体上のデータ分布の近似であることを示す。
この推定は集団と経験的分布の間のワッサーシュタイン1距離を著しく小さくするため、慣性拡散モデルが新しいデータサンプルを生成することを厳密に示している。
注目すべきは、この上界が周囲空間次元から完全に解放されることである。
解析は、慣性拡散モデルサンプルが多様体上のガウス核密度推定器としてほぼ分布しているという事実を利用する。
これは拡散モデルと多様体学習の間の興味深い関係を明らかにする。
関連論文リスト
- Continuous Diffusion Model for Language Modeling [57.396578974401734]
離散データに対する既存の連続拡散モデルは、離散的アプローチと比較して性能が限られている。
本稿では,下層の分類分布の幾何学を組み込んだ言語モデリングのための連続拡散モデルを提案する。
論文 参考訳(メタデータ) (2025-02-17T08:54:29Z) - Non-Normal Diffusion Models [3.5534933448684134]
拡散モデルは、データをノイズに変える過程を漸進的に反転させることでサンプルを生成する。
ステップサイズが 0 となると、逆過程はこれらの増分分布に不変であることを示す。
本稿では,これらのモデルが標準画像データセット上での密度推定および生成モデリングタスクに与える影響を実証する。
論文 参考訳(メタデータ) (2024-12-10T21:31:12Z) - Constrained Diffusion Models via Dual Training [80.03953599062365]
拡散プロセスは、トレーニングデータセットのバイアスを反映したサンプルを生成する傾向がある。
所望の分布に基づいて拡散制約を付与し,制約付き拡散モデルを構築する。
本稿では,制約付き拡散モデルを用いて,目的と制約の最適なトレードオフを実現する混合データ分布から新しいデータを生成することを示す。
論文 参考訳(メタデータ) (2024-08-27T14:25:42Z) - Lecture Notes in Probabilistic Diffusion Models [0.5361320134021585]
拡散モデルは非平衡熱力学に基づいてゆるやかにモデル化される。
拡散モデルは、元のデータサンプルが属するデータ多様体を学習する。
拡散モデルは、変分オートエンコーダやフローモデルとは異なり、元のデータと同じ次元の潜伏変数を持つ。
論文 参考訳(メタデータ) (2023-12-16T09:36:54Z) - Renormalizing Diffusion Models [0.7252027234425334]
拡散モデルを用いて、統計および量子場理論の逆再正規化群フローを学習する。
我々の研究は、多スケール拡散モデルの解釈を提供し、新しい性質を持つべき拡散モデルに対する物理的に着想を得た提案を与える。
論文 参考訳(メタデータ) (2023-08-23T18:02:31Z) - On Error Propagation of Diffusion Models [77.91480554418048]
DMのアーキテクチャにおける誤り伝播を数学的に定式化するための理論的枠組みを開発する。
累積誤差を正規化項として適用して誤差伝搬を低減する。
提案した正規化はエラーの伝播を低減し,バニラDMを大幅に改善し,以前のベースラインよりも優れていた。
論文 参考訳(メタデータ) (2023-08-09T15:31:17Z) - Towards Faster Non-Asymptotic Convergence for Diffusion-Based Generative
Models [49.81937966106691]
我々は拡散モデルのデータ生成過程を理解するための非漸近理論のスイートを開発する。
従来の研究とは対照的に,本理論は基本的だが多目的な非漸近的アプローチに基づいて開発されている。
論文 参考訳(メタデータ) (2023-06-15T16:30:08Z) - Diffusion Models are Minimax Optimal Distribution Estimators [49.47503258639454]
拡散モデリングの近似と一般化能力について、初めて厳密な分析を行った。
実密度関数がベソフ空間に属し、経験値整合損失が適切に最小化されている場合、生成したデータ分布は、ほぼ最小の最適推定値が得られることを示す。
論文 参考訳(メタデータ) (2023-03-03T11:31:55Z) - Where to Diffuse, How to Diffuse, and How to Get Back: Automated
Learning for Multivariate Diffusions [22.04182099405728]
拡散に基づく生成モデル(DBGM)は、ターゲット雑音分布に摂動データを変換し、この推論拡散過程を逆にしてサンプルを生成する。
補助変数の数に対して、低いバウンドを最大化する方法を示す。
次に,特定対象雑音分布の拡散をパラメータ化する方法を示す。
論文 参考訳(メタデータ) (2023-02-14T18:57:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。