論文の概要: Resolving Memorization in Empirical Diffusion Model for Manifold Data in High-Dimensional Spaces
- arxiv url: http://arxiv.org/abs/2505.02508v3
- Date: Sat, 02 Aug 2025 09:46:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 14:07:56.704607
- Title: Resolving Memorization in Empirical Diffusion Model for Manifold Data in High-Dimensional Spaces
- Title(参考訳): 高次元空間におけるマニフォールドデータの経験的拡散モデルにおける記憶の解消
- Authors: Yang Lyu, Tan Minh Nguyen, Yuchun Qian, Xin T. Tong,
- Abstract要約: データ分布がn個の点からなる場合、経験的拡散モデルは既存のデータ点を再現する傾向がある。
本研究は,経験的拡散シミュレーションの最後に慣性更新を適用することで,記憶の問題を解くことができることを示す。
このモデルから得られたサンプルの分布は、次元$d$の$C2$多様体上の真のデータ分布を、位数$O(n-frac2d+4)$のWasserstein-1距離内で近似することを示した。
- 参考スコア(独自算出の注目度): 5.716752583983991
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models are popular tools for generating new data samples, using a forward process that adds noise to data and a reverse process to denoise and produce samples. However, when the data distribution consists of n points, empirical diffusion models tend to reproduce existing data points, a phenomenon known as the memorization effect. Current literature often addresses this with complex machine learning techniques. This work shows that the memorization issue can be solved simply by applying an inertia update at the end of the empirical diffusion simulation. Our inertial diffusion model requires only the empirical score function and no additional training. We demonstrate that the distribution of samples from this model approximates the true data distribution on a $C^2$ manifold of dimension $d$, within a Wasserstein-1 distance of order $O(n^{-\frac{2}{d+4}})$. This bound significantly shrinks the Wasserstein distance between the population and empirical distributions, confirming that the inertial diffusion model produces new and diverse samples. Remarkably, this estimate is independent of the ambient space dimension, as no further training is needed. Our analysis shows that the inertial diffusion samples resemble Gaussian kernel density estimations on the manifold, revealing a novel connection between diffusion models and manifold learning.
- Abstract(参考訳): 拡散モデルは、データにノイズを加えるフォワードプロセスと、サンプルを識別して生成するリバースプロセスを使用して、新しいデータサンプルを生成する一般的なツールである。
しかし、データ分布が n 個の点からなる場合、経験的拡散モデルは既存のデータ点を再現する傾向にあり、これは記憶効果と呼ばれる現象である。
現在の文献では、これを複雑な機械学習技術で扱うことが多い。
本研究は,経験的拡散シミュレーションの最後に慣性更新を適用することで,記憶の問題を解くことができることを示す。
我々の慣性拡散モデルは経験的スコア関数のみを必要とし、追加のトレーニングは不要である。
このモデルから得られたサンプルの分布は、次元$d$の$C^2$多様体上の真のデータ分布を、位数$O(n^{-\frac{2}{d+4}})$のWasserstein-1距離内で近似することを示した。
この境界は、ワッサーシュタインの個体群と経験的分布の間の距離を著しく縮小させ、慣性拡散モデルが新しい多様なサンプルを生成することを確認した。
注目すべきは、この推定は周囲の空間次元とは独立であり、それ以上の訓練は必要ないことである。
解析の結果、慣性拡散サンプルは多様体上のガウス核密度推定に似ており、拡散モデルと多様体学習の間に新しい関係があることが判明した。
関連論文リスト
- Multimodal Atmospheric Super-Resolution With Deep Generative Models [0.0]
スコアベース拡散モデリング(Score-based diffusion modeling)は、複雑な分布からサンプリングできる生成機械学習アルゴリズムである。
本稿では,高次元力学系の超解像にそのような概念を適用し,低分解能および実験的に観察されたスパースセンサ測定のリアルタイム利用性を考える。
論文 参考訳(メタデータ) (2025-06-28T06:47:09Z) - Progressive Inference-Time Annealing of Diffusion Models for Sampling from Boltzmann Densities [85.83359661628575]
拡散に基づくサンプル学習のために, PITA(Progressive Inference-Time Annealing)を提案する。
PITAはボルツマン分布のアナーリングと拡散平滑化という2つの相補的手法を組み合わせたものである。
N-体粒子系、アラニンジペプチド、トリペプチドの平衡サンプリングを可能にする。
論文 参考訳(メタデータ) (2025-06-19T17:14:22Z) - Continuous Diffusion Model for Language Modeling [57.396578974401734]
離散データに対する既存の連続拡散モデルは、離散的アプローチと比較して性能が限られている。
本稿では,下層の分類分布の幾何学を組み込んだ言語モデリングのための連続拡散モデルを提案する。
論文 参考訳(メタデータ) (2025-02-17T08:54:29Z) - Non-Normal Diffusion Models [3.5534933448684134]
拡散モデルは、データをノイズに変える過程を漸進的に反転させることでサンプルを生成する。
ステップサイズが 0 となると、逆過程はこれらの増分分布に不変であることを示す。
本稿では,これらのモデルが標準画像データセット上での密度推定および生成モデリングタスクに与える影響を実証する。
論文 参考訳(メタデータ) (2024-12-10T21:31:12Z) - Convergence of Diffusion Models Under the Manifold Hypothesis in High-Dimensions [6.9408143976091745]
Denoising Diffusion Probabilistic Models (DDPM)は、高次元データ分布から合成データを生成するために使用される強力な最先端手法である。
多様体仮説の下でDDPMを解析し、スコアラーニングの観点で周囲次元に依存しないレートを達成することを証明した。
サンプリング複雑性の観点では、周囲次元 w.r.t, Kullback-Leibler 発散率 w.r.t, $O(sqrtD)$ w.r.t. ワッサーシュタイン距離を求める。
論文 参考訳(メタデータ) (2024-09-27T14:57:18Z) - Constrained Diffusion Models via Dual Training [80.03953599062365]
拡散プロセスは、トレーニングデータセットのバイアスを反映したサンプルを生成する傾向がある。
所望の分布に基づいて拡散制約を付与し,制約付き拡散モデルを構築する。
本稿では,制約付き拡散モデルを用いて,目的と制約の最適なトレードオフを実現する混合データ分布から新しいデータを生成することを示す。
論文 参考訳(メタデータ) (2024-08-27T14:25:42Z) - Particle Denoising Diffusion Sampler [32.310922004771776]
Particle Denoising Diffusion Sampler (PDDS) は、軽微な仮定の下で一貫した推定を提供する。
マルチモーダルおよび高次元サンプリングタスクにおけるPDDSの実証を行った。
論文 参考訳(メタデータ) (2024-02-09T11:01:35Z) - Lecture Notes in Probabilistic Diffusion Models [0.5361320134021585]
拡散モデルは非平衡熱力学に基づいてゆるやかにモデル化される。
拡散モデルは、元のデータサンプルが属するデータ多様体を学習する。
拡散モデルは、変分オートエンコーダやフローモデルとは異なり、元のデータと同じ次元の潜伏変数を持つ。
論文 参考訳(メタデータ) (2023-12-16T09:36:54Z) - Renormalizing Diffusion Models [0.7252027234425334]
拡散モデルを用いて、統計および量子場理論の逆再正規化群フローを学習する。
我々の研究は、多スケール拡散モデルの解釈を提供し、新しい性質を持つべき拡散モデルに対する物理的に着想を得た提案を与える。
論文 参考訳(メタデータ) (2023-08-23T18:02:31Z) - On Error Propagation of Diffusion Models [77.91480554418048]
DMのアーキテクチャにおける誤り伝播を数学的に定式化するための理論的枠組みを開発する。
累積誤差を正規化項として適用して誤差伝搬を低減する。
提案した正規化はエラーの伝播を低減し,バニラDMを大幅に改善し,以前のベースラインよりも優れていた。
論文 参考訳(メタデータ) (2023-08-09T15:31:17Z) - Towards Faster Non-Asymptotic Convergence for Diffusion-Based Generative
Models [49.81937966106691]
我々は拡散モデルのデータ生成過程を理解するための非漸近理論のスイートを開発する。
従来の研究とは対照的に,本理論は基本的だが多目的な非漸近的アプローチに基づいて開発されている。
論文 参考訳(メタデータ) (2023-06-15T16:30:08Z) - Diffusion Models are Minimax Optimal Distribution Estimators [49.47503258639454]
拡散モデリングの近似と一般化能力について、初めて厳密な分析を行った。
実密度関数がベソフ空間に属し、経験値整合損失が適切に最小化されている場合、生成したデータ分布は、ほぼ最小の最適推定値が得られることを示す。
論文 参考訳(メタデータ) (2023-03-03T11:31:55Z) - Denoising Diffusion Samplers [41.796349001299156]
拡散モデルの認知は、多くの領域で最先端の結果を提供する生成モデルの一般的なクラスである。
我々は、非正規化確率密度関数から大まかにサンプリングし、それらの正規化定数を推定する類似のアイデアを探求する。
この文脈ではスコアマッチングは適用できないが、モンテカルロサンプリングのために生成的モデリングで導入された多くのアイデアを利用することができる。
論文 参考訳(メタデータ) (2023-02-27T14:37:16Z) - Where to Diffuse, How to Diffuse, and How to Get Back: Automated
Learning for Multivariate Diffusions [22.04182099405728]
拡散に基づく生成モデル(DBGM)は、ターゲット雑音分布に摂動データを変換し、この推論拡散過程を逆にしてサンプルを生成する。
補助変数の数に対して、低いバウンドを最大化する方法を示す。
次に,特定対象雑音分布の拡散をパラメータ化する方法を示す。
論文 参考訳(メタデータ) (2023-02-14T18:57:04Z) - Score Approximation, Estimation and Distribution Recovery of Diffusion
Models on Low-Dimensional Data [68.62134204367668]
本稿では,未知の低次元線形部分空間上でデータをサポートする場合の拡散モデルのスコア近似,推定,分布回復について検討する。
適切に選択されたニューラルネットワークアーキテクチャでは、スコア関数を正確に近似し、効率的に推定することができる。
推定スコア関数に基づいて生成された分布は、データ幾何学構造を捕捉し、データ分布の近傍に収束する。
論文 参考訳(メタデータ) (2023-02-14T17:02:35Z) - How Much is Enough? A Study on Diffusion Times in Score-based Generative
Models [76.76860707897413]
現在のベストプラクティスは、フォワードダイナミクスが既知の単純なノイズ分布に十分に近づくことを確実にするために大きなTを提唱している。
本稿では, 理想とシミュレーションされたフォワードダイナミクスのギャップを埋めるために補助モデルを用いて, 標準的な逆拡散過程を導出する方法について述べる。
論文 参考訳(メタデータ) (2022-06-10T15:09:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。