Fugu-MT 論文翻訳(概要): Resolving Memorization in Empirical Diffusion Model for Manifold Data in High-Dimensional Spaces

論文の概要: Resolving Memorization in Empirical Diffusion Model for Manifold Data in High-Dimensional Spaces

arxiv url: http://arxiv.org/abs/2505.02508v1
Date: Mon, 05 May 2025 09:40:41 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-06 18:49:35.634621
Title: Resolving Memorization in Empirical Diffusion Model for Manifold Data in High-Dimensional Spaces
Title（参考訳）: 高次元空間におけるマニフォールドデータの経験的拡散モデルにおける記憶の解消
Authors: Yang Lyu, Yuchun Qian, Tan Minh Nguyen, Xin T. Tong,
Abstract要約: 慣性拡散モデル(Inertial diffusion model)は、新しいデータサンプルを生成する一般的な計算ツールである。我々は、慣性拡散モデルサンプル分布を選択することは、次元$d$の$C2$多様体上のデータ分布の$Oleft(n-frac2d+4right)$Wasserstein-1近似であることを示す。注目すべきは、この上界が周囲空間次元から完全に解放されることである。
参考スコア（独自算出の注目度）: 5.716752583983991
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Diffusion models is a popular computational tool to generate new data samples. It utilizes a forward diffusion process that add noise to the data distribution and then use a reverse process to remove noises to produce samples from the data distribution. However, when the empirical data distribution consists of $n$ data point, using the empirical diffusion model will necessarily produce one of the existing data points. This is often referred to as the memorization effect, which is usually resolved by sophisticated machine learning procedures in the current literature. This work shows that the memorization problem can be resolved by a simple inertia update step at the end of the empirical diffusion model simulation. Our inertial diffusion model requires only the empirical diffusion model score function and it does not require any further training. We show that choosing the inertia diffusion model sample distribution is an $O\left(n^{-\frac{2}{d+4}}\right)$ Wasserstein-1 approximation of a data distribution lying on a $C^2$ manifold of dimension $d$. Since this estimate is significant smaller the Wasserstein1 distance between population and empirical distributions, it rigorously shows the inertial diffusion model produces new data samples. Remarkably, this upper bound is completely free of the ambient space dimension, since there is no training involved. Our analysis utilizes the fact that the inertial diffusion model samples are approximately distributed as the Gaussian kernel density estimator on the manifold. This reveals an interesting connection between diffusion model and manifold learning.
Abstract（参考訳）: 拡散モデルは、新しいデータサンプルを生成する一般的な計算ツールである。これは、データ分散にノイズを加える前方拡散プロセスを使用し、その後、逆プロセスを使用してノイズを取り除き、データ分散からサンプルを生成する。しかし、経験的データ分布が$n$のデータポイントからなる場合、経験的拡散モデルを用いることで、既存のデータポイントの1つを生成する必要がある。これはしばしば記憶効果と呼ばれ、通常は現在の文学における洗練された機械学習の手順によって解決される。本研究は,経験的拡散モデルシミュレーションの最後に,単純な慣性更新ステップで記憶問題を解くことができることを示す。我々の慣性拡散モデルは経験的拡散モデルスコア関数のみを必要とし、それ以上の訓練は必要としない。我々は、慣性拡散モデルサンプル分布を選択することは、$O\left(n^{-\frac{2}{d+4}}\right)$Wasserstein-1の次元$d$のC^2$多様体上のデータ分布の近似であることを示す。この推定は集団と経験的分布の間のワッサーシュタイン1距離を著しく小さくするため、慣性拡散モデルが新しいデータサンプルを生成することを厳密に示している。注目すべきは、この上界が周囲空間次元から完全に解放されることである。解析は、慣性拡散モデルサンプルが多様体上のガウス核密度推定器としてほぼ分布しているという事実を利用する。これは拡散モデルと多様体学習の間の興味深い関係を明らかにする。

関連論文リスト

Multimodal Atmospheric Super-Resolution With Deep Generative Models [0.0]
スコアベース拡散モデリング(Score-based diffusion modeling)は、複雑な分布からサンプリングできる生成機械学習アルゴリズムである。本稿では,高次元力学系の超解像にそのような概念を適用し,低分解能および実験的に観察されたスパースセンサ測定のリアルタイム利用性を考える。
論文参考訳（メタデータ） (2025-06-28T06:47:09Z)
Progressive Inference-Time Annealing of Diffusion Models for Sampling from Boltzmann Densities [85.83359661628575]
拡散に基づくサンプル学習のために, PITA(Progressive Inference-Time Annealing)を提案する。 PITAはボルツマン分布のアナーリングと拡散平滑化という2つの相補的手法を組み合わせたものである。 N-体粒子系、アラニンジペプチド、トリペプチドの平衡サンプリングを可能にする。
論文参考訳（メタデータ） (2025-06-19T17:14:22Z)
Continuous Diffusion Model for Language Modeling [57.396578974401734]
離散データに対する既存の連続拡散モデルは、離散的アプローチと比較して性能が限られている。本稿では,下層の分類分布の幾何学を組み込んだ言語モデリングのための連続拡散モデルを提案する。
論文参考訳（メタデータ） (2025-02-17T08:54:29Z)
Non-Normal Diffusion Models [3.5534933448684134]
拡散モデルは、データをノイズに変える過程を漸進的に反転させることでサンプルを生成する。ステップサイズが 0 となると、逆過程はこれらの増分分布に不変であることを示す。本稿では,これらのモデルが標準画像データセット上での密度推定および生成モデリングタスクに与える影響を実証する。
論文参考訳（メタデータ） (2024-12-10T21:31:12Z)
Convergence of Diffusion Models Under the Manifold Hypothesis in High-Dimensions [6.9408143976091745]
Denoising Diffusion Probabilistic Models (DDPM)は、高次元データ分布から合成データを生成するために使用される強力な最先端手法である。多様体仮説の下でDDPMを解析し、スコアラーニングの観点で周囲次元に依存しないレートを達成することを証明した。サンプリング複雑性の観点では、周囲次元 w.r.t, Kullback-Leibler 発散率 w.r.t, $O(sqrtD)$ w.r.t. ワッサーシュタイン距離を求める。
論文参考訳（メタデータ） (2024-09-27T14:57:18Z)
Constrained Diffusion Models via Dual Training [80.03953599062365]
拡散プロセスは、トレーニングデータセットのバイアスを反映したサンプルを生成する傾向がある。所望の分布に基づいて拡散制約を付与し,制約付き拡散モデルを構築する。本稿では,制約付き拡散モデルを用いて,目的と制約の最適なトレードオフを実現する混合データ分布から新しいデータを生成することを示す。
論文参考訳（メタデータ） (2024-08-27T14:25:42Z)
Particle Denoising Diffusion Sampler [32.310922004771776]
Particle Denoising Diffusion Sampler (PDDS) は、軽微な仮定の下で一貫した推定を提供する。マルチモーダルおよび高次元サンプリングタスクにおけるPDDSの実証を行った。
論文参考訳（メタデータ） (2024-02-09T11:01:35Z)
Lecture Notes in Probabilistic Diffusion Models [0.5361320134021585]
拡散モデルは非平衡熱力学に基づいてゆるやかにモデル化される。拡散モデルは、元のデータサンプルが属するデータ多様体を学習する。拡散モデルは、変分オートエンコーダやフローモデルとは異なり、元のデータと同じ次元の潜伏変数を持つ。
論文参考訳（メタデータ） (2023-12-16T09:36:54Z)
Renormalizing Diffusion Models [0.7252027234425334]
拡散モデルを用いて、統計および量子場理論の逆再正規化群フローを学習する。我々の研究は、多スケール拡散モデルの解釈を提供し、新しい性質を持つべき拡散モデルに対する物理的に着想を得た提案を与える。
論文参考訳（メタデータ） (2023-08-23T18:02:31Z)
On Error Propagation of Diffusion Models [77.91480554418048]
DMのアーキテクチャにおける誤り伝播を数学的に定式化するための理論的枠組みを開発する。累積誤差を正規化項として適用して誤差伝搬を低減する。提案した正規化はエラーの伝播を低減し,バニラDMを大幅に改善し,以前のベースラインよりも優れていた。
論文参考訳（メタデータ） (2023-08-09T15:31:17Z)
Towards Faster Non-Asymptotic Convergence for Diffusion-Based Generative Models [49.81937966106691]
我々は拡散モデルのデータ生成過程を理解するための非漸近理論のスイートを開発する。従来の研究とは対照的に,本理論は基本的だが多目的な非漸近的アプローチに基づいて開発されている。
論文参考訳（メタデータ） (2023-06-15T16:30:08Z)
Diffusion Models are Minimax Optimal Distribution Estimators [49.47503258639454]
拡散モデリングの近似と一般化能力について、初めて厳密な分析を行った。実密度関数がベソフ空間に属し、経験値整合損失が適切に最小化されている場合、生成したデータ分布は、ほぼ最小の最適推定値が得られることを示す。
論文参考訳（メタデータ） (2023-03-03T11:31:55Z)
Denoising Diffusion Samplers [41.796349001299156]
拡散モデルの認知は、多くの領域で最先端の結果を提供する生成モデルの一般的なクラスである。我々は、非正規化確率密度関数から大まかにサンプリングし、それらの正規化定数を推定する類似のアイデアを探求する。この文脈ではスコアマッチングは適用できないが、モンテカルロサンプリングのために生成的モデリングで導入された多くのアイデアを利用することができる。
論文参考訳（メタデータ） (2023-02-27T14:37:16Z)
Where to Diffuse, How to Diffuse, and How to Get Back: Automated Learning for Multivariate Diffusions [22.04182099405728]
拡散に基づく生成モデル(DBGM)は、ターゲット雑音分布に摂動データを変換し、この推論拡散過程を逆にしてサンプルを生成する。補助変数の数に対して、低いバウンドを最大化する方法を示す。次に,特定対象雑音分布の拡散をパラメータ化する方法を示す。
論文参考訳（メタデータ） (2023-02-14T18:57:04Z)
Score Approximation, Estimation and Distribution Recovery of Diffusion Models on Low-Dimensional Data [68.62134204367668]
本稿では,未知の低次元線形部分空間上でデータをサポートする場合の拡散モデルのスコア近似,推定,分布回復について検討する。適切に選択されたニューラルネットワークアーキテクチャでは、スコア関数を正確に近似し、効率的に推定することができる。推定スコア関数に基づいて生成された分布は、データ幾何学構造を捕捉し、データ分布の近傍に収束する。
論文参考訳（メタデータ） (2023-02-14T17:02:35Z)
How Much is Enough? A Study on Diffusion Times in Score-based Generative Models [76.76860707897413]
現在のベストプラクティスは、フォワードダイナミクスが既知の単純なノイズ分布に十分に近づくことを確実にするために大きなTを提唱している。本稿では, 理想とシミュレーションされたフォワードダイナミクスのギャップを埋めるために補助モデルを用いて, 標準的な逆拡散過程を導出する方法について述べる。
論文参考訳（メタデータ） (2022-06-10T15:09:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。