論文の概要: Manifold Generalization Provably Proceeds Memorization in Diffusion Models
- arxiv url: http://arxiv.org/abs/2603.23792v1
- Date: Tue, 24 Mar 2026 23:50:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.060775
- Title: Manifold Generalization Provably Proceeds Memorization in Diffusion Models
- Title(参考訳): 拡散モデルにおけるマンニフォールドの一般化
- Authors: Zebang Shen, Ya-Ping Hsieh, Niao He,
- Abstract要約: 拡散モデルは、学習したスコアがエンフカースである場合でも、しばしば新しいサンプルを生成する。
粗いスコアで訓練された拡散モデルは、多様体支持の語彙性を利用することができることを証明した。
- 参考スコア(独自算出の注目度): 33.15269246693525
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models often generate novel samples even when the learned score is only \emph{coarse} -- a phenomenon not accounted for by the standard view of diffusion training as density estimation. In this paper, we show that, under the \emph{manifold hypothesis}, this behavior can instead be explained by coarse scores capturing the \emph{geometry} of the data while discarding the fine-scale distributional structure of the population measure~$μ_{\scriptscriptstyle\mathrm{data}}$. Concretely, whereas estimating the full data distribution $μ_{\scriptscriptstyle\mathrm{data}}$ supported on a $k$-dimensional manifold is known to require the classical minimax rate $\tilde{\mathcal{O}}(N^{-1/k})$, we prove that diffusion models trained with coarse scores can exploit the \emph{regularity of the manifold support} and attain a near-parametric rate toward a \emph{different} target distribution. This target distribution has density uniformly comparable to that of~$μ_{\scriptscriptstyle\mathrm{data}}$ throughout any $\tilde{\mathcal{O}}\bigl(N^{-β/(4k)}\bigr)$-neighborhood of the manifold, where $β$ denotes the manifold regularity. Our guarantees therefore depend only on the smoothness of the underlying support, and are especially favorable when the data density itself is irregular, for instance non-differentiable. In particular, when the manifold is sufficiently smooth, we obtain that \emph{generalization} -- formalized as the ability to generate novel, high-fidelity samples -- occurs at a statistical rate strictly faster than that required to estimate the full population distribution~$μ_{\scriptscriptstyle\mathrm{data}}$.
- Abstract(参考訳): 拡散モデルはしばしば、学習したスコアが 'emph{coarse}' である場合でも、新しいサンプルを生成する。
本稿では,この振る舞いを,人口測定値〜$μ_{\scriptstyle\mathrm{data}}$の微細分布構造を捨てたまま,データの「emph{geometry}」を捕捉した粗いスコアで説明できることを示す。
具体的には、$k 次元多様体上でサポートされているフルデータ分布 $μ_{\scriptscriptstyle\mathrm{data}}$ を推定することは、古典的なミニマックス率 $\tilde{\mathcal{O}}(N^{-1/k})$ を必要とすることが知られているが、粗いスコアで訓練された拡散モデルが多様体サポートの \emph{regularity を活用でき、かつ \emph{different} の目標分布に対してほぼパラメトリックレートが得られることを証明している。
この分布は、任意の$\tilde{\mathcal{O}}\bigl(N^{-β/(4k)}\bigr)$-neighborhood of the manifold, ここで$β$は多様体の正則性を表す。
したがって、我々の保証は基盤となる支持の滑らかさにのみ依存しており、特にデータ密度自体が不規則である場合、例えば微分不可能である。
特に、多様体が十分に滑らかであるとき、新しい高忠実度サンプルを生成する能力として形式化された \emph{ Generalization} が、全人口分布~$μ_{\scriptstyle\mathrm{data}}$を推定するために必要なものよりも厳密な統計速度で発生する。
関連論文リスト
- Generalization Properties of Score-matching Diffusion Models for Intrinsically Low-dimensional Data [32.72306410557258]
有限個のサンプルから未知分布の$$を学習するためのスコアベース拡散モデルの統計的収束について検討する。
以上の結果から,拡散モデルがデータ固有の幾何学に自然に適応していることが示唆された。
我々の理論は, 拡散モデルの解析を, GANと最適輸送で確立された急激なミニマックス速度で橋渡しするものである。
論文 参考訳(メタデータ) (2026-03-04T03:59:02Z) - Optimal Convergence Analysis of DDPM for General Distributions [11.155024379105788]
Denoising Diffusion Probabilistic Model (DDPM)は最も広く使われているサンプルの一つである。
DDPM試料の精密収束解析を行った。
我々の収束解析は、広範囲な対象分布に対して厳密であることを示す。
論文 参考訳(メタデータ) (2025-10-31T15:44:50Z) - Computational bottlenecks for denoising diffusions [8.05574597775852]
最適値に非常に近いドリフトが存在するのに対して,ターゲット値から非常に遠い分布を持つ試料が得られた。
サンプリングが容易な確率分布を$mu$で研究することで、逆の証拠を与えるが、拡散過程のドリフトは難解である。
論文 参考訳(メタデータ) (2025-03-11T04:21:01Z) - Outsourced diffusion sampling: Efficient posterior inference in latent spaces of generative models [65.71506381302815]
本稿では、$p(mathbfxmidmathbfy) propto p_theta(mathbfx)$ という形式の後続分布からサンプリングするコストを償却する。
多くのモデルや制約に対して、後部ノイズ空間はデータ空間よりも滑らかであり、償却推論により適している。
論文 参考訳(メタデータ) (2025-02-10T19:49:54Z) - Non-asymptotic bounds for forward processes in denoising diffusions: Ornstein-Uhlenbeck is hard to beat [49.1574468325115]
本稿では,全変動(TV)における前方拡散誤差の非漸近的境界について述べる。
我々は、R$からFarthestモードまでの距離でマルチモーダルデータ分布をパラメライズし、加法的および乗法的雑音による前方拡散を考察する。
論文 参考訳(メタデータ) (2024-08-25T10:28:31Z) - Minimax Optimality of Score-based Diffusion Models: Beyond the Density Lower Bound Assumptions [11.222970035173372]
カーネルベースのスコア推定器は$widetildeOleft(n-1 t-fracd+22(tfracd2 vee 1)rightの最適平均二乗誤差を達成する
核を用いたスコア推定器は,拡散モデルで生成した試料の分布の総変動誤差に対して,極小ガウスの下での最大平均2乗誤差を$widetildeOleft(n-1/2 t-fracd4right)$上界で達成することを示す。
論文 参考訳(メタデータ) (2024-02-23T20:51:31Z) - Broadening Target Distributions for Accelerated Diffusion Models via a Novel Analysis Approach [49.97755400231656]
本研究では,新しいDDPMサンプリング器が,これまで考慮されていなかった3種類の分散クラスに対して高速化性能を実現することを示す。
この結果から, DDPM型加速サンプリング器におけるデータ次元$d$への依存性が改善された。
論文 参考訳(メタデータ) (2024-02-21T16:11:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。