論文の概要: Gaussian Universality for Diffusion Models
- arxiv url: http://arxiv.org/abs/2501.07741v3
- Date: Sun, 28 Sep 2025 03:57:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 17:47:08.775259
- Title: Gaussian Universality for Diffusion Models
- Title(参考訳): 拡散モデルに対するガウス普遍性
- Authors: Reza Ghane, Anthony Bao, Danil Akhtiamov, Babak Hassibi,
- Abstract要約: 一般化線形モデルである $f(mathbfW)$ のテスト誤差は、拡散データ上の分類タスクのために訓練された検定誤差がガウス混合法で訓練された $f(mathbfW)$ のテスト誤差と一致することを示す。
また、任意の$$$-lipschitz scalar function $phi$, $phi(mathbfx)$ が $mathbbE phi(mathbfx)$ に近く、条件拡散モデルからサンプリングされた $mathbfx$ の確率が高いことも示している。
- 参考スコア(独自算出の注目度): 13.722991812691054
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate Gaussian Universality for data distributions generated via diffusion models. By Gaussian Universality we mean that the test error of a generalized linear model $f(\mathbf{W})$ trained for a classification task on the diffusion data matches the test error of $f(\mathbf{W})$ trained on the Gaussian Mixture with matching means and covariances per class.In other words, the test error depends only on the first and second order statistics of the diffusion-generated data in the linear setting. As a corollary, the analysis of the test error for linear classifiers can be reduced to Gaussian data from diffusion-generated data. Analysing the performance of models trained on synthetic data is a pertinent problem due to the surge of methods such as \cite{sehwag2024stretchingdollardiffusiontraining}. Moreover, we show that, for any $1$- Lipschitz scalar function $\phi$, $\phi(\mathbf{x})$ is close to $\mathbb{E} \phi(\mathbf{x})$ with high probability for $\mathbf{x}$ sampled from the conditional diffusion model corresponding to each class. Finally, we note that current approaches for proving universality do not apply to diffusion-generated data as the covariance matrices of the data tend to have vanishing minimum singular values, contrary to the assumption made in the literature. This leaves extending previous mathematical universality results as an intriguing open question.
- Abstract(参考訳): 拡散モデルを用いて生成されたデータ分布に対するガウス普遍性について検討する。
一般線型モデル $f(\mathbf{W})$ の拡散データに対する分類タスクに対するテスト誤差は、ガウス混合体上で訓練されたテスト誤差$f(\mathbf{W})$ と、マッチング手段とクラス毎の共分散とを一致させる。
結論として、線形分類器のテスト誤差の解析は拡散生成データからガウスデータに還元できる。
合成データに基づいてトレーニングされたモデルの性能を解析することは、 \cite{sehwag2024stretchingdolliffusiontraining} のような手法の急上昇による関連する問題である。
さらに、任意の$$-lipschitz scalar function $\phi$, $\phi(\mathbf{x})$ が $\mathbb{E} \phi(\mathbf{x})$ に近く、各クラスに対応する条件拡散モデルからサンプリングされた $\mathbf{x}$ の確率が高いことを示す。
最後に、データの共分散行列は文献の仮定に反して最小特異値が消滅する傾向にあるため、現在の普遍性を証明するためのアプローチは拡散生成データには適用されないことに留意する。
このことは、過去の数学的普遍性の結果を興味深いオープンな問題として拡張することを残している。
関連論文リスト
- Understanding Generalization in Diffusion Models via Probability Flow Distance [7.675910526644439]
分布一般化を測定するために確率フロー距離(texttPFD$)を導入する。
拡散モデルにおけるいくつかの重要な一般化挙動を経験的に明らかにする。
論文 参考訳(メタデータ) (2025-05-26T15:23:50Z) - Resolving Memorization in Empirical Diffusion Model for Manifold Data in High-Dimensional Spaces [5.716752583983991]
データ分布がn個の点からなる場合、経験的拡散モデルは既存のデータ点を再現する傾向がある。
本研究は,経験的拡散シミュレーションの最後に慣性更新を適用することで,記憶の問題を解くことができることを示す。
このモデルから得られたサンプルの分布は、次元$d$の$C2$多様体上の真のデータ分布を、位数$O(n-frac2d+4)$のWasserstein-1距離内で近似することを示した。
論文 参考訳(メタデータ) (2025-05-05T09:40:41Z) - Outsourced diffusion sampling: Efficient posterior inference in latent spaces of generative models [65.71506381302815]
本稿では、$p(mathbfxmidmathbfy) propto p_theta(mathbfx)$ という形式の後続分布からサンプリングするコストを償却する。
多くのモデルや制約に対して、後部ノイズ空間はデータ空間よりも滑らかであり、償却推論により適している。
論文 参考訳(メタデータ) (2025-02-10T19:49:54Z) - Theory on Score-Mismatched Diffusion Models and Zero-Shot Conditional Samplers [49.97755400231656]
本報告では,明示的な次元の一般スコアミスマッチ拡散サンプリング器を用いた最初の性能保証について述べる。
その結果, スコアミスマッチは, 目標分布とサンプリング分布の分布バイアスとなり, 目標分布とトレーニング分布の累積ミスマッチに比例することがわかった。
この結果は、測定ノイズに関係なく、任意の条件モデルに対するゼロショット条件付きサンプリングに直接適用することができる。
論文 参考訳(メタデータ) (2024-10-17T16:42:12Z) - Inverse Entropic Optimal Transport Solves Semi-supervised Learning via Data Likelihood Maximization [72.69498649272347]
条件分布は機械学習の中心的な問題です
ペアデータとペアデータの両方を統合する新しいパラダイムを提案する。
提案手法は任意の誤差で理論上真の条件分布を復元可能であることを示す。
論文 参考訳(メタデータ) (2024-10-03T16:12:59Z) - A Sharp Convergence Theory for The Probability Flow ODEs of Diffusion Models [45.60426164657739]
拡散型サンプリング器の非漸近収束理論を開発する。
我々は、$d/varepsilon$がターゲット分布を$varepsilon$トータル偏差距離に近似するのに十分であることを証明した。
我々の結果は、$ell$のスコア推定誤差がデータ生成プロセスの品質にどのように影響するかも特徴付ける。
論文 参考訳(メタデータ) (2024-08-05T09:02:24Z) - Scaling Laws in Linear Regression: Compute, Parameters, and Data [86.48154162485712]
無限次元線形回帰セットアップにおけるスケーリング法則の理論について検討する。
テストエラーの再現可能な部分は$Theta(-(a-1) + N-(a-1)/a)$であることを示す。
我々の理論は経験的ニューラルスケーリング法則と一致し、数値シミュレーションによって検証される。
論文 参考訳(メタデータ) (2024-06-12T17:53:29Z) - Amortizing intractable inference in diffusion models for vision, language, and control [89.65631572949702]
本稿では,p(mathbfx)$以前の拡散生成モデルとブラックボックス制約,あるいは関数$r(mathbfx)$からなるモデルにおいて,データ上の後部サンプルである $mathbfxsim prm post(mathbfx)propto p(mathbfx)r(mathbfx)$について検討する。
我々は,データフリー学習目標である相対軌道バランスの正しさを,サンプルから抽出した拡散モデルの訓練のために証明する。
論文 参考訳(メタデータ) (2024-05-31T16:18:46Z) - Generative inpainting of incomplete Euclidean distance matrices of trajectories generated by a fractional Brownian motion [46.1232919707345]
フラクショナルブラウン運動(fBm)はランダム性と強いスケールフリーの相関を特徴とする。
本稿では, 劣化した画像の特定のデータセット上で, 拡散に基づく塗布方法の動物園について検討する。
条件拡散生成は、異なるメモリ状態におけるfBmパスの組込み相関を容易に再現する。
論文 参考訳(メタデータ) (2024-04-10T14:22:16Z) - A Note on the Convergence of Denoising Diffusion Probabilistic Models [3.1767625261233046]
拡散モデルにより得られたデータ生成分布と分布との間のワッサーシュタイン距離の定量的上限を導出する。
この分野でのこれまでの研究とは異なり、我々の結果は学習したスコア関数を仮定しない。
論文 参考訳(メタデータ) (2023-12-10T20:29:58Z) - Nearly $d$-Linear Convergence Bounds for Diffusion Models via Stochastic
Localization [40.808942894229325]
データ次元において線形である第1収束境界を提供する。
拡散モデルは任意の分布を近似するために少なくとも$tilde O(fracd log2(1/delta)varepsilon2)$ stepsを必要とすることを示す。
論文 参考訳(メタデータ) (2023-08-07T16:01:14Z) - Class-Balancing Diffusion Models [57.38599989220613]
クラスバランシング拡散モデル(CBDM)は、分散調整正規化器をソリューションとして訓練する。
提案手法は,CIFAR100/CIFAR100LTデータセットで生成結果をベンチマークし,下流認識タスクにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2023-04-30T20:00:14Z) - Diffusion Models are Minimax Optimal Distribution Estimators [49.47503258639454]
拡散モデリングの近似と一般化能力について、初めて厳密な分析を行った。
実密度関数がベソフ空間に属し、経験値整合損失が適切に最小化されている場合、生成したデータ分布は、ほぼ最小の最適推定値が得られることを示す。
論文 参考訳(メタデータ) (2023-03-03T11:31:55Z) - Universality laws for Gaussian mixtures in generalized linear models [22.154969876570238]
一般化線形推定器の族(Theta_1, dots, Theta_M)の合同統計について検討する。
これにより、トレーニングや一般化エラーなど、異なる量の興味の普遍性を証明できる。
我々は,本研究の結果を,アンサンブルや不確実性など,興味のあるさまざまな機械学習タスクに応用することについて議論する。
論文 参考訳(メタデータ) (2023-02-17T15:16:06Z) - Are Gaussian data all you need? Extents and limits of universality in
high-dimensional generalized linear estimation [24.933476324230377]
単一インデックスモデルによるラベル付きガウス混合データに対する一般化線形推定の問題点を考察する。
一般線形推定におけるテストとトレーニングエラーの普遍性に関する最近の結果のストリームに触発されて、我々は自問自答する。
論文 参考訳(メタデータ) (2023-02-17T14:56:40Z) - Data thinning for convolution-closed distributions [2.299914829977005]
本稿では,観測を2つ以上の独立した部分に分割する手法であるデータ薄型化を提案する。
教師なし学習手法の結果の検証には,データの薄化が有効であることを示す。
論文 参考訳(メタデータ) (2023-01-18T02:47:41Z) - Statistical Hypothesis Testing Based on Machine Learning: Large
Deviations Analysis [15.605887551756933]
機械学習(ML)分類手法の性能、特に誤差確率がゼロに収束する速度について検討する。
例えば $sim expleft(-n,I + o(n) right) のように指数関数的に消滅する誤差確率を示すMLの数学的条件を提供する。
言い換えれば、分類誤差確率はゼロに収束し、その速度はトレーニング用に利用可能なデータセットの一部で計算できる。
論文 参考訳(メタデータ) (2022-07-22T08:30:10Z) - Diffusion models as plug-and-play priors [98.16404662526101]
我々は、事前の$p(mathbfx)$と補助的な制約である$c(mathbfx,mathbfy)$からなるモデルにおいて、高次元データ$mathbfx$を推論する問題を考える。
拡散モデルの構造は,異なるノイズ量に富んだ定性デノナイジングネットワークを通じて,微分を反復することで近似推論を行うことができる。
論文 参考訳(メタデータ) (2022-06-17T21:11:36Z) - Gaussian Universality of Linear Classifiers with Random Labels in
High-Dimension [24.503842578208268]
高次元における生成モデルから得られるデータは、ガウスデータと対応するデータ共分散の最小限の訓練損失を持つことを示す。
特に,同質なガウス雲と多モード生成ニューラルネットワークの任意の混合によって生成されたデータについて述べる。
論文 参考訳(メタデータ) (2022-05-26T12:25:24Z) - A Robust and Flexible EM Algorithm for Mixtures of Elliptical
Distributions with Missing Data [71.9573352891936]
本稿では、ノイズや非ガウス的なデータに対するデータ計算の欠如に対処する。
楕円分布と潜在的な欠落データを扱う特性を混合した新しいEMアルゴリズムについて検討した。
合成データの実験的結果は,提案アルゴリズムが外れ値に対して頑健であり,非ガウスデータで使用可能であることを示す。
論文 参考訳(メタデータ) (2022-01-28T10:01:37Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。