Fugu-MT 論文翻訳(概要): Concentration of Measure for Distributions Generated via Diffusion Models

論文の概要: Concentration of Measure for Distributions Generated via Diffusion Models

arxiv url: http://arxiv.org/abs/2501.07741v2
Date: Tue, 25 Feb 2025 01:15:46 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-26 17:42:44.743037
Title: Concentration of Measure for Distributions Generated via Diffusion Models
Title（参考訳）: 拡散モデルによる分布の測定値の集中
Authors: Reza Ghane, Anthony Bao, Danil Akhtiamov, Babak Hassibi,
Abstract要約: 本研究では,拡散モデルから抽出したデータ分布が測定値の濃度を満たすことを示す数学的議論と経験的証拠を組み合わせることにより,実験結果を示す。このことは、そのようなモデルは極めて制限的であり、従来の拡散モデルでは「重い尾の」データを取得できないという文献で以前に観察された事実を説明できることを意味している。
参考スコア（独自算出の注目度）: 16.868125342684603
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We show via a combination of mathematical arguments and empirical evidence that data distributions sampled from diffusion models satisfy a Concentration of Measure Property saying that any Lipschitz $1$-dimensional projection of a random vector is not too far from its mean with high probability. This implies that such models are quite restrictive and gives an explanation for a fact previously observed in the literature that conventional diffusion models cannot capture "heavy-tailed" data (i.e. data $\mathbf{x}$ for which the norm $\|\mathbf{x}\|_2$ does not possess a sub-Gaussian tail) well. We then proceed to train a generalized linear model using stochastic gradient descent (SGD) on the diffusion-generated data for a multiclass classification task and observe empirically that a Gaussian universality result holds for the test error. In other words, the test error depends only on the first and second order statistics of the diffusion-generated data in the linear setting. Results of such forms are desirable because they allow one to assume the data itself is Gaussian for analyzing performance of the trained classifier. Finally, we note that current approaches to proving universality do not apply to this case as the covariance matrices of the data tend to have vanishing minimum singular values for the diffusion-generated data, while the current proofs assume that this is not the case (see Subsection 3.4 for more details). This leaves extending previous mathematical universality results as an intriguing open question.
Abstract（参考訳）: 拡散モデルからサンプリングされたデータ分布が、任意のランダムベクトルの1ドル3次元射影が、その平均値から高い確率でそれほど遠くないという測度特性の濃度を満たすという、数学的議論と経験的証拠の組み合わせによって示される。このことは、そのようなモデルは極めて制限的であり、従来の拡散モデルでは「重い尾を持つ」データ(つまり、ノルム $\|\mathbf{x}\|_2$ が亜ガウスの尾を持たないようなデータ $\mathbf{x}$)を取得できないという文献で以前に見られた事実を説明できる。次に、多クラス分類タスクの拡散生成データに基づいて確率勾配勾配勾配(SGD)を用いて一般化線形モデルを訓練し、ガウス普遍性結果がテスト誤差に対して成り立つことを実証的に観察する。言い換えれば、テストエラーは線形設定における拡散生成データの1階と2階の統計にのみ依存する。このような形式の結果が望ましいのは、訓練された分類器の性能を分析するために、データ自体がガウス的であると仮定できるからである。最後に、データの共分散行列が拡散生成データに対して最小特異値を失う傾向にあるため、現在の普遍性を証明するためのアプローチは、このケースには適用されないことに留意する。このことは、過去の数学的普遍性の結果を興味深いオープンな問題として拡張することを残している。

関連論文リスト

Understanding Generalization in Diffusion Models via Probability Flow Distance [7.675910526644439]
分布一般化を測定するために確率フロー距離(texttPFD$)を導入する。拡散モデルにおけるいくつかの重要な一般化挙動を経験的に明らかにする。
論文参考訳（メタデータ） (2025-05-26T15:23:50Z)
Resolving Memorization in Empirical Diffusion Model for Manifold Data in High-Dimensional Spaces [5.716752583983991]
データ分布がn個の点からなる場合、経験的拡散モデルは既存のデータ点を再現する傾向がある。本研究は,経験的拡散シミュレーションの最後に慣性更新を適用することで,記憶の問題を解くことができることを示す。このモデルから得られたサンプルの分布は、次元$d$の$C2$多様体上の真のデータ分布を、位数$O(n-frac2d+4)$のWasserstein-1距離内で近似することを示した。
論文参考訳（メタデータ） (2025-05-05T09:40:41Z)
Theory on Score-Mismatched Diffusion Models and Zero-Shot Conditional Samplers [49.97755400231656]
本報告では,明示的な次元の一般スコアミスマッチ拡散サンプリング器を用いた最初の性能保証について述べる。その結果, スコアミスマッチは, 目標分布とサンプリング分布の分布バイアスとなり, 目標分布とトレーニング分布の累積ミスマッチに比例することがわかった。この結果は、測定ノイズに関係なく、任意の条件モデルに対するゼロショット条件付きサンプリングに直接適用することができる。
論文参考訳（メタデータ） (2024-10-17T16:42:12Z)
Amortizing intractable inference in diffusion models for vision, language, and control [89.65631572949702]
本稿では,p(mathbfx)$以前の拡散生成モデルとブラックボックス制約,あるいは関数$r(mathbfx)$からなるモデルにおいて,データ上の後部サンプルである $mathbfxsim prm post(mathbfx)propto p(mathbfx)r(mathbfx)$について検討する。我々は,データフリー学習目標である相対軌道バランスの正しさを,サンプルから抽出した拡散モデルの訓練のために証明する。
論文参考訳（メタデータ） (2024-05-31T16:18:46Z)
Generative inpainting of incomplete Euclidean distance matrices of trajectories generated by a fractional Brownian motion [46.1232919707345]
フラクショナルブラウン運動(fBm)はランダム性と強いスケールフリーの相関を特徴とする。本稿では, 劣化した画像の特定のデータセット上で, 拡散に基づく塗布方法の動物園について検討する。条件拡散生成は、異なるメモリ状態におけるfBmパスの組込み相関を容易に再現する。
論文参考訳（メタデータ） (2024-04-10T14:22:16Z)
A Note on the Convergence of Denoising Diffusion Probabilistic Models [3.1767625261233046]
拡散モデルにより得られたデータ生成分布と分布との間のワッサーシュタイン距離の定量的上限を導出する。この分野でのこれまでの研究とは異なり、我々の結果は学習したスコア関数を仮定しない。
論文参考訳（メタデータ） (2023-12-10T20:29:58Z)
Nearly $d$-Linear Convergence Bounds for Diffusion Models via Stochastic Localization [40.808942894229325]
データ次元において線形である第1収束境界を提供する。拡散モデルは任意の分布を近似するために少なくとも$tilde O(fracd log2(1/delta)varepsilon2)$ stepsを必要とすることを示す。
論文参考訳（メタデータ） (2023-08-07T16:01:14Z)
Class-Balancing Diffusion Models [57.38599989220613]
クラスバランシング拡散モデル(CBDM)は、分散調整正規化器をソリューションとして訓練する。提案手法は,CIFAR100/CIFAR100LTデータセットで生成結果をベンチマークし,下流認識タスクにおいて優れた性能を示す。
論文参考訳（メタデータ） (2023-04-30T20:00:14Z)
Diffusion Models are Minimax Optimal Distribution Estimators [49.47503258639454]
拡散モデリングの近似と一般化能力について、初めて厳密な分析を行った。実密度関数がベソフ空間に属し、経験値整合損失が適切に最小化されている場合、生成したデータ分布は、ほぼ最小の最適推定値が得られることを示す。
論文参考訳（メタデータ） (2023-03-03T11:31:55Z)
Are Gaussian data all you need? Extents and limits of universality in high-dimensional generalized linear estimation [24.933476324230377]
単一インデックスモデルによるラベル付きガウス混合データに対する一般化線形推定の問題点を考察する。一般線形推定におけるテストとトレーニングエラーの普遍性に関する最近の結果のストリームに触発されて、我々は自問自答する。
論文参考訳（メタデータ） (2023-02-17T14:56:40Z)
Data thinning for convolution-closed distributions [2.299914829977005]
本稿では,観測を2つ以上の独立した部分に分割する手法であるデータ薄型化を提案する。教師なし学習手法の結果の検証には,データの薄化が有効であることを示す。
論文参考訳（メタデータ） (2023-01-18T02:47:41Z)
Gaussian Universality of Linear Classifiers with Random Labels in High-Dimension [24.503842578208268]
高次元における生成モデルから得られるデータは、ガウスデータと対応するデータ共分散の最小限の訓練損失を持つことを示す。特に,同質なガウス雲と多モード生成ニューラルネットワークの任意の混合によって生成されたデータについて述べる。
論文参考訳（メタデータ） (2022-05-26T12:25:24Z)
A Robust and Flexible EM Algorithm for Mixtures of Elliptical Distributions with Missing Data [71.9573352891936]
本稿では、ノイズや非ガウス的なデータに対するデータ計算の欠如に対処する。楕円分布と潜在的な欠落データを扱う特性を混合した新しいEMアルゴリズムについて検討した。合成データの実験的結果は,提案アルゴリズムが外れ値に対して頑健であり,非ガウスデータで使用可能であることを示す。
論文参考訳（メタデータ） (2022-01-28T10:01:37Z)
Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文参考訳（メタデータ） (2020-06-22T21:12:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。