論文の概要: Are We Really Learning the Score Function? Reinterpreting Diffusion Models Through Wasserstein Gradient Flow Matching
- arxiv url: http://arxiv.org/abs/2509.00336v1
- Date: Sat, 30 Aug 2025 03:30:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.1841
- Title: Are We Really Learning the Score Function? Reinterpreting Diffusion Models Through Wasserstein Gradient Flow Matching
- Title(参考訳): スコア関数は本当に学習されているか? Wasserstein Gradient Flow Matching による拡散モデルの再解釈
- Authors: An B. Vuong, Michael T. McCann, Javier E. Santos, Yen Ting Lin,
- Abstract要約: トレーニングされた拡散ネットワークが真のスコア関数に必要な積分的制約と微分的制約の両方に反することを示す。
拡散学習は、WGF(Wasserstein Gradient Flow)の流速場に適合する流れとして理解されている。
本研究は, 拡散生成モデルを理解するための原理的, エレガント, 理論的基礎的な枠組みとしてWGFの観点を採用することを提唱する。
- 参考スコア(独自算出の注目度): 6.821102133726069
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models are commonly interpreted as learning the score function, i.e., the gradient of the log-density of noisy data. However, this assumption implies that the target of learning is a conservative vector field, which is not enforced by the neural network architectures used in practice. We present numerical evidence that trained diffusion networks violate both integral and differential constraints required of true score functions, demonstrating that the learned vector fields are not conservative. Despite this, the models perform remarkably well as generative mechanisms. To explain this apparent paradox, we advocate a new theoretical perspective: diffusion training is better understood as flow matching to the velocity field of a Wasserstein Gradient Flow (WGF), rather than as score learning for a reverse-time stochastic differential equation. Under this view, the "probability flow" arises naturally from the WGF framework, eliminating the need to invoke reverse-time SDE theory and clarifying why generative sampling remains successful even when the neural vector field is not a true score. We further show that non-conservative errors from neural approximation do not necessarily harm density transport. Our results advocate for adopting the WGF perspective as a principled, elegant, and theoretically grounded framework for understanding diffusion generative models.
- Abstract(参考訳): 拡散モデルは一般に、スコア関数、すなわちノイズデータの対数密度の勾配を学ぶものとして解釈される。
しかし、この仮定は、学習の対象が保守的なベクトル場であり、実際にはニューラルネットワークアーキテクチャによって強制されないことを意味している。
本稿では、学習されたベクトル場が保守的でないことを示すため、訓練された拡散ネットワークが真のスコア関数に必要な積分的制約と微分的制約の両方に違反することを示す。
それにもかかわらず、モデルは非常に優れた生成機構として機能する。
拡散トレーニングは、逆時間確率微分方程式のスコア学習よりも、WGF(Wasserstein Gradient Flow)の速度場に一致する流れとして理解されている。
この観点では、「確率フロー」はWGFフレームワークから自然に発生し、逆時間SDE理論を呼び出す必要性を排除し、ニューラルベクトル場が真のスコアではない場合でもなぜ生成的サンプリングが成功し続けるのかを明らかにする。
さらに,神経近似による非保存誤差が必ずしも密度輸送を損なわないことを示す。
本研究は, 拡散生成モデルを理解するための原理的, エレガント, 理論的基礎的な枠組みとしてWGFの観点を採用することを提唱する。
関連論文リスト
- Latent Schrodinger Bridge: Prompting Latent Diffusion for Fast Unpaired Image-to-Image Translation [58.19676004192321]
ノイズからの画像生成とデータからの逆変換の両方を可能にする拡散モデル (DM) は、強力な未ペア画像対イメージ(I2I)翻訳アルゴリズムにインスピレーションを与えている。
我々は、最小輸送コストの分布間の微分方程式(SDE)であるSchrodinger Bridges (SBs) を用いてこの問題に取り組む。
この観測に触発されて,SB ODE を予め訓練した安定拡散により近似する潜在シュロディンガー橋 (LSB) を提案する。
提案アルゴリズムは,従来のDMのコストをわずかに抑えながら,教師なし環境での競合的I2I翻訳を実現していることを示す。
論文 参考訳(メタデータ) (2024-11-22T11:24:14Z) - Amortizing intractable inference in diffusion models for vision, language, and control [89.65631572949702]
本稿では,p(mathbfx)$以前の拡散生成モデルとブラックボックス制約,あるいは関数$r(mathbfx)$からなるモデルにおいて,データ上の後部サンプルである $mathbfxsim prm post(mathbfx)propto p(mathbfx)r(mathbfx)$について検討する。
我々は,データフリー学習目標である相対軌道バランスの正しさを,サンプルから抽出した拡散モデルの訓練のために証明する。
論文 参考訳(メタデータ) (2024-05-31T16:18:46Z) - Unveil Conditional Diffusion Models with Classifier-free Guidance: A Sharp Statistical Theory [87.00653989457834]
条件付き拡散モデルは現代の画像合成の基礎となり、計算生物学や強化学習などの分野に広く応用されている。
経験的成功にもかかわらず、条件拡散モデルの理論はほとんど欠落している。
本稿では,条件拡散モデルを用いた分布推定の急激な統計的理論を提示することにより,ギャップを埋める。
論文 参考訳(メタデータ) (2024-03-18T17:08:24Z) - MonoFlow: Rethinking Divergence GANs via the Perspective of Wasserstein
Gradient Flows [34.795115757545915]
統合された生成モデリングフレームワーク、MonoFlowを紹介します。
私たちのフレームワークでは、まずMonoFlowのベクトルフィールドを取得する手順として、逆トレーニングを見ることができる。
また,変動発散最小化と逆行訓練の基本的な相違も明らかにした。
論文 参考訳(メタデータ) (2023-02-02T13:05:27Z) - Fast Sampling of Diffusion Models via Operator Learning [74.37531458470086]
我々は,拡散モデルのサンプリング過程を高速化するために,確率フロー微分方程式の効率的な解法であるニューラル演算子を用いる。
シーケンシャルな性質を持つ他の高速サンプリング手法と比較して、並列復号法を最初に提案する。
本稿では,CIFAR-10では3.78、ImageNet-64では7.83の最先端FIDを1モデル評価環境で達成することを示す。
論文 参考訳(メタデータ) (2022-11-24T07:30:27Z) - How Much is Enough? A Study on Diffusion Times in Score-based Generative
Models [76.76860707897413]
現在のベストプラクティスは、フォワードダイナミクスが既知の単純なノイズ分布に十分に近づくことを確実にするために大きなTを提唱している。
本稿では, 理想とシミュレーションされたフォワードダイナミクスのギャップを埋めるために補助モデルを用いて, 標準的な逆拡散過程を導出する方法について述べる。
論文 参考訳(メタデータ) (2022-06-10T15:09:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。