論文の概要: Are We Really Learning the Score Function? Reinterpreting Diffusion Models Through Wasserstein Gradient Flow Matching
- arxiv url: http://arxiv.org/abs/2509.00336v1
- Date: Sat, 30 Aug 2025 03:30:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.1841
- Title: Are We Really Learning the Score Function? Reinterpreting Diffusion Models Through Wasserstein Gradient Flow Matching
- Title(参考訳): スコア関数は本当に学習されているか? Wasserstein Gradient Flow Matching による拡散モデルの再解釈
- Authors: An B. Vuong, Michael T. McCann, Javier E. Santos, Yen Ting Lin,
- Abstract要約: トレーニングされた拡散ネットワークが真のスコア関数に必要な積分的制約と微分的制約の両方に反することを示す。
拡散学習は、WGF(Wasserstein Gradient Flow)の流速場に適合する流れとして理解されている。
本研究は, 拡散生成モデルを理解するための原理的, エレガント, 理論的基礎的な枠組みとしてWGFの観点を採用することを提唱する。
- 参考スコア(独自算出の注目度): 6.821102133726069
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models are commonly interpreted as learning the score function, i.e., the gradient of the log-density of noisy data. However, this assumption implies that the target of learning is a conservative vector field, which is not enforced by the neural network architectures used in practice. We present numerical evidence that trained diffusion networks violate both integral and differential constraints required of true score functions, demonstrating that the learned vector fields are not conservative. Despite this, the models perform remarkably well as generative mechanisms. To explain this apparent paradox, we advocate a new theoretical perspective: diffusion training is better understood as flow matching to the velocity field of a Wasserstein Gradient Flow (WGF), rather than as score learning for a reverse-time stochastic differential equation. Under this view, the "probability flow" arises naturally from the WGF framework, eliminating the need to invoke reverse-time SDE theory and clarifying why generative sampling remains successful even when the neural vector field is not a true score. We further show that non-conservative errors from neural approximation do not necessarily harm density transport. Our results advocate for adopting the WGF perspective as a principled, elegant, and theoretically grounded framework for understanding diffusion generative models.
- Abstract(参考訳): 拡散モデルは一般に、スコア関数、すなわちノイズデータの対数密度の勾配を学ぶものとして解釈される。
しかし、この仮定は、学習の対象が保守的なベクトル場であり、実際にはニューラルネットワークアーキテクチャによって強制されないことを意味している。
本稿では、学習されたベクトル場が保守的でないことを示すため、訓練された拡散ネットワークが真のスコア関数に必要な積分的制約と微分的制約の両方に違反することを示す。
それにもかかわらず、モデルは非常に優れた生成機構として機能する。
拡散トレーニングは、逆時間確率微分方程式のスコア学習よりも、WGF(Wasserstein Gradient Flow)の速度場に一致する流れとして理解されている。
この観点では、「確率フロー」はWGFフレームワークから自然に発生し、逆時間SDE理論を呼び出す必要性を排除し、ニューラルベクトル場が真のスコアではない場合でもなぜ生成的サンプリングが成功し続けるのかを明らかにする。
さらに,神経近似による非保存誤差が必ずしも密度輸送を損なわないことを示す。
本研究は, 拡散生成モデルを理解するための原理的, エレガント, 理論的基礎的な枠組みとしてWGFの観点を採用することを提唱する。
関連論文リスト
- Latent Schrodinger Bridge: Prompting Latent Diffusion for Fast Unpaired Image-to-Image Translation [58.19676004192321]
ノイズからの画像生成とデータからの逆変換の両方を可能にする拡散モデル (DM) は、強力な未ペア画像対イメージ(I2I)翻訳アルゴリズムにインスピレーションを与えている。
我々は、最小輸送コストの分布間の微分方程式(SDE)であるSchrodinger Bridges (SBs) を用いてこの問題に取り組む。
この観測に触発されて,SB ODE を予め訓練した安定拡散により近似する潜在シュロディンガー橋 (LSB) を提案する。
提案アルゴリズムは,従来のDMのコストをわずかに抑えながら,教師なし環境での競合的I2I翻訳を実現していることを示す。
論文 参考訳(メタデータ) (2024-11-22T11:24:14Z) - Amortizing intractable inference in diffusion models for vision, language, and control [89.65631572949702]
本稿では,p(mathbfx)$以前の拡散生成モデルとブラックボックス制約,あるいは関数$r(mathbfx)$からなるモデルにおいて,データ上の後部サンプルである $mathbfxsim prm post(mathbfx)propto p(mathbfx)r(mathbfx)$について検討する。
我々は,データフリー学習目標である相対軌道バランスの正しさを,サンプルから抽出した拡散モデルの訓練のために証明する。
論文 参考訳(メタデータ) (2024-05-31T16:18:46Z) - Unveil Conditional Diffusion Models with Classifier-free Guidance: A Sharp Statistical Theory [87.00653989457834]
条件付き拡散モデルは現代の画像合成の基礎となり、計算生物学や強化学習などの分野に広く応用されている。
経験的成功にもかかわらず、条件拡散モデルの理論はほとんど欠落している。
本稿では,条件拡散モデルを用いた分布推定の急激な統計的理論を提示することにより,ギャップを埋める。
論文 参考訳(メタデータ) (2024-03-18T17:08:24Z) - Theoretical Insights for Diffusion Guidance: A Case Study for Gaussian
Mixture Models [59.331993845831946]
拡散モデルは、所望の特性に向けてサンプル生成を操るために、スコア関数にタスク固有の情報を注入することの恩恵を受ける。
本稿では,ガウス混合モデルの文脈における拡散モデルに対する誘導の影響を理解するための最初の理論的研究を提供する。
論文 参考訳(メタデータ) (2024-03-03T23:15:48Z) - On gauge freedom, conservativity and intrinsic dimensionality estimation
in diffusion models [13.597551064547503]
拡散モデル(Diffusion model)は、高次元におけるサンプリング品質と密度推定の点で、近年顕著な性能を示す生成モデルである。
拡散モデルのオリジナルの定式化において、このベクトル場はスコア関数であると仮定される。
本研究では, 正確な密度推定と正確なサンプリングが, 保守的成分が真値と正確に等しい場合に達成されることを示す。
論文 参考訳(メタデータ) (2024-02-06T09:41:43Z) - Neural Sinkhorn Gradient Flow [11.4522103360875]
本稿では,ワッサーシュタイン勾配流の時間変化速度場をパラメータ化したニューラルシンクホーン勾配流(NSGF)モデルを提案する。
理論解析により, 試料径が無限大に大きくなるにつれて, 経験的近似の平均場限界は真の基礎速度場に収束することが示された。
高次元タスクにおけるモデル効率をさらに高めるために、二相NSGF++モデルが考案された。
論文 参考訳(メタデータ) (2024-01-25T10:44:50Z) - Diffusion Models are Minimax Optimal Distribution Estimators [49.47503258639454]
拡散モデリングの近似と一般化能力について、初めて厳密な分析を行った。
実密度関数がベソフ空間に属し、経験値整合損失が適切に最小化されている場合、生成したデータ分布は、ほぼ最小の最適推定値が得られることを示す。
論文 参考訳(メタデータ) (2023-03-03T11:31:55Z) - MonoFlow: Rethinking Divergence GANs via the Perspective of Wasserstein
Gradient Flows [34.795115757545915]
統合された生成モデリングフレームワーク、MonoFlowを紹介します。
私たちのフレームワークでは、まずMonoFlowのベクトルフィールドを取得する手順として、逆トレーニングを見ることができる。
また,変動発散最小化と逆行訓練の基本的な相違も明らかにした。
論文 参考訳(メタデータ) (2023-02-02T13:05:27Z) - Negative Flux Aggregation to Estimate Feature Attributions [15.411534490483495]
セキュリティや透明性の懸念が高まる中で、ディープニューラルネットワーク(DNN)の動作を理解する必要性が高まっている。
DNNの説明可能性を高めるために,分岐とフラックスを用いた予測課題に対する入力特徴の属性を推定する。
ベクトル解析における発散定理に着想を得て,新しい負フラックス凝集法(NeFLAG)の定式化と,帰属写像を推定するための効率的な近似アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-01-17T16:19:41Z) - Fast Sampling of Diffusion Models via Operator Learning [74.37531458470086]
我々は,拡散モデルのサンプリング過程を高速化するために,確率フロー微分方程式の効率的な解法であるニューラル演算子を用いる。
シーケンシャルな性質を持つ他の高速サンプリング手法と比較して、並列復号法を最初に提案する。
本稿では,CIFAR-10では3.78、ImageNet-64では7.83の最先端FIDを1モデル評価環境で達成することを示す。
論文 参考訳(メタデータ) (2022-11-24T07:30:27Z) - How Much is Enough? A Study on Diffusion Times in Score-based Generative
Models [76.76860707897413]
現在のベストプラクティスは、フォワードダイナミクスが既知の単純なノイズ分布に十分に近づくことを確実にするために大きなTを提唱している。
本稿では, 理想とシミュレーションされたフォワードダイナミクスのギャップを埋めるために補助モデルを用いて, 標準的な逆拡散過程を導出する方法について述べる。
論文 参考訳(メタデータ) (2022-06-10T15:09:46Z) - A Variational Perspective on Diffusion-Based Generative Models and Score
Matching [8.93483643820767]
連続時間生成拡散の確率推定のための変分フレームワークを導出する。
本研究は,プラグイン逆SDEの可能性の低い境界を最大化することと,スコアマッチング損失の最小化が等価であることを示す。
論文 参考訳(メタデータ) (2021-06-05T05:50:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。