論文の概要: The critical slowing down in diffusion models
- arxiv url: http://arxiv.org/abs/2605.12597v2
- Date: Wed, 20 May 2026 15:46:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.20039
- Title: The critical slowing down in diffusion models
- Title(参考訳): 拡散モデルにおける臨界減速
- Authors: Luca Maria Del Bono, Giulio Biroli, Patrick Charbonneau, Marylou Gabrié,
- Abstract要約: パラメータ学習において,正確な解と一致する1層ネットワークアーキテクチャを用いてスコアモデルをトレーニングすると,パラメータ学習における臨界速度低下の一形態が示される。
この速度低下は生成過程にも影響し、学習された生成モデルでさえ、臨界点近くをサンプリングすることのよく知られた困難さが持続することを示している。
2層アーキテクチャを使用することで、システムサイズを2次的にではなく、対数的にスケールするトレーニング時間によって、致命的な遅延を劇的に削減できることがわかった。
- 参考スコア(独自算出の注目度): 8.207196072624464
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Computational sampling has been central to the sciences since the mid-20th century. While machine-learning-based approaches have recently enabled major advances, their behavior remains poorly understood, with limited theoretical control over when and why they succeed. Here we provide such insight for diffusion models-a class of generative schemes highly effective in practice-by analyzing their application to the $O(n)$ model of statistical field theory in the Gaussian limit $n \to \infty$. In this analytically tractable setting, we show that training a score model with a one-layer network architecture matching the exact solution exhibits a form of critical slowing down in parameter learning. This slowing down also impacts the generation process, indicating that the well-known difficulties of sampling near criticality persist even for learned generative models. To overcome this bottleneck, we demonstrate the power of combining architectural depth with physical locality. We find that using a two-layer architecture drastically reduces the critical slowing down, with the training time scaling logarithmically rather than quadratically with system size. By introducing a local score approximation we show that this acceleration in training time can be achieved without increasing the number of neural network parameters. Taken together, these results demonstrate that diffusion models can overcome the critical slowing down through appropriate architectural design, and establish a controlled framework for understanding and improving learned sampling methods in statistical physics and beyond.
- Abstract(参考訳): 計算サンプリングは20世紀中頃から科学の中心となっている。
機械学習に基づくアプローチは、最近大きな進歩を可能にしたが、その振る舞いは理解されていないままであり、いつ、なぜ成功するかに関する理論的な制御は限られている。
ガウス極限$n \to \infty$ における統計場理論の $O(n)$ モデルへの応用を分析することによって、そのような拡散モデルに対する洞察を与える。
本稿では, パラメータ学習において, 正確な解と一致する1層ネットワークアーキテクチャを用いてスコアモデルのトレーニングを行うことにより, パラメータ学習における臨界速度低下の一形態が示されることを示す。
この減速は生成過程にも影響し、学習された生成モデルでさえ、臨界点近くをサンプリングすることのよく知られた困難さが持続することを示している。
このボトルネックを克服するために、アーキテクチャの深さと物理的局所性を組み合わせる力を示す。
2層アーキテクチャを使用することで、システムサイズを2次的にではなく、対数的にスケールするトレーニング時間によって、致命的な遅延を劇的に削減できることがわかった。
局所的なスコア近似を導入することで、ニューラルネットワークパラメータの数を増やすことなく、トレーニング時間のこの加速度を達成できることが示される。
これらの結果は、拡散モデルが適切なアーキテクチャ設計を通じて臨界減速を克服し、統計物理学等における学習されたサンプリング手法の理解と改善のための制御された枠組みを確立することを実証する。
関連論文リスト
- On Neural Scaling Laws for Weather Emulation through Continual Training [76.70310203875866]
我々はScientific Machine Learningにおけるニューラルスケーリングについて研究し、天気予報モデルに焦点を当てた。
可能な限り簡単な設定でスケーリング動作を解析するために、最小限でスケーラブルで汎用的なSwin Transformerアーキテクチャを採用する。
この最小限の方法でトレーニングされたモデルは、予測可能なスケーリングトレンドに従っており、標準的なコサイン学習率のスケジュールよりも優れています。
論文 参考訳(メタデータ) (2026-03-26T17:37:25Z) - Certified Neural Approximations of Nonlinear Dynamics [51.01318247729693]
安全クリティカルな文脈では、神経近似の使用は、基礎となるシステムとの密接性に公式な境界を必要とする。
本稿では,認証された一階述語モデルに基づく新しい,適応的で並列化可能な検証手法を提案する。
論文 参考訳(メタデータ) (2025-05-21T13:22:20Z) - Architecture-Aware Learning Curve Extrapolation via Graph Ordinary Differential Equation [33.63030304318472]
本稿では,学習曲線を連続的に予測するアーキテクチャを考慮したニューラル微分方程式モデルを提案する。
我々のモデルは、純粋な時系列モデリングとCNNベースの学習曲線の両方に対して、最先端の学習曲線法および補間アプローチより優れている。
論文 参考訳(メタデータ) (2024-12-20T04:28:02Z) - Adv-KD: Adversarial Knowledge Distillation for Faster Diffusion Sampling [2.91204440475204]
拡散確率モデル(DPM)は、深層生成モデルの強力なクラスとして登場した。
それらは、サンプル生成中にシーケンシャルなデノイングステップに依存している。
モデルアーキテクチャに直接位相を分解する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-31T08:19:44Z) - Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察
ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。
圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文 参考訳(メタデータ) (2023-06-28T18:14:22Z) - Continual Learning Beyond a Single Model [28.130513524601145]
そこで本研究では,アンサンブルモデルを用いることで,連続的な性能向上を図った。
本稿では,単一モデルに類似した実行時間を持つ計算コストの低いアルゴリズムを提案し,アンサンブルの性能上の利点を享受する。
論文 参考訳(メタデータ) (2022-02-20T14:30:39Z) - Closed-form Continuous-Depth Models [99.40335716948101]
連続深度ニューラルモデルは高度な数値微分方程式解法に依存している。
我々は,CfCネットワークと呼ばれる,記述が簡単で,少なくとも1桁高速な新しいモデル群を提示する。
論文 参考訳(メタデータ) (2021-06-25T22:08:51Z) - Balancing Accuracy and Latency in Multipath Neural Networks [0.09668407688201358]
我々は,一発のニューラルネットワーク探索モデルを用いて,難解な数のニューラルネットワークの性能を暗黙的に評価する。
本手法は,待ち時間が異なるモデル間の相対性能を正確にモデル化し,異なるデータセットをまたいだ精度で未検出モデルの性能を予測できることを示す。
論文 参考訳(メタデータ) (2021-04-25T00:05:48Z) - An Ode to an ODE [78.97367880223254]
我々は、O(d) 群上の行列フローに応じて主フローの時間依存パラメータが進化する ODEtoODE と呼ばれるニューラルODE アルゴリズムの新しいパラダイムを提案する。
この2つの流れのネストされたシステムは、訓練の安定性と有効性を提供し、勾配の消滅・爆発問題を確実に解決する。
論文 参考訳(メタデータ) (2020-06-19T22:05:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。