論文の概要: Why Diffusion Models Don't Memorize: The Role of Implicit Dynamical Regularization in Training
- arxiv url: http://arxiv.org/abs/2505.17638v1
- Date: Fri, 23 May 2025 08:58:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.939633
- Title: Why Diffusion Models Don't Memorize: The Role of Implicit Dynamical Regularization in Training
- Title(参考訳): 拡散モデルが記憶しない理由--トレーニングにおける過度な動的規則化の役割
- Authors: Tony Bonnaire, Raphaël Urfin, Giulio Biroli, Marc Mézard,
- Abstract要約: 一般化から記憶への移行におけるトレーニングダイナミクスの役割について検討する。
私たちは、$tau_mathrmmem$がトレーニングセットサイズ$n$で線形的に増加するのに対して、$tau_mathrmgen$は一定であることに気付きました。
n$がモデル依存しきい値よりも大きくなると、無限のトレーニング時間でオーバーフィットが消える。
- 参考スコア(独自算出の注目度): 8.824077990271503
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models have achieved remarkable success across a wide range of generative tasks. A key challenge is understanding the mechanisms that prevent their memorization of training data and allow generalization. In this work, we investigate the role of the training dynamics in the transition from generalization to memorization. Through extensive experiments and theoretical analysis, we identify two distinct timescales: an early time $\tau_\mathrm{gen}$ at which models begin to generate high-quality samples, and a later time $\tau_\mathrm{mem}$ beyond which memorization emerges. Crucially, we find that $\tau_\mathrm{mem}$ increases linearly with the training set size $n$, while $\tau_\mathrm{gen}$ remains constant. This creates a growing window of training times with $n$ where models generalize effectively, despite showing strong memorization if training continues beyond it. It is only when $n$ becomes larger than a model-dependent threshold that overfitting disappears at infinite training times. These findings reveal a form of implicit dynamical regularization in the training dynamics, which allow to avoid memorization even in highly overparameterized settings. Our results are supported by numerical experiments with standard U-Net architectures on realistic and synthetic datasets, and by a theoretical analysis using a tractable random features model studied in the high-dimensional limit.
- Abstract(参考訳): 拡散モデルは、広範囲な生成タスクで顕著な成功を収めた。
重要な課題は、トレーニングデータの記憶を防ぎ、一般化を可能にするメカニズムを理解することである。
本研究では,一般化から記憶への移行におけるトレーニングダイナミクスの役割について検討する。
より広範な実験と理論解析により、モデルが高品質なサンプルを生成し始める早期の $\tau_\mathrm{gen}$ と、暗記が現れる後の $\tau_\mathrm{mem}$ の2つの異なる時間尺度を同定する。
重要なことに、$\tau_\mathrm{mem}$ はトレーニングセットサイズ $n$ で線型的に増加するのに対して、$\tau_\mathrm{gen}$ は定数である。
これにより、トレーニングが継続しても強い記憶を示すにもかかわらず、モデルが効果的に一般化する、$n$でトレーニング時間が増加する。
n$がモデル依存しきい値よりも大きくなると、無限のトレーニング時間でオーバーフィットが消える。
これらの結果から,過度なパラメータ設定でも暗黙的動的正則化を回避できる,訓練力学における暗黙的動的正則化の形式が明らかになった。
本研究は,現実的および合成的データセット上での標準U-Netアーキテクチャを用いた数値実験と,高次元極限で研究された抽出可能なランダム特徴量モデルを用いた理論的解析により支援された。
関連論文リスト
- In-Context Linear Regression Demystified: Training Dynamics and Mechanistic Interpretability of Multi-Head Softmax Attention [52.159541540613915]
本研究では,マルチヘッド型ソフトマックスアテンションモデルを用いて,線形データを用いたコンテキスト内学習を行う方法について検討する。
この結果から,学習内容の学習能力は,そのアーキテクチャと基礎となるデータ分布の集約的効果として,訓練されたトランスフォーマーから出現することが明らかとなった。
論文 参考訳(メタデータ) (2025-03-17T02:00:49Z) - Data-Augmented Predictive Deep Neural Network: Enhancing the extrapolation capabilities of non-intrusive surrogate models [0.5735035463793009]
本稿では、カーネル動的モード分解(KDMD)を用いて、畳み込みオートエンコーダ(CAE)のエンコーダ部が生成する潜伏空間のダイナミクスを進化させる新しいディープラーニングフレームワークを提案する。
KDMD-decoder-extrapolated dataを元のデータセットに追加した後、この拡張データを用いてフィードフォワードディープニューラルネットワークと共にCAEをトレーニングする。
トレーニングされたネットワークは、トレーニング外のパラメータサンプルでトレーニング時間間隔外の将来の状態を予測できる。
論文 参考訳(メタデータ) (2024-10-17T09:26:14Z) - A Dynamical Model of Neural Scaling Laws [79.59705237659547]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。
我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文 参考訳(メタデータ) (2024-02-02T01:41:38Z) - Characterizing Datapoints via Second-Split Forgetting [93.99363547536392]
我々は、オリジナルのトレーニング例が忘れられた後(もしあれば)のエポックを追跡する補足的メトリックである$$-second-$split$$forgetting$$$time$ (SSFT)を提案する。
例えば$mislabeled$の例はすぐに忘れられ、$rare$の例は比較的ゆっくりと忘れられています。
SSFTは、(i)間違ったラベル付きサンプルを識別し、その除去により一般化が向上し、(ii)障害モードに関する洞察を提供する。
論文 参考訳(メタデータ) (2022-10-26T21:03:46Z) - Analysis of feature learning in weight-tied autoencoders via the mean
field lens [3.553493344868413]
平均場フレームワークにおける2層重み付き非線形オートエンコーダのクラスを解析する。
勾配降下で訓練されたモデルでは平均場制限ダイナミクスが認められる。
実生活データに関する実験は、この理論と興味深い一致を示した。
論文 参考訳(メタデータ) (2021-02-16T18:58:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。