論文の概要: Bigger Isn't Always Memorizing: Early Stopping Overparameterized Diffusion Models
- arxiv url: http://arxiv.org/abs/2505.16959v1
- Date: Thu, 22 May 2025 17:40:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.51182
- Title: Bigger Isn't Always Memorizing: Early Stopping Overparameterized Diffusion Models
- Title(参考訳): Biggerが常に記憶しているわけではない: 過パラメータ拡散モデルの早期停止
- Authors: Alessandro Favero, Antonio Sclocchi, Matthieu Wyart,
- Abstract要約: 自然データ領域の一般化は、記憶の開始前に訓練中に徐々に達成される。
一般化対メモ化は、時間スケール間の競合として最もよく理解される。
この現象学は,確率論的文脈自由文法をランダムな規則で学習する拡散モデルにおいて復元されることを示す。
- 参考スコア(独自算出の注目度): 51.03144354630136
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion probabilistic models have become a cornerstone of modern generative AI, yet the mechanisms underlying their generalization remain poorly understood. In fact, if these models were perfectly minimizing their training loss, they would just generate data belonging to their training set, i.e., memorize, as empirically found in the overparameterized regime. We revisit this view by showing that, in highly overparameterized diffusion models, generalization in natural data domains is progressively achieved during training before the onset of memorization. Our results, ranging from image to language diffusion models, systematically support the empirical law that memorization time is proportional to the dataset size. Generalization vs. memorization is then best understood as a competition between time scales. We show that this phenomenology is recovered in diffusion models learning a simple probabilistic context-free grammar with random rules, where generalization corresponds to the hierarchical acquisition of deeper grammar rules as training time grows, and the generalization cost of early stopping can be characterized. We summarize these results in a phase diagram. Overall, our results support that a principled early-stopping criterion - scaling with dataset size - can effectively optimize generalization while avoiding memorization, with direct implications for hyperparameter transfer and privacy-sensitive applications.
- Abstract(参考訳): 拡散確率モデルは現代の生成AIの基盤となっているが、それらの一般化のメカニズムはいまだに理解されていない。
実際、もしこれらのモデルがトレーニングの損失を完全に最小化しているなら、単にトレーニングセットに属するデータ、すなわち、過度にパラメータ化された体制で実証的に見つかるように記憶するだけである。
我々は、高度にパラメータ化された拡散モデルにおいて、暗記の開始前に、訓練中に自然データ領域の一般化が徐々に達成されることを示すことによって、この見解を再考する。
その結果,画像から言語への拡散モデルに至るまで,記憶時間はデータセットサイズに比例する経験則を体系的に支持した。
一般化対メモ化は、時間スケール間の競合として最もよく理解される。
この現象学は, 学習時間の増加に伴い, より深い文法規則の階層的獲得に対応する確率論的文脈自由文法をランダムな規則で学習し, 早期停止の一般化コストを特徴付けることができる。
これらの結果は、フェーズダイアグラムで要約します。
全体として、私たちの結果は、原則化された早期停止基準 – データセットサイズによるスケーリング – が、ハイパーパラメータ転送やプライバシに敏感なアプリケーションに直接的な影響を与えることなく、メモリ化を回避しながら、効果的に一般化を最適化できることを支持しています。
関連論文リスト
- Generalization Capability for Imitation Learning [1.30536490219656]
模倣学習は、専門家によるデモンストレーションから学ぶことで、多芸なスキルを持つロボットを装備するという約束を果たす。
しかしながら、有限データセットで訓練されたポリシーは、トレーニング分布を超えた一般化に苦慮することが多い。
本稿では、情報理論とデータ分散特性の両方を基礎とした模倣学習の一般化能力に関する統一的な視点を示す。
論文 参考訳(メタデータ) (2025-04-25T17:59:59Z) - Causal Estimation of Memorisation Profiles [58.20086589761273]
言語モデルにおける記憶の理解は、実践的および社会的意味を持つ。
覚書化(英: Memorisation)とは、モデルがそのインスタンスを予測できる能力に対して、あるインスタンスでトレーニングを行うことによる因果的影響である。
本稿では,計量学の差分差分設計に基づく,新しい,原理的,効率的な記憶推定法を提案する。
論文 参考訳(メタデータ) (2024-06-06T17:59:09Z) - Skews in the Phenomenon Space Hinder Generalization in Text-to-Image Generation [59.138470433237615]
本稿では,関係学習用データセットの言語的スキューと視覚的スクリューの両方を定量化する統計指標を提案する。
系統的に制御されたメトリクスは、一般化性能を強く予測できることを示す。
この研究は、データの多様性やバランスを向上し、絶対的なサイズをスケールアップするための重要な方向を示します。
論文 参考訳(メタデータ) (2024-03-25T03:18:39Z) - A Temporally Disentangled Contrastive Diffusion Model for Spatiotemporal Imputation [35.46631415365955]
C$2$TSDという条件拡散フレームワークを導入する。
実世界の3つのデータセットに対する我々の実験は、最先端のベースラインと比較して、我々のアプローチの優れた性能を示している。
論文 参考訳(メタデータ) (2024-02-18T11:59:04Z) - Non-Vacuous Generalization Bounds for Large Language Models [78.42762571499061]
事前訓練された大言語モデルに対して、最初の空でない一般化境界を提供する。
より大きいモデルはより優れた一般化バウンダリを持ち、より小さなモデルよりも圧縮可能であることを示す。
論文 参考訳(メタデータ) (2023-12-28T17:58:42Z) - On Memorization in Diffusion Models [44.031805633114985]
より小さなデータセットでは記憶の挙動が生じる傾向があることを示す。
我々は、有効モデル記憶(EMM)の観点から、影響因子がこれらの記憶行動に与える影響を定量化する。
本研究は,拡散モデル利用者にとって実用的意義を持ち,深部生成モデルの理論研究の手がかりを提供する。
論文 参考訳(メタデータ) (2023-10-04T09:04:20Z) - On the Generalization of Diffusion Model [42.447639515467934]
生成したデータとトレーニングセットの相互情報によって測定される生成モデルの一般化を定義する。
実験的最適拡散モデルでは, 決定論的サンプリングによって生成されたデータは, すべてトレーニングセットに強く関連しており, 一般化が不十分であることを示す。
本稿では,経験的最適解が一般化問題を持たない別の学習目標を提案する。
論文 参考訳(メタデータ) (2023-05-24T04:27:57Z) - Generalization and Memorization: The Bias Potential Model [9.975163460952045]
生成モデルと密度推定器は、関数の学習モデルとは全く異なる振る舞いをする。
バイアスポテンシャルモデルでは、早期停止が採用された場合、次元非依存の一般化精度が達成可能であることを示す。
長期的には、モデルはサンプルを記憶するか、分岐させる。
論文 参考訳(メタデータ) (2020-11-29T04:04:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。