論文の概要: Adynamical systems view of training generativemodels and the memorization phenomenon
- arxiv url: http://arxiv.org/abs/2605.19483v1
- Date: Tue, 19 May 2026 07:34:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.189939
- Title: Adynamical systems view of training generativemodels and the memorization phenomenon
- Title(参考訳): 学習生成モデルと記憶現象の力学系からの考察
- Authors: Siva Athreya, Chiranjib Bhattacharya, Vivek S. Borkar,
- Abstract要約: 生成モデルにおける現象のシステム理論的な説明を与える。
具体的には、Austin [2016] の結果を用いて、勾配降下(SGD)の損失関数のスタイリングモデルを動機付けます。
これは当然、機械学習で一般的に使用される一定のステップサイズのSGDにおいて、2つの異なる時間スケールにつながる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Using recent works of one of the authors (VSB) on collapse in generative models and two time scale dynamics in stochastic gradient descent in high dimensions, we give a system theoretic explanation of the memorization phenomenon in generative models. This relies purely on the dynamic aspects of the training phase. Specifically, we use a result of Austin [2016] to motivate a stylized model for the loss function for stochastic gradient descent (SGD) wherein the loss function has a strong dependence on some variables and weak dependence on the rest in a precise sense. This naturally leads to two distinct time scales in the constant step size SGD that is commonly used in machine learning. This fact has been used to explain the double descent phenomenon in SGD in Borkar [2026]. In conjunction with a mathematical model for collapse phenomenon in SGD developed in Borkar [2025a], we analyze the constant step size SGD using the recent results of Azizian et al. [2024] in order to explain the phenomenon of memorization wherein a generative model that is concurrently being tuned yields the same or similar outputs for significant stretches of time. This gives a novel perspective on the aforementioned phenomena reported in machine learning literature and their interrelationships, using a dynamical systems viewpoint.
- Abstract(参考訳): 生成モデルの崩壊と、高次元の確率勾配降下における2つの時間スケールダイナミクスに関する最近の研究から、生成モデルにおける記憶現象の系理論的説明を与える。
これは純粋にトレーニングフェーズの動的な側面に依存します。
具体的には、Austin [2016] の結果を用いて、確率勾配降下(SGD)の損失関数のスタイリングモデルを動機付け、損失関数はいくつかの変数に強く依存し、残りの変数に正確な意味で弱い依存を持つ。
これは当然、機械学習で一般的に使用される一定のステップサイズのSGDにおいて、2つの異なる時間スケールにつながる。
この事実は、ボルカー[2026]におけるSGDの二重降下現象を説明するために用いられている。
ボルカール[2025a]で開発されたSGDの崩壊現象の数学的モデルと合わせて,Azizian et al[2024] の最近の結果を用いて,一定のステップサイズSGDを解析し,同時に調整された生成モデルが時間的に同じあるいは類似の出力を出力する記憶現象を説明する。
このことは、機械学習文学で報告された上記の現象とその相互関係について、力学系の観点からの新しい視点を与える。
関連論文リスト
- A dynamic view of some anomalous phenomena in SGD [0.0]
過度にパラメータ化されたニューラルネットワークは二重降下現象を示すことが観察されている。
もう一つの異常な現象は、下降の2つの規則が第3の規則によって中断され、平均的な損失はほぼ一定であるイットグロキングである。
本稿では、2つの時間スケール近似の理論を連続時間制限力学に適用することにより、これらの現象と関連する現象について、妥当な説明を示す。
論文 参考訳(メタデータ) (2025-05-03T09:01:10Z) - A U-turn on Double Descent: Rethinking Parameter Counting in Statistical
Learning [68.76846801719095]
二重降下がいつどこで起こるのかを正確に示し、その位置が本質的に閾値 p=n に結び付けられていないことを示す。
これは二重降下と統計的直観の間の緊張を解消する。
論文 参考訳(メタデータ) (2023-10-29T12:05:39Z) - Small-scale proxies for large-scale Transformer training instabilities [69.36381318171338]
我々は、小規模でトレーニングの安定性と不安定性を再現し、研究する方法を模索する。
学習速度とスケールによる損失の関係を計測することにより,これらの不安定性は,学習率の高いトレーニングにおいて,小さなモデルにも現れることを示す。
ウォームアップ,ウェイト崩壊,および$mu$Paramなどの手法を用いて,学習速度変化の桁数で同様の損失を被る小さなモデルを訓練する。
論文 参考訳(メタデータ) (2023-09-25T17:48:51Z) - Machine learning in and out of equilibrium [58.88325379746631]
我々の研究は、統計物理学から適応したフォッカー・プランク法を用いて、これらの平行線を探索する。
我々は特に、従来のSGDでは平衡が切れている長期的限界におけるシステムの定常状態に焦点を当てる。
本稿では,ミニバッチの置き換えを伴わない新しいランゲヴィンダイナミクス(SGLD)を提案する。
論文 参考訳(メタデータ) (2023-06-06T09:12:49Z) - SGD with Large Step Sizes Learns Sparse Features [22.959258640051342]
本稿では、ニューラルネットワークのトレーニングにおいて、グラディエント・ディフレッシュ(SGD)のダイナミクスの重要な特徴を紹介する。
より長いステップサイズでは、損失ランドスケープにおいてSGDは高く保たれ、暗黙の正規化がうまく機能し、スパース表現を見つけることができる。
論文 参考訳(メタデータ) (2022-10-11T11:00:04Z) - Multi-scale Feature Learning Dynamics: Insights for Double Descent [71.91871020059857]
一般化誤差の「二重降下」現象について検討する。
二重降下は、異なるスケールで学習される異なる特徴に起因する可能性がある。
論文 参考訳(メタデータ) (2021-12-06T18:17:08Z) - On the Generalization of Stochastic Gradient Descent with Momentum [84.54924994010703]
運動量に基づく勾配降下(SGD)の加速変種は、機械学習モデルを訓練する際に広く用いられる。
まず,標準重球運動量(SGDM)を持つSGDの複数のエポックに対する安定性ギャップが非有界となる凸損失関数が存在することを示す。
滑らかなリプシッツ損失関数に対しては、修正モーメントベースの更新規則、すなわち、幅広いステップサイズで初期運動量(SGDEM)を解析する。
論文 参考訳(メタデータ) (2018-09-12T17:02:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。