論文の概要: A Two-Phase Perspective on Deep Learning Dynamics
- arxiv url: http://arxiv.org/abs/2504.12700v1
- Date: Thu, 17 Apr 2025 06:57:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-18 14:35:04.874109
- Title: A Two-Phase Perspective on Deep Learning Dynamics
- Title(参考訳): 深層学習のダイナミクスに関する二相的展望
- Authors: Robert de Mello Koch, Animik Ghosh,
- Abstract要約: 深層ニューラルネットワークの学習は、高速な曲線フィッティングフェーズと、低速な圧縮または粗粒化フェーズの2段階に進むことを提案する。
私たちは、関連する時間スケールが2つのかなり異なる設定で一致していることを実証的に示します。
第2フェーズは、標準的なトレーニングアルゴリズムによって積極的に最適化されておらず、不要に長期化される可能性がある、と我々は主張する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: We propose that learning in deep neural networks proceeds in two phases: a rapid curve fitting phase followed by a slower compression or coarse graining phase. This view is supported by the shared temporal structure of three phenomena: grokking, double descent and the information bottleneck, all of which exhibit a delayed onset of generalization well after training error reaches zero. We empirically show that the associated timescales align in two rather different settings. Mutual information between hidden layers and input data emerges as a natural progress measure, complementing circuit-based metrics such as local complexity and the linear mapping number. We argue that the second phase is not actively optimized by standard training algorithms and may be unnecessarily prolonged. Drawing on an analogy with the renormalization group, we suggest that this compression phase reflects a principled form of forgetting, critical for generalization.
- Abstract(参考訳): 深層ニューラルネットワークの学習は、高速な曲線フィッティングフェーズと、低速な圧縮または粗粒化フェーズの2段階に進むことを提案する。
この考え方は、3つの現象の共有時間構造(グラッキング、二重降下、および情報ボトルネック)によって支持され、これら全ては訓練誤差がゼロになった後に一般化の遅れが現れる。
私たちは、関連する時間スケールが2つのかなり異なる設定で一致していることを実証的に示します。
隠れた層と入力データの間の相互情報は、局所的な複雑さや線形写像数といった回路ベースのメトリクスを補完する自然な進展指標として現れる。
第2フェーズは、標準的なトレーニングアルゴリズムによって積極的に最適化されておらず、不要に長期化される可能性がある、と我々は主張する。
再正規化群と類似した図面を描いて、この圧縮位相は、一般化に不可欠な、忘れることの原則的な形式を反映していることを示唆する。
関連論文リスト
- Learning in PINNs: Phase transition, total diffusion, and generalization [1.8802875123957965]
勾配信号-雑音比(SNR)のレンズを用いた完全連結ニューラルネットワークの学習力学について検討する。
全拡散と呼ばれる第3相を同定する」。
本稿では,情報誘起圧縮現象を考察し,全拡散相におけるアクティベーションの顕著な圧縮を示唆する。
論文 参考訳(メタデータ) (2024-03-27T12:10:30Z) - A U-turn on Double Descent: Rethinking Parameter Counting in Statistical
Learning [68.76846801719095]
二重降下がいつどこで起こるのかを正確に示し、その位置が本質的に閾値 p=n に結び付けられていないことを示す。
これは二重降下と統計的直観の間の緊張を解消する。
論文 参考訳(メタデータ) (2023-10-29T12:05:39Z) - Gradient-Based Feature Learning under Structured Data [57.76552698981579]
異方性設定では、一般的に使用される球面勾配力学は真の方向を回復できないことがある。
バッチ正規化を連想させる適切な重み正規化は、この問題を軽減することができることを示す。
特に、スパイクモデルの下では、勾配に基づくトレーニングのサンプルの複雑さは情報指数とは独立にできる。
論文 参考訳(メタデータ) (2023-09-07T16:55:50Z) - Intensity Profile Projection: A Framework for Continuous-Time
Representation Learning for Dynamic Networks [50.2033914945157]
本稿では、連続時間動的ネットワークデータのための表現学習フレームワークIntensity Profile Projectionを提案する。
このフレームワークは3つの段階から構成される: 対の強度関数を推定し、強度再構成誤差の概念を最小化する射影を学習する。
さらに、推定軌跡の誤差を厳密に制御する推定理論を開発し、その表現がノイズに敏感な追従解析に利用できることを示す。
論文 参考訳(メタデータ) (2023-06-09T15:38:25Z) - Deep Double Descent via Smooth Interpolation [2.141079906482723]
我々は、各トレーニングポイントに局所的な入力変数に対する損失ランドスケープw.r.t.を研究することにより、トレーニングデータの適合性の鋭さを定量化する。
以上の結果から,入力空間における損失のシャープネスは,モデル・アンド・エポシカルな2重降下に追随することが明らかとなった。
小さな補間モデルはクリーンデータとノイズデータの両方に強く適合するが、大きな補間モデルは既存の直観とは対照的にスムーズなロスランドスケープを表現している。
論文 参考訳(メタデータ) (2022-09-21T02:46:13Z) - Multi-scale Feature Learning Dynamics: Insights for Double Descent [71.91871020059857]
一般化誤差の「二重降下」現象について検討する。
二重降下は、異なるスケールで学習される異なる特徴に起因する可能性がある。
論文 参考訳(メタデータ) (2021-12-06T18:17:08Z) - Double Descent Optimization Pattern and Aliasing: Caveats of Noisy
Labels [1.4424394176890545]
この研究は、小さなデータセットとノイズラベルで二重降下が発生することを確認した。
学習率の増大は、二重降下パターンを抑えることなく隠蔽するアナライザー効果を生じさせることを示した。
本研究は,脳波連続記録によるてんかん患者の事象の予測を現実の応用に翻訳したことを示す。
論文 参考訳(メタデータ) (2021-06-03T19:41:40Z) - Critical Parameters for Scalable Distributed Learning with Large Batches
and Asynchronous Updates [67.19481956584465]
飽和を伴う分散トレーニング(SGD)の効率は、バッチサイズと、実装における停滞に決定的に依存することが実験的に観察されている。
結果がタイトであることを示し、数値実験で重要な結果を示しています。
論文 参考訳(メタデータ) (2021-03-03T12:08:23Z) - A Convergence Theory Towards Practical Over-parameterized Deep Neural
Networks [56.084798078072396]
ネットワーク幅と収束時間の両方で既知の理論境界を大幅に改善することにより、理論と実践のギャップを埋める一歩を踏み出します。
本研究では, サンプルサイズが2次幅で, 両者の時間対数で線形なネットワークに対して, 地球最小値への収束が保証されていることを示す。
私たちの分析と収束境界は、いつでも合理的なサイズの同等のRELUネットワークに変換できる固定アクティベーションパターンを備えたサロゲートネットワークの構築によって導出されます。
論文 参考訳(メタデータ) (2021-01-12T00:40:45Z) - A Random Matrix Theory Approach to Damping in Deep Learning [0.7614628596146599]
深層学習における適応的勾配法と非適応的勾配法との違いは推定ノイズの増加に起因すると推測する。
線形縮退推定にインスパイアされた2次オプティマイザのためのランダム行列理論に基づくダンピング学習器を開発した。
論文 参考訳(メタデータ) (2020-11-15T18:19:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。