論文の概要: Two Speeds of Learning: A Representation-Readout Decomposition of Grokking and Double Descent
- arxiv url: http://arxiv.org/abs/2605.27078v2
- Date: Thu, 28 May 2026 17:40:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:54.745549
- Title: Two Speeds of Learning: A Representation-Readout Decomposition of Grokking and Double Descent
- Title(参考訳): 学習の2つの速度:グロッキングとダブルディフレッシュの表現読み出し分解
- Authors: Chi-Ning Chou, Oscar Uzdelewicz, Neng-Chun Chiu, Yao-Yuan Yang, SueYeon Chung,
- Abstract要約: うまく文書化された2つの現象がこの図を複雑にしている: グルーキングでは、列車の損失は急速に減少し、試験性能は長い遅れの後のみ突然改善する。
我々は、エンコーダにおける表現学習と最終分類器における読み出し校正の2つの競合するプロセスを分析する。
表現-読み出し分解を広範囲のタスクやアーキテクチャにわたってグラッキングに適用すると、読み出しは開始前にトレインバイアス化されていることが分かる。
- 参考スコア(独自算出の注目度): 7.1799939083022695
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training loss and accuracy are the standard signals used to monitor generalization during deep neural network training. Two well-documented phenomena complicate this picture: in grokking, train loss falls rapidly while test performance improves abruptly only after a long delay; in epoch-wise double descent, train loss decreases monotonically while test loss or error rises and falls. Existing accounts are often task-specific, and a task-agnostic analysis framework for diagnosing and explaining these phenomena across realistic tasks and architectures is missing. We address this challenge by analyzing two competing processes that underlie learning dynamics: representation learning in the encoder and readout calibration in the final classifier. Using tools from representational geometry, neural tangent kernels, and linear probing, we show that both processes are active throughout training, with the fluctuations of their relative speed giving rise to seemingly anomalous generalization dynamics. Applying the representation-readout decomposition to grokking across a wide range of tasks and architectures, we find that the readout is train-biased before grokking onset, and representation learning is gradual but not absent, contrary to the lazy-to-rich account. The framework further provides diagnostic signatures distinguishing spurious from genuine generalization: in a previously reported MNIST grokking example and an epoch-wise double descent example, apparent delayed or non-monotone generalization is shown to arise from representation degradation and readout misalignment induced by non-standard training recipes. Together, these results establish the representation-readout decomposition as a top-down framework for understanding learning dynamics and revealing underlying algorithms for interpretability research.
- Abstract(参考訳): トレーニング損失と精度は、ディープニューラルネットワークトレーニング中の一般化を監視するのに使用される標準信号である。
2つのよく文書化された現象がこの図を複雑にしている: グルーキングでは、試験性能が長時間の遅延後にのみ突然改善されながら、列車の損失が急速に減少し、エポックな二重降下では、試験損失またはエラーが上昇し、単調に減少する。
既存のアカウントはタスク固有のものが多く、現実的なタスクやアーキテクチャでこれらの現象を診断し、説明するためのタスクに依存しない分析フレームワークが欠落している。
この課題は,エンコーダの表現学習と最終分類器の読み出し校正という,動的学習の基盤となる2つの競合プロセスを分析することで解決される。
表現幾何学,ニューラル・タンジェント・カーネル,線形探索などのツールを用いて,相対速度のゆらぎによって異常な一般化ダイナミクスが生じることを示す。
幅広いタスクやアーキテクチャを網羅する表現読み出し分解を適用すると、読み出しは開始前に列車バイアスがかかり、表現学習は段階的ではあるが、遅延からリッチな説明に反して欠落していないことが分かる。
以前に報告されたMNISTグルーキング例およびエポシカルな二重降下例では、非標準のトレーニングレシピによって引き起こされる表現劣化と読み出しミスアライメントから明らかな遅延または非モノトン一般化が生じることが示される。
これらの結果は,学習力学を理解し,解釈可能性研究の基盤となるアルゴリズムを明らかにするためのトップダウンフレームワークとして,表現可読分解を確立した。
関連論文リスト
- Explaining Grokking and Information Bottleneck through Neural Collapse Emergence [33.22494588674352]
本稿では,グルーキングの統一的な説明と,神経崩壊のレンズによる情報ボトルネック原理について述べる。
本研究では,集団の集団間分散の縮小が,情報ボトルネックとグルーキングの両根底にある重要な要因であることを示す。
神経崩壊のダイナミクスを解析することにより、トレーニングセットの適合と神経崩壊の進行の間に異なる時間スケールが、後期現象の挙動に関係していることが示される。
論文 参考訳(メタデータ) (2025-09-25T07:17:41Z) - A Two-Phase Perspective on Deep Learning Dynamics [0.0]
深層ニューラルネットワークの学習は、高速な曲線フィッティングフェーズと、低速な圧縮または粗粒化フェーズの2段階に進むことを提案する。
私たちは、関連する時間スケールが2つのかなり異なる設定で一致していることを実証的に示します。
第2フェーズは、標準的なトレーニングアルゴリズムによって積極的に最適化されておらず、不要に長期化される可能性がある、と我々は主張する。
論文 参考訳(メタデータ) (2025-04-17T06:57:37Z) - Exact, Tractable Gauss-Newton Optimization in Deep Reversible Architectures Reveal Poor Generalization [52.16435732772263]
多くのアプリケーションにおいて、ディープニューラルネットワークのトレーニングを加速する2階最適化が示されている。
しかし、二階法の一般化特性についてはいまだ議論が続いている。
我々は、Gauss-Newton (GN) の正確な更新が、ディープアーキテクチャのクラスにおいて、牽引可能な形式を取ることを初めて示す。
論文 参考訳(メタデータ) (2024-11-12T17:58:40Z) - The Right Time Matters: Data Arrangement Affects Zero-Shot Generalization in Instruction Tuning [86.19804569376333]
インストラクションチューニングにおいてゼロショットの一般化は非常に早い段階で起こることを示す。
より基礎的なトレーニングデータアレンジメントフレームワークであるテスト中心型マルチターンアレンジメントを提案する。
論文 参考訳(メタデータ) (2024-06-17T16:40:21Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - Learning Dynamics and Generalization in Reinforcement Learning [59.530058000689884]
時間差学習は, エージェントが訓練の初期段階において, 値関数の非平滑成分を適合させるのに役立つことを理論的に示す。
本研究では,高密度報酬タスクの時間差アルゴリズムを用いて学習したニューラルネットワークが,ランダムなネットワークや政策手法で学習した勾配ネットワークよりも,状態間の一般化が弱いことを示す。
論文 参考訳(メタデータ) (2022-06-05T08:49:16Z) - Multi-scale Feature Learning Dynamics: Insights for Double Descent [71.91871020059857]
一般化誤差の「二重降下」現象について検討する。
二重降下は、異なるスケールで学習される異なる特徴に起因する可能性がある。
論文 参考訳(メタデータ) (2021-12-06T18:17:08Z) - When and how epochwise double descent happens [7.512375012141203]
急激な二重降下効果は、一般化誤差が最初は減少し、その後上昇し、最終的にトレーニング時間の増加とともに再び低下する。
このことは、訓練に要する時間の長さが長く、検証性能に基づく早期停止が準最適一般化をもたらすという現実的な問題である。
本研究は, 急激な二重降下は騒音発生に要するが, 第2の臨界騒音レベル以上の早期停止は有効であることを示す。
論文 参考訳(メタデータ) (2021-08-26T19:19:17Z) - Implicit Bias of Gradient Descent for Wide Two-layer Neural Networks
Trained with the Logistic Loss [0.0]
勾配に基づく手法によるロジスティック(クロスエントロピー)損失を最小限に抑えるために訓練されたニューラルネットワークは、多くの教師付き分類タスクでうまく機能する。
我々は、均一な活性化を伴う無限に広い2層ニューラルネットワークのトレーニングと一般化の挙動を解析する。
論文 参考訳(メタデータ) (2020-02-11T15:42:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。