論文の概要: Where to find Grokking in LLM Pretraining? Monitor Memorization-to-Generalization without Test
- arxiv url: http://arxiv.org/abs/2506.21551v1
- Date: Thu, 26 Jun 2025 17:59:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:10.246991
- Title: Where to find Grokking in LLM Pretraining? Monitor Memorization-to-Generalization without Test
- Title(参考訳): LLM予修におけるグローキングの発見法 : テストなしのメモリ・トゥ・ジェネレーションの監視
- Authors: Ziyue Li, Chenrui Fan, Tianyi Zhou,
- Abstract要約: 7B大言語モデル(LLM)の1パス事前学習(OLMoE)におけるチェックポイントのグルーキングに関する最初の研究を行う。
我々の研究は、大規模な基礎モデルの事前学習において、グルーキングが依然として発生していることを初めて確認した。
経路距離と1つの経路の複雑さを定量化する2つの新しい指標を開発した。
- 参考スコア(独自算出の注目度): 19.213961869113188
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Grokking, i.e., test performance keeps improving long after training loss converged, has been recently witnessed in neural network training, making the mechanism of generalization and other emerging capabilities such as reasoning mysterious. While prior studies usually train small models on a few toy or highly-specific tasks for thousands of epochs, we conduct the first study of grokking on checkpoints during one-pass pretraining of a 7B large language model (LLM), i.e., OLMoE. We compute the training loss and evaluate generalization on diverse benchmark tasks, including math reasoning, code generation, and commonsense/domain-specific knowledge retrieval tasks. Our study, for the first time, verifies that grokking still happens in the pretraining of large-scale foundation models, though different data may enter grokking stages asynchronously. We further demystify grokking's "emergence of generalization" by investigating LLM internal dynamics. Specifically, we find that training samples' pathways (i.e., expert choices across layers) evolve from random, instance-specific to more structured and shareable between samples during grokking. Also, the complexity of a sample's pathway reduces despite the converged loss. These indicate a memorization-to-generalization conversion, providing a mechanistic explanation of delayed generalization. In the study, we develop two novel metrics to quantify pathway distance and the complexity of a single pathway. We show their ability to predict the generalization improvement on diverse downstream tasks. They are efficient, simple to compute and solely dependent on training data. Hence, they have practical value for pretraining, enabling us to monitor the generalization performance without finetuning and test. Theoretically, we show that more structured pathways reduce model complexity and improve the generalization bound.
- Abstract(参考訳): グロキング(Grokking)、すなわち、トレーニング損失が収束した後、テストパフォーマンスは長く改善し続ける。
先行研究は通常、何千ものエポックに対して、いくつかのおもちゃや高度に特定されたタスクで小さなモデルを訓練するが、我々は7B大言語モデル(LLM)の1パス前訓練(OLMoE)でチェックポイントをグルークする最初の研究を行う。
トレーニング損失を計算し、数学推論、コード生成、コモンセンス/ドメイン固有の知識検索タスクを含む様々なベンチマークタスクの一般化を評価する。
我々の研究は、大規模な基礎モデルの事前学習において、グルーキングが依然として発生していることを初めて確認するが、異なるデータが非同期にグルーキングステージに入る可能性がある。
LLMの内部力学を解明することにより、グラッキングの「一般化の創発」をさらに解明する。
具体的には、トレーニングサンプルの経路(すなわち、層間の専門家の選択)が、グルーキング中にランダムにインスタンス固有のものからより構造化され、サンプル間で共有できるものへと進化していることが分かる。
また、サンプル経路の複雑さは、収束損失にもかかわらず減少する。
これらは記憶から一般化への変換を示し、遅延一般化の力学的な説明を与える。
本研究では,経路距離と単一経路の複雑さを定量化する2つの新しい指標を開発した。
下流タスクにおける一般化改善の予測能力を示す。
これらは効率的で計算が簡単で、トレーニングデータにのみ依存する。
したがって、事前学習には実用的価値があり、微調整やテストを行うことなく、一般化性能を監視できる。
理論的には、より構造化された経路はモデルの複雑さを減らし、一般化境界を改善する。
関連論文リスト
- Grokking Explained: A Statistical Phenomenon [4.113597666007784]
グローキング(英: Grokking)または遅延一般化(英: delay generalization)は、モデルのトレーニングセットの損失が収束した後のみ、テストセットの損失が急激に減少する興味深い学習現象である。
本稿では,グルーキングを定式化し,その出現の鍵となる要素がトレーニングデータとテストデータ間の分散シフトであることを示す。
論文 参考訳(メタデータ) (2025-02-03T19:28:11Z) - Exact, Tractable Gauss-Newton Optimization in Deep Reversible Architectures Reveal Poor Generalization [52.16435732772263]
多くのアプリケーションにおいて、ディープニューラルネットワークのトレーニングを加速する2階最適化が示されている。
しかし、二階法の一般化特性についてはいまだ議論が続いている。
我々は、Gauss-Newton (GN) の正確な更新が、ディープアーキテクチャのクラスにおいて、牽引可能な形式を取ることを初めて示す。
論文 参考訳(メタデータ) (2024-11-12T17:58:40Z) - What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。
モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文 参考訳(メタデータ) (2024-11-12T09:52:40Z) - The Right Time Matters: Data Arrangement Affects Zero-Shot Generalization in Instruction Tuning [86.19804569376333]
インストラクションチューニングにおいてゼロショットの一般化は非常に早い段階で起こることを示す。
より基礎的なトレーニングデータアレンジメントフレームワークであるテスト中心型マルチターンアレンジメントを提案する。
論文 参考訳(メタデータ) (2024-06-17T16:40:21Z) - What training reveals about neural network complexity [80.87515604428346]
この研究は、ディープニューラルネットワーク(NN)が学習している関数の複雑さは、トレーニング中にその重みがどれほど速く変化するかによって推定できるという仮説を探求する。
我々の結果は、優れた訓練行動が良い一般化への有用なバイアスとなるという仮説を支持している。
論文 参考訳(メタデータ) (2021-06-08T08:58:00Z) - Double Descent and Other Interpolation Phenomena in GANs [2.7007335372861974]
生成逆数ネットワーク(GAN)における潜在空間次元の関数としての一般化誤差について検討する。
そこで我々は,実出力サンプルと組み合わせて,一対の合成(雑音)入力を利用するGANのための新しい擬似教師付き学習手法を開発した。
解析は主に線形モデルに焦点をあてるが、非線形多層GANの一般化に重要な洞察を与える。
論文 参考訳(メタデータ) (2021-06-07T23:07:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。