Fugu-MT 論文翻訳(概要): Where to find Grokking in LLM Pretraining? Monitor Memorization-to-Generalization without Test

論文の概要: Where to find Grokking in LLM Pretraining? Monitor Memorization-to-Generalization without Test

arxiv url: http://arxiv.org/abs/2506.21551v1
Date: Thu, 26 Jun 2025 17:59:58 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-27 19:53:10.246991
Title: Where to find Grokking in LLM Pretraining? Monitor Memorization-to-Generalization without Test
Title（参考訳）: LLM予修におけるグローキングの発見法 : テストなしのメモリ・トゥ・ジェネレーションの監視
Authors: Ziyue Li, Chenrui Fan, Tianyi Zhou,
Abstract要約: 7B大言語モデル(LLM)の1パス事前学習(OLMoE)におけるチェックポイントのグルーキングに関する最初の研究を行う。我々の研究は、大規模な基礎モデルの事前学習において、グルーキングが依然として発生していることを初めて確認した。経路距離と1つの経路の複雑さを定量化する2つの新しい指標を開発した。
参考スコア（独自算出の注目度）: 19.213961869113188
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Grokking, i.e., test performance keeps improving long after training loss converged, has been recently witnessed in neural network training, making the mechanism of generalization and other emerging capabilities such as reasoning mysterious. While prior studies usually train small models on a few toy or highly-specific tasks for thousands of epochs, we conduct the first study of grokking on checkpoints during one-pass pretraining of a 7B large language model (LLM), i.e., OLMoE. We compute the training loss and evaluate generalization on diverse benchmark tasks, including math reasoning, code generation, and commonsense/domain-specific knowledge retrieval tasks. Our study, for the first time, verifies that grokking still happens in the pretraining of large-scale foundation models, though different data may enter grokking stages asynchronously. We further demystify grokking's "emergence of generalization" by investigating LLM internal dynamics. Specifically, we find that training samples' pathways (i.e., expert choices across layers) evolve from random, instance-specific to more structured and shareable between samples during grokking. Also, the complexity of a sample's pathway reduces despite the converged loss. These indicate a memorization-to-generalization conversion, providing a mechanistic explanation of delayed generalization. In the study, we develop two novel metrics to quantify pathway distance and the complexity of a single pathway. We show their ability to predict the generalization improvement on diverse downstream tasks. They are efficient, simple to compute and solely dependent on training data. Hence, they have practical value for pretraining, enabling us to monitor the generalization performance without finetuning and test. Theoretically, we show that more structured pathways reduce model complexity and improve the generalization bound.
Abstract（参考訳）: グロキング(Grokking)、すなわち、トレーニング損失が収束した後、テストパフォーマンスは長く改善し続ける。先行研究は通常、何千ものエポックに対して、いくつかのおもちゃや高度に特定されたタスクで小さなモデルを訓練するが、我々は7B大言語モデル(LLM)の1パス前訓練(OLMoE)でチェックポイントをグルークする最初の研究を行う。トレーニング損失を計算し、数学推論、コード生成、コモンセンス/ドメイン固有の知識検索タスクを含む様々なベンチマークタスクの一般化を評価する。我々の研究は、大規模な基礎モデルの事前学習において、グルーキングが依然として発生していることを初めて確認するが、異なるデータが非同期にグルーキングステージに入る可能性がある。 LLMの内部力学を解明することにより、グラッキングの「一般化の創発」をさらに解明する。具体的には、トレーニングサンプルの経路(すなわち、層間の専門家の選択)が、グルーキング中にランダムにインスタンス固有のものからより構造化され、サンプル間で共有できるものへと進化していることが分かる。また、サンプル経路の複雑さは、収束損失にもかかわらず減少する。これらは記憶から一般化への変換を示し、遅延一般化の力学的な説明を与える。本研究では,経路距離と単一経路の複雑さを定量化する2つの新しい指標を開発した。下流タスクにおける一般化改善の予測能力を示す。これらは効率的で計算が簡単で、トレーニングデータにのみ依存する。したがって、事前学習には実用的価値があり、微調整やテストを行うことなく、一般化性能を監視できる。理論的には、より構造化された経路はモデルの複雑さを減らし、一般化境界を改善する。

関連論文リスト

Grokking Explained: A Statistical Phenomenon [4.113597666007784]
グローキング(英: Grokking)または遅延一般化(英: delay generalization)は、モデルのトレーニングセットの損失が収束した後のみ、テストセットの損失が急激に減少する興味深い学習現象である。本稿では,グルーキングを定式化し,その出現の鍵となる要素がトレーニングデータとテストデータ間の分散シフトであることを示す。
論文参考訳（メタデータ） (2025-02-03T19:28:11Z)
Exact, Tractable Gauss-Newton Optimization in Deep Reversible Architectures Reveal Poor Generalization [52.16435732772263]
多くのアプリケーションにおいて、ディープニューラルネットワークのトレーニングを加速する2階最適化が示されている。しかし、二階法の一般化特性についてはいまだ議論が続いている。我々は、Gauss-Newton (GN) の正確な更新が、ディープアーキテクチャのクラスにおいて、牽引可能な形式を取ることを初めて示す。
論文参考訳（メタデータ） (2024-11-12T17:58:40Z)
What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文参考訳（メタデータ） (2024-11-12T09:52:40Z)
The Right Time Matters: Data Arrangement Affects Zero-Shot Generalization in Instruction Tuning [86.19804569376333]
インストラクションチューニングにおいてゼロショットの一般化は非常に早い段階で起こることを示す。より基礎的なトレーニングデータアレンジメントフレームワークであるテスト中心型マルチターンアレンジメントを提案する。
論文参考訳（メタデータ） (2024-06-17T16:40:21Z)
Theoretical Characterization of the Generalization Performance of Overfitted Meta-Learning [70.52689048213398]
本稿では,ガウス的特徴を持つ線形回帰モデルの下で,過剰適合型メタラーニングの性能について検討する。シングルタスク線形回帰には存在しない新しい興味深い性質が見つかる。本分析は,各訓練課題における基礎的真理のノイズや多様性・変動が大きい場合には,良心過剰がより重要かつ容易に観察できることを示唆する。
論文参考訳（メタデータ） (2023-04-09T20:36:13Z)
Learning Curves for Sequential Training of Neural Networks: Self-Knowledge Transfer and Forgetting [9.734033555407406]
我々は,タスクからタスクまでの目標関数を継続的に学習するニューラルネットワークをニューラルネットワークとして検討する。モデルが複数のタスクで同じターゲット関数を学習する連続学習の変種について検討する。同じターゲットであっても、トレーニングされたモデルは、各タスクのサンプルサイズに応じて、何らかの転送と忘れを見せる。
論文参考訳（メタデータ） (2021-12-03T00:25:01Z)
What training reveals about neural network complexity [80.87515604428346]
この研究は、ディープニューラルネットワーク(NN)が学習している関数の複雑さは、トレーニング中にその重みがどれほど速く変化するかによって推定できるという仮説を探求する。我々の結果は、優れた訓練行動が良い一般化への有用なバイアスとなるという仮説を支持している。
論文参考訳（メタデータ） (2021-06-08T08:58:00Z)
Double Descent and Other Interpolation Phenomena in GANs [2.7007335372861974]
生成逆数ネットワーク(GAN)における潜在空間次元の関数としての一般化誤差について検討する。そこで我々は,実出力サンプルと組み合わせて,一対の合成(雑音)入力を利用するGANのための新しい擬似教師付き学習手法を開発した。解析は主に線形モデルに焦点をあてるが、非線形多層GANの一般化に重要な洞察を与える。
論文参考訳（メタデータ） (2021-06-07T23:07:57Z)
Exploring Memorization in Adversarial Training [58.38336773082818]
本稿では, 能力, 収束, 一般化, 特に強靭なオーバーフィッティングの深い理解を促進するための, 対人訓練(AT)における記憶効果について検討する。本稿では,詳細な記憶分析を動機とした新たな緩和アルゴリズムを提案する。
論文参考訳（メタデータ） (2021-06-03T05:39:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。