論文の概要: Model Capacity Determines Grokking through Competing Memorisation and Generalisation Speeds
- arxiv url: http://arxiv.org/abs/2605.09724v1
- Date: Sun, 10 May 2026 19:47:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.392884
- Title: Model Capacity Determines Grokking through Competing Memorisation and Generalisation Speeds
- Title(参考訳): 競合記憶と一般化速度によるグラッキングのモデル容量決定
- Authors: Yiding Song, Hanming Ye,
- Abstract要約: モデルキャパシティの変形に関する情報理論について述べる。
モデルがトレーニングセットを記憶できるほど大きくなったら、グルーキングはすぐには起こりません。
本稿では,モデルキャパシティとデータセットの複雑さを考慮した記憶速度の予測実験モデルを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Existing accounts of grokking explain the phenomena in terms of mechanistic frameworks such as circuit efficiency or lazy-to-rich transitions. However, despite a known dependence between grokking and model size, how model capacity shapes grokking remains an open question. We give an information-theoretic account of this relationship on the task of modular arithmetic, showing that grokking does not immediately occur when a model becomes large enough to memorise the training set, but rather emerges as the outcome of a competition between two measurable timescales: a memorisation speed $T_{\text{mem}}(P)$ and a generalisation speed $T_{\text{gen}}(P)$, both of which are functions of model parameter count $P$. Adapting the information capacity framework of Morris et al. (2025), we estimate $T_{\text{mem}}(P)$ on random-label data of equivalent complexity and $T_{\text{gen}}(P)$ on the modular task itself, and show that grokking emerges close to the parameter scale where these timescales intersect. The framework also suggests an empirical model for predicting memorisation speed given model capacity and dataset complexity, recovering the previously reported empirical observation that larger models memorise faster. Overall, we motivate the formalisation of different learning timescales as important abstractions to study when explaining how model capacity shapes grokking on algorithmic tasks.
- Abstract(参考訳): 既存のグルーキングの記述では、回路効率や遅延からリッチへの移行のような力学の枠組みでこの現象を説明する。
しかし、グラッキングとモデルサイズの間には既知の依存があるにもかかわらず、モデルキャパシティがグラキングをどのように形作るかは未解決の問題である。
我々は、モジュラー演算のタスクにおいて、この関係に関する情報理論的な説明を行い、モデルがトレーニングセットを記憶するのに十分な大きさになったときにグラッキングが発生するのではなく、2つの測定可能なタイムスケールの競合の結果として現れることを示す。
Morris et al (2025) の情報キャパシティフレームワークに適合して、等価な複雑性のランダムラベルデータに$T_{\text{mem}}(P)$とモジュラータスク自体に$T_{\text{gen}}(P)$を推定し、これらの時間スケールが交わるパラメータスケールにグルーキングが近いことを示す。
このフレームワークはまた、モデルキャパシティとデータセットの複雑さが与えられた場合の記憶速度を予測するための経験的モデルを提案し、より大きなモデルの方がより速く記憶できるという経験的観察を回復した。
全体として,学習時間尺度の形式化は,モデルキャパシティがアルゴリズム的なタスクでどのように変形するかを説明する上で,重要な抽象化となる。
関連論文リスト
- Memory Caching: RNNs with Growing Memory [56.25483647131372]
メモリ状態(隠された状態)のチェックポイントをキャッシュすることで、リカレントモデルを強化する技術であるメモリキャッシュ(MC)を導入する。
我々は,ゲートアグリゲーションとスパース選択機構を含むMCの4つの変種を提案し,それらが線形メモリモジュールおよび深部メモリモジュールに与える影響について議論する。
その結果,トランスフォーマーの精度は高いが,我々のMC変種は競争性能を示し,トランスフォーマーとのギャップを埋め,最先端のリカレントモデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2026-02-27T18:53:41Z) - MemMamba: Rethinking Memory Patterns in State Space Model [6.537535831000493]
マンバのような選択的状態空間モデルは O(n) 時間と O(1) 繰り返しの推論で高い効率性を示すが、その長距離メモリは指数関数的に崩壊する。
長文読解時の塩分情報の蒸留・保存方法に着想を得て,MemMambaを提案する。
MemMambaは、長期間のベンチマークで既存のMambaとTransformerよりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-09-28T14:40:58Z) - LimiX: Unleashing Structured-Data Modeling Capability for Generalist Intelligence [61.46575527504109]
LimiX-16MとLimiX-2Mは、構造化されたデータを変数と欠落に対する共同分布として扱う。
サンプルサイズ,特徴次元,クラス数,カテゴリ間特徴比,欠落度,サンプル-特徴比の広い11種類の大規模構造化データベンチマークを対象としたLimiXモデルの評価を行った。
論文 参考訳(メタデータ) (2025-09-03T17:39:08Z) - Beyond Memorization: Extending Reasoning Depth with Recurrence, Memory and Test-Time Compute Scaling [60.63703438729223]
異なるアーキテクチャとトレーニング手法がモデル多段階推論能力にどのように影響するかを示す。
我々は,逐次計算においてモデル深度の増加が重要な役割を担っていることを確認した。
論文 参考訳(メタデータ) (2025-08-22T18:57:08Z) - Too Big to Think: Capacity, Memorization, and Generalization in Pre-Trained Transformers [0.0]
大規模言語モデルにおける記憶と一般化の関係について検討する。
小さなモデルは未確認の算術の場合に外挿するが、事実を記憶できないが、大きなモデルは記憶するが外挿することができない。
調査の結果、事前学習は本質的に他の学習モードよりも1つの学習モードを好む可能性が示唆された。
論文 参考訳(メタデータ) (2025-06-10T14:49:33Z) - Why Diffusion Models Don't Memorize: The Role of Implicit Dynamical Regularization in Training [5.939780039158003]
一般化から記憶への移行におけるトレーニングダイナミクスの役割について検討する。
私たちは、$tau_mathrmmem$がトレーニングセットサイズ$n$で線形的に増加するのに対して、$tau_mathrmgen$は一定であることに気付きました。
n$がモデル依存しきい値よりも大きくなると、無限のトレーニング時間でオーバーフィットが消える。
論文 参考訳(メタデータ) (2025-05-23T08:58:47Z) - Causal Estimation of Memorisation Profiles [58.20086589761273]
言語モデルにおける記憶の理解は、実践的および社会的意味を持つ。
覚書化(英: Memorisation)とは、モデルがそのインスタンスを予測できる能力に対して、あるインスタンスでトレーニングを行うことによる因果的影響である。
本稿では,計量学の差分差分設計に基づく,新しい,原理的,効率的な記憶推定法を提案する。
論文 参考訳(メタデータ) (2024-06-06T17:59:09Z) - Low-Rank Constraints for Fast Inference in Structured Models [110.38427965904266]
この研究は、大規模構造化モデルの計算とメモリの複雑さを低減するための単純なアプローチを示す。
言語モデリング,ポリフォニック・ミュージック・モデリング,教師なし文法帰納法,ビデオ・モデリングのためのニューラルパラメータ構造モデルを用いた実験により,我々の手法は大規模状態空間における標準モデルの精度と一致することを示した。
論文 参考訳(メタデータ) (2022-01-08T00:47:50Z) - Convolutional Tensor-Train LSTM for Spatio-temporal Learning [116.24172387469994]
本稿では,ビデオシーケンスの長期相関を効率的に学習できる高次LSTMモデルを提案する。
これは、時間をかけて畳み込み特徴を組み合わせることによって予測を行う、新しいテンソルトレインモジュールによって達成される。
この結果は,幅広いアプリケーションやデータセットにおいて,最先端のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-02-21T05:00:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。