論文の概要: When Data Falls Short: Grokking Below the Critical Threshold
- arxiv url: http://arxiv.org/abs/2511.04760v1
- Date: Thu, 06 Nov 2025 19:18:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-10 21:00:44.567121
- Title: When Data Falls Short: Grokking Below the Critical Threshold
- Title(参考訳): データが短かったら-グローキングは危機的水準を下回る
- Authors: Vaibhav Singh, Eugene Belilovsky, Rahaf Aljundi,
- Abstract要約: 本研究では,学習データに過度に適合した後,モデルが一般化の遅れを示すグラッキング現象について検討する。
我々はまず,すでに分布 (p1) でグラクしたモデルからの知識蒸留 (KD) が,異なる分布 (p2) でグラクを誘導し,加速できることを示す。
次に, 共同分布の学習 (p1, p2) を行い, いずれの分布も不十分な場合, 標準教師付きトレーニングは失敗するが, 個々の分布にグルークされたモデルから蒸留することで一般化できることを示した。
- 参考スコア(独自算出の注目度): 21.974289057222133
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we investigate the phenomenon of grokking, where models exhibit delayed generalization following overfitting on training data. We focus on data-scarce regimes where the number of training samples falls below the critical threshold, making grokking unobservable, and on practical scenarios involving distribution shift. We first show that Knowledge Distillation (KD) from a model that has already grokked on a distribution (p1) can induce and accelerate grokking on a different distribution (p2), even when the available data lies below the critical threshold. This highlights the value of KD for deployed models that must adapt to new distributions under limited data. We then study training on the joint distribution (p1, p2) and demonstrate that while standard supervised training fails when either distribution has insufficient data, distilling from models grokked on the individual distributions enables generalization. Finally, we examine a continual pretraining setup, where a grokked model transitions from p1 to p2, and find that KD both accelerates generalization and mitigates catastrophic forgetting, achieving strong performance even with only 10% of the data. Together, our results provide new insights into the mechanics of grokking under knowledge transfer and underscore the central role of KD in enabling generalization in low-data and evolving distribution settings.
- Abstract(参考訳): 本稿では,学習データに過度に適合した後,モデルが一般化の遅れを示すグラッキング現象について検討する。
トレーニングサンプルの数がしきい値を下回り、グルーキングを観測不能にし、分散シフトを含む実践的なシナリオにフォーカスする。
我々はまず,すでに分布 (p1) でグラクしたモデルから得られた知識蒸留(KD)が,臨界しきい値以下であっても,異なる分布 (p2) でグラクを誘導し,加速することができることを示す。
これは、限られたデータの下で新しいディストリビューションに適応する必要があるデプロイモデルに対するKDの価値を強調します。
次に, 共同分布の学習 (p1, p2) を行い, いずれの分布も不十分な場合, 標準教師付きトレーニングは失敗するが, 個々の分布にグルークされたモデルから蒸留することで一般化できることを示した。
最後に, グラクテッドモデルがp1からp2に遷移する連続事前学習装置について検討し, KDが一般化を加速し, 破滅的な忘れを軽減し, データの10%に留まらず, 強靭な性能を実現していることを確認した。
この結果から,知識伝達下でのグルーキングのメカニズムに関する新たな知見が得られ,KDが低データおよび分散環境の一般化に果たす中心的な役割を浮き彫りにした。
関連論文リスト
- Distributional Training Data Attribution: What do Influence Functions Sample? [25.257922996567178]
分散学習データ属性(d-TDA)を導入する。
d-TDAの目標は、モデル出力の分布がデータセットに依存するかを予測することである。
影響関数 (IF) は「秘密分布」である。
論文 参考訳(メタデータ) (2025-06-15T21:02:36Z) - Grokking Explained: A Statistical Phenomenon [4.113597666007784]
グローキング(英: Grokking)または遅延一般化(英: delay generalization)は、モデルのトレーニングセットの損失が収束した後のみ、テストセットの損失が急激に減少する興味深い学習現象である。
本稿では,グルーキングを定式化し,その出現の鍵となる要素がトレーニングデータとテストデータ間の分散シフトであることを示す。
論文 参考訳(メタデータ) (2025-02-03T19:28:11Z) - Rejection via Learning Density Ratios [50.91522897152437]
拒絶による分類は、モデルを予測しないことを許容する学習パラダイムとして現れます。
そこで我々は,事前学習したモデルの性能を最大化する理想的なデータ分布を求める。
私たちのフレームワークは、クリーンでノイズの多いデータセットで実証的にテストされます。
論文 参考訳(メタデータ) (2024-05-29T01:32:17Z) - Consistent Diffusion Models: Mitigating Sampling Drift by Learning to be
Consistent [97.64313409741614]
本稿では, モデルが生成したデータ上での予測が時間とともに一定であることを示す, 両立性特性を強制することを提案する。
CIFAR-10の条件および非条件生成とAFHQとFFHQのベースライン改良について,本研究の新たな訓練目標が得られた。
論文 参考訳(メタデータ) (2023-02-17T18:45:04Z) - Proposal Distribution Calibration for Few-Shot Object Detection [65.19808035019031]
few-shot object detection (FSOD)では、重度のサンプル不均衡を軽減するために、2段階の訓練パラダイムが広く採用されている。
残念ながら、極端なデータ不足は、提案の分布バイアスを増大させ、RoIヘッドが新しいクラスに進化するのを妨げます。
本稿では,RoIヘッドのローカライゼーションと分類能力を高めるために,単純かつ効果的な提案分布キャリブレーション(PDC)手法を提案する。
論文 参考訳(メタデータ) (2022-12-15T05:09:11Z) - Learnable Distribution Calibration for Few-Shot Class-Incremental
Learning [122.2241120474278]
FSCIL(Few-shot class-incremental Learning)は、古いクラス分布を記憶し、少数のトレーニングサンプルから新しいクラス分布を推定するという課題に直面している。
本稿では,これら2つの課題を統一フレームワークを用いて体系的に解決することを目的とした,学習可能な分布校正手法を提案する。
論文 参考訳(メタデータ) (2022-10-01T09:40:26Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - How to Learn when Data Gradually Reacts to Your Model [10.074466859579571]
我々は,これらの効果が存在する場合でも,性能損失を最小限に抑えるための新しいアルゴリズム Stateful Performative Gradient Descent (Stateful PerfGD) を提案する。
実験の結果, Stateful PerfGD は従来の最先端手法よりもかなり優れていたことが確認された。
論文 参考訳(メタデータ) (2021-12-13T22:05:26Z) - Robust Generalization despite Distribution Shift via Minimum
Discriminating Information [46.164498176119665]
我々は、トレーニングデータに加えて、シフトしたテスト分布に関する部分的な構造的知識を持つモデリングフレームワークを導入する。
我々は、利用可能な事前知識を埋め込むために、最小限の識別情報の原則を用いる。
未知のシフト分布に関する明示的な一般化境界を得る。
論文 参考訳(メタデータ) (2021-06-08T15:25:35Z) - Mind the Trade-off: Debiasing NLU Models without Degrading the
In-distribution Performance [70.31427277842239]
信頼性正則化という新しいデバイアス化手法を導入する。
モデルがバイアスを悪用するのを防ぐと同時に、トレーニングのすべての例から学ぶのに十分なインセンティブを得られるようにします。
提案手法を3つのNLUタスクで評価し,前者とは対照的に,アウト・オブ・ディストリビューション・データセットの性能が向上することを示す。
論文 参考訳(メタデータ) (2020-05-01T11:22:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。