論文の概要: Slower Generalization, Faster Memorization: A Sweet Spot in Algorithmic Learning
- arxiv url: http://arxiv.org/abs/2605.14659v1
- Date: Thu, 14 May 2026 10:12:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.771957
- Title: Slower Generalization, Faster Memorization: A Sweet Spot in Algorithmic Learning
- Title(参考訳): Slower Generalization, Faster Memorization: アルゴリズム学習におけるスイートスポット
- Authors: Shin So, Kyelim Lee, Albert No,
- Abstract要約: グルーキングの臨界データサイズの説明は、筋金入り後の自然な直感を示唆している。
この直感は、制御された構造化出力タスクで失敗する可能性があることを示す。
- 参考スコア(独自算出の注目度): 5.4716933675257415
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Critical-data-size accounts of grokking suggest a natural post-threshold intuition: once training data is sufficient to identify the underlying rule, additional data should accelerate validation convergence. We show that this intuition can fail in a controlled structured-output task. In Needleman--Wunsch (NW) matrix generation, small Transformers reach high validation exact-match accuracy fastest at an intermediate dataset size, not at the largest one. Past this dataset-size sweet spot, generalization remains achievable but requires more gradient updates. Conversely, in the regime where partial validation competence first appears, larger datasets can require fewer updates to reach high training accuracy, suggesting that emerging rule structure can accelerate fitting beyond example-wise memorization. A multiplication baseline does not show the same post-threshold slowdown. These results separate the critical data size for the onset of generalization from the dataset size that optimizes update-based convergence, and identify structured-output tasks where learning the rule and completing exact-fitting can diverge.
- Abstract(参考訳): トレーニングデータが基礎となるルールを特定するのに十分であれば、追加のデータによって検証の収束が加速されるはずだ。
この直感は、制御された構造化出力タスクで失敗する可能性があることを示す。
Needleman--Wunsch(NW)行列生成では、小さなトランスフォーマーは、最大のデータセットサイズではなく、中間データセットサイズで高速に、高い検証精度を達成している。
このデータセットサイズのスイートスポットを過ぎると、一般化は達成可能なままだが、より勾配の更新が必要になる。
逆に、部分的検証能力が最初に現れる体制では、より大規模なデータセットは、高いトレーニング精度に到達するために更新を少なくする必要があり、新しいルール構造が、例による記憶以上の適合を加速する可能性があることを示唆している。
乗算ベースラインは、保留後のスローダウンが同じではない。
これらの結果は、一般化の開始のための重要なデータサイズと、更新ベースの収束を最適化するデータセットサイズを区別し、ルールを学習し、正確な適合を完了させる構造化出力タスクを識別する。
関連論文リスト
- Prior-Fitted Networks Scale to Larger Datasets When Treated as Weak Learners [82.72552644267724]
BoostPFNは、大規模なデータセットでトレーニングサンプルと同じサイズで、標準的なPFNよりもパフォーマンスがよい。
高い性能はPFNのトレーニング前サイズの最大50倍まで維持される。
論文 参考訳(メタデータ) (2025-03-03T07:31:40Z) - Grokking in Linear Estimators -- A Solvable Model that Groks without
Understanding [1.1510009152620668]
グロキングは、トレーニングデータに適合した後、モデルが一般化することを学習する場所である。
線形処理を行う線形ネットワークにおいて、グラッキングが驚くほど起こりうることを解析的および数値的に示す。
論文 参考訳(メタデータ) (2023-10-25T08:08:44Z) - Teaching Arithmetic to Small Transformers [39.72665384986095]
本研究では,小形変圧器が算術演算を効率的に学習する方法について検討する。
まず,従来の学習データが算術学習に最も効果的でないことを示す。
次に、中間ステップの結果を含むチェーン・オブ・シンクスタイルのデータをトレーニングします。
論文 参考訳(メタデータ) (2023-07-07T04:33:31Z) - Simple and Effective Augmentation Methods for CSI Based Indoor
Localization [37.3026733673066]
物理的考察により,チャネル状態情報に基づく屋内位置推定のための2つのアルゴリズムを提案する。
オリジナルのデータセットのサイズの10%は、オリジナルのデータセットと同じパフォーマンスを得るのに十分です。
提案手法によりさらにデータセットを増大させると、テスト精度は3倍以上に向上する。
論文 参考訳(メタデータ) (2022-11-19T20:27:46Z) - Weakly Supervised Change Detection Using Guided Anisotropic Difusion [97.43170678509478]
我々は、このようなデータセットを変更検出の文脈で活用するのに役立つ独自のアイデアを提案する。
まず,意味的セグメンテーション結果を改善する誘導異方性拡散(GAD)アルゴリズムを提案する。
次に、変化検出に適した2つの弱い教師付き学習戦略の可能性を示す。
論文 参考訳(メタデータ) (2021-12-31T10:03:47Z) - AdaXpert: Adapting Neural Architecture for Growing Data [63.30393509048505]
実世界のアプリケーションでは、データボリュームとクラス数が動的に増加する可能性があるため、データが増大することが多い。
データボリュームの増加やクラスの数を考えると、期待できるパフォーマンスを得るためには、ニューラルネットワークのキャパシティを瞬時に調整する必要がある。
既存のメソッドは、データの増大する性質を無視したり、特定のデータセットの最適なアーキテクチャを独立して検索しようとする。
論文 参考訳(メタデータ) (2021-07-01T07:22:05Z) - Temporal Calibrated Regularization for Robust Noisy Label Learning [60.90967240168525]
ディープニューラルネットワーク(DNN)は、大規模な注釈付きデータセットの助けを借りて、多くのタスクで大きな成功を収めている。
しかし、大規模なデータのラベル付けは非常にコストがかかりエラーが発生しやすいため、アノテーションの品質を保証することは困難である。
本稿では,従来のラベルと予測を併用したTCR(Temporal Calibrated Regularization)を提案する。
論文 参考訳(メタデータ) (2020-07-01T04:48:49Z) - Evaluating Prediction-Time Batch Normalization for Robustness under
Covariate Shift [81.74795324629712]
我々は予測時間バッチ正規化と呼び、共変量シフト時のモデル精度とキャリブレーションを大幅に改善する。
予測時間バッチ正規化は、既存の最先端アプローチに相補的な利点をもたらし、ロバスト性を向上させることを示します。
この手法は、事前トレーニングと併用して使用すると、さまざまな結果が得られるが、より自然なタイプのデータセットシフトでは、パフォーマンスが良くないようだ。
論文 参考訳(メタデータ) (2020-06-19T05:08:43Z) - Post-Estimation Smoothing: A Simple Baseline for Learning with Side
Information [102.18616819054368]
本稿では,構造指標データを予測に組み込む高速かつ効率的な手法として,後推定平滑化演算子を提案する。
滑らかなステップは元の予測器とは分離されているため、機械学習タスクの幅広いクラスに適用できる。
大規模な空間的・時間的データセットに関する実験は,実測後のスムース化の速度と正確さを浮き彫りにした。
論文 参考訳(メタデータ) (2020-03-12T18:04:20Z) - Tighter Bound Estimation of Sensitivity Analysis for Incremental and
Decremental Data Modification [39.62854914952284]
大規模な分類問題では、データの一部が元のデータセットに追加または削除された場合、データセットは常に頻繁な更新に直面する。
本稿では, 線形分類器を正確に更新することなく, 線形分類器について合理的な推論を行うアルゴリズムを提案する。
理論的解析と実験の結果から,提案手法は係数境界の厳密性や計算複雑性の観点から既存手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-03-06T18:28:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。