論文の概要: To grok or not to grok: Disentangling generalization and memorization on
corrupted algorithmic datasets
- arxiv url: http://arxiv.org/abs/2310.13061v2
- Date: Mon, 4 Mar 2024 21:59:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 01:59:10.239077
- Title: To grok or not to grok: Disentangling generalization and memorization on
corrupted algorithmic datasets
- Title(参考訳): grok か not か - 腐敗したアルゴリズムデータセットの一般化と記憶の分離
- Authors: Darshil Doshi, Aritra Das, Tianyu He, Andrey Gromov
- Abstract要約: 本稿では,一般化表現を解析的に理解し,記憶表現と容易に区別できる解釈可能なモデルについて検討する。
i) ネットワークが破損したラベルを記憶し、同時に100%の一般化を達成できることが示される。
また、正規化が存在する場合、トレーニングダイナミクスは2つの連続的な段階を含むことを示す。
- 参考スコア(独自算出の注目度): 5.854190253899593
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robust generalization is a major challenge in deep learning, particularly
when the number of trainable parameters is very large. In general, it is very
difficult to know if the network has memorized a particular set of examples or
understood the underlying rule (or both). Motivated by this challenge, we study
an interpretable model where generalizing representations are understood
analytically, and are easily distinguishable from the memorizing ones. Namely,
we consider multi-layer perceptron (MLP) and Transformer architectures trained
on modular arithmetic tasks, where ($\xi \cdot 100\%$) of labels are corrupted
(\emph{i.e.} some results of the modular operations in the training set are
incorrect). We show that (i) it is possible for the network to memorize the
corrupted labels \emph{and} achieve $100\%$ generalization at the same time;
(ii) the memorizing neurons can be identified and pruned, lowering the accuracy
on corrupted data and improving the accuracy on uncorrupted data; (iii)
regularization methods such as weight decay, dropout and BatchNorm force the
network to ignore the corrupted data during optimization, and achieve $100\%$
accuracy on the uncorrupted dataset; and (iv) the effect of these
regularization methods is (``mechanistically'') interpretable: weight decay and
dropout force all the neurons to learn generalizing representations, while
BatchNorm de-amplifies the output of memorizing neurons and amplifies the
output of the generalizing ones. Finally, we show that in the presence of
regularization, the training dynamics involves two consecutive stages: first,
the network undergoes \emph{grokking} dynamics reaching high train \emph{and}
test accuracy; second, it unlearns the memorizing representations, where the
train accuracy suddenly jumps from $100\%$ to $100 (1-\xi)\%$.
- Abstract(参考訳): ロバストな一般化は、特にトレーニング可能なパラメータの数がとても多い場合、ディープラーニングにおける大きな課題である。
一般に、ネットワークが特定の例のセットを記憶しているか、基礎となるルール(またはその両方)を理解しているかどうかを知ることは非常に困難である。
この課題を動機として,一般化表現を解析的に理解し,記憶表現と容易に区別できる解釈可能なモデルを提案する。
すなわち、多層パーセプトロン (mlp) と変圧器アーキテクチャ (transformer architecture) をモジュラー算術タスクで訓練し、ラベルの($\xi \cdot 100\%$) が破損する(例えば、トレーニングセットにおけるモジュラー操作の結果は誤りである)。
私たちはそれを示します
(i)ネットワークは、破損したラベル \emph{and} を同時に100\%$の一般化を達成することができる。
(ii)記憶ニューロンを識別し、刈り取ることができ、破損したデータの精度を低下させ、破損していないデータの精度を向上させることができる。
(iii)重量減少、ドロップアウト、バッチノルムなどの正規化手法は、最適化中に破損したデータを無視するようネットワークに強制し、破損していないデータセットにおいて100ドル=%の精度を達成する。
(4) これらの正則化法の効果は(`メカニカル')解釈可能である: 重みの減衰とドロップアウトはすべてのニューロンに一般化表現を学習させ、BatchNormは記憶ニューロンの出力を増幅し、一般化ニューロンの出力を増幅する。
最後に、正規化が存在する場合、トレーニングダイナミクスには2つの連続した段階があることを示す: まず、ネットワークは、高列車のemph{and}テスト精度に達する \emph{grokking}ダイナミクスを実行し、第二に、列車の精度が突然100\%$から100 (1-\xi)\%$になるような記憶的な表現を解き放つ。
関連論文リスト
- What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。
モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文 参考訳(メタデータ) (2024-11-12T09:52:40Z) - Grokking as the Transition from Lazy to Rich Training Dynamics [35.186196991224286]
グルーキングは、ニューラルネットワークの列車の損失がテスト損失よりもはるかに早く減少するときに起こる。
グルーキングの主要な要因は、特徴学習の速度と、初期特徴と対象関数とのアライメントである。
論文 参考訳(メタデータ) (2023-10-09T19:33:21Z) - Explaining grokking through circuit efficiency [4.686548060335767]
グルーキングは 完璧な訓練精度のネットワークだが 貧弱な一般化は 完全な一般化へと移行する
我々は,グルーキングに関する4つの新しい予測を立証し,その説明に有利な証拠を提示する。
ネットワークが完全なテスト精度から低いテスト精度に回帰するアングロキング(ungrokking)と、ネットワークが完全なテスト精度よりも部分的な一般化を遅らせるセミグロキング( semi-grokking)という2つの斬新な動作を示す。
論文 参考訳(メタデータ) (2023-09-05T17:00:24Z) - Characterizing Datapoints via Second-Split Forgetting [93.99363547536392]
我々は、オリジナルのトレーニング例が忘れられた後(もしあれば)のエポックを追跡する補足的メトリックである$$-second-$split$$forgetting$$$time$ (SSFT)を提案する。
例えば$mislabeled$の例はすぐに忘れられ、$rare$の例は比較的ゆっくりと忘れられています。
SSFTは、(i)間違ったラベル付きサンプルを識別し、その除去により一般化が向上し、(ii)障害モードに関する洞察を提供する。
論文 参考訳(メタデータ) (2022-10-26T21:03:46Z) - The Curious Case of Benign Memorization [19.74244993871716]
データ拡張を含むトレーニングプロトコルの下で、ニューラルネットワークは、完全にランダムなラベルを良心的に記憶することを学ぶ。
深層モデルでは,暗記作業と特徴学習を異なる層に分散することで,信号からノイズを分離する驚くべき能力があることを実証する。
論文 参考訳(メタデータ) (2022-10-25T13:41:31Z) - How does unlabeled data improve generalization in self-training? A
one-hidden-layer theoretical analysis [93.37576644429578]
この研究は、既知の反復的自己学習パラダイムに関する最初の理論的分析を確立する。
トレーニング収束と一般化能力の両面で、ラベルなしデータの利点を実証する。
また、浅部ニューラルネットワークから深部ニューラルネットワークへの実験は、我々の確立した自己学習に関する理論的知見の正しさを正当化するものである。
論文 参考訳(メタデータ) (2022-01-21T02:16:52Z) - Understanding Memorization from the Perspective of Optimization via
Efficient Influence Estimation [54.899751055620904]
本研究では,実データ(実データ)とランダムラベル(ランダムデータ)のデータに対する,ターンオーバードロップアウトによる暗記現象,影響と暗記を効率的に推定する手法について検討する。
i) 実データと乱データの両方において、簡単な例(例えば、実データ)と難しい例(例えば、乱データ)の最適化は、ネットワークによって同時に行われる。
論文 参考訳(メタデータ) (2021-12-16T11:34:23Z) - What training reveals about neural network complexity [80.87515604428346]
この研究は、ディープニューラルネットワーク(NN)が学習している関数の複雑さは、トレーニング中にその重みがどれほど速く変化するかによって推定できるという仮説を探求する。
我々の結果は、優れた訓練行動が良い一般化への有用なバイアスとなるという仮説を支持している。
論文 参考訳(メタデータ) (2021-06-08T08:58:00Z) - Exploring Memorization in Adversarial Training [58.38336773082818]
本稿では, 能力, 収束, 一般化, 特に強靭なオーバーフィッティングの深い理解を促進するための, 対人訓練(AT)における記憶効果について検討する。
本稿では,詳細な記憶分析を動機とした新たな緩和アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-03T05:39:57Z) - Improving Generalization by Controlling Label-Noise Information in
Neural Network Weights [33.85101318266319]
ノイズや誤ったラベルが存在する場合、ニューラルネットワークはノイズに関する情報を記憶する好ましくない傾向にある。
ドロップアウト、ウェイト崩壊、データ増大といった標準的な正則化技術は、時折役立つが、そのような振舞いを防げない。
任意のトレーニングアルゴリズムに対して、この項の低値はラベルノイズの記憶の減少とより良い境界の減少に対応していることを示す。
論文 参考訳(メタデータ) (2020-02-19T00:08:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。