Fugu-MT 論文翻訳(概要): To grok or not to grok: Disentangling generalization and memorization on corrupted algorithmic datasets

論文の概要: To grok or not to grok: Disentangling generalization and memorization on corrupted algorithmic datasets

arxiv url: http://arxiv.org/abs/2310.13061v2
Date: Mon, 4 Mar 2024 21:59:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-07 01:59:10.239077
Title: To grok or not to grok: Disentangling generalization and memorization on corrupted algorithmic datasets
Title（参考訳）: grok か not か - 腐敗したアルゴリズムデータセットの一般化と記憶の分離
Authors: Darshil Doshi, Aritra Das, Tianyu He, Andrey Gromov
Abstract要約: 本稿では,一般化表現を解析的に理解し,記憶表現と容易に区別できる解釈可能なモデルについて検討する。 i) ネットワークが破損したラベルを記憶し、同時に100%の一般化を達成できることが示される。また、正規化が存在する場合、トレーニングダイナミクスは2つの連続的な段階を含むことを示す。
参考スコア（独自算出の注目度）: 5.854190253899593
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Robust generalization is a major challenge in deep learning, particularly when the number of trainable parameters is very large. In general, it is very difficult to know if the network has memorized a particular set of examples or understood the underlying rule (or both). Motivated by this challenge, we study an interpretable model where generalizing representations are understood analytically, and are easily distinguishable from the memorizing ones. Namely, we consider multi-layer perceptron (MLP) and Transformer architectures trained on modular arithmetic tasks, where ($\xi \cdot 100\%$) of labels are corrupted (\emph{i.e.} some results of the modular operations in the training set are incorrect). We show that (i) it is possible for the network to memorize the corrupted labels \emph{and} achieve $100\%$ generalization at the same time; (ii) the memorizing neurons can be identified and pruned, lowering the accuracy on corrupted data and improving the accuracy on uncorrupted data; (iii) regularization methods such as weight decay, dropout and BatchNorm force the network to ignore the corrupted data during optimization, and achieve $100\%$ accuracy on the uncorrupted dataset; and (iv) the effect of these regularization methods is (``mechanistically'') interpretable: weight decay and dropout force all the neurons to learn generalizing representations, while BatchNorm de-amplifies the output of memorizing neurons and amplifies the output of the generalizing ones. Finally, we show that in the presence of regularization, the training dynamics involves two consecutive stages: first, the network undergoes \emph{grokking} dynamics reaching high train \emph{and} test accuracy; second, it unlearns the memorizing representations, where the train accuracy suddenly jumps from $100\%$ to $100 (1-\xi)\%$.
Abstract（参考訳）: ロバストな一般化は、特にトレーニング可能なパラメータの数がとても多い場合、ディープラーニングにおける大きな課題である。一般に、ネットワークが特定の例のセットを記憶しているか、基礎となるルール(またはその両方)を理解しているかどうかを知ることは非常に困難である。この課題を動機として,一般化表現を解析的に理解し,記憶表現と容易に区別できる解釈可能なモデルを提案する。すなわち、多層パーセプトロン (mlp) と変圧器アーキテクチャ (transformer architecture) をモジュラー算術タスクで訓練し、ラベルの($\xi \cdot 100\%$) が破損する(例えば、トレーニングセットにおけるモジュラー操作の結果は誤りである)。私たちはそれを示します (i)ネットワークは、破損したラベル \emph{and} を同時に100\%$の一般化を達成することができる。 (ii)記憶ニューロンを識別し、刈り取ることができ、破損したデータの精度を低下させ、破損していないデータの精度を向上させることができる。 (iii)重量減少、ドロップアウト、バッチノルムなどの正規化手法は、最適化中に破損したデータを無視するようネットワークに強制し、破損していないデータセットにおいて100ドル=%の精度を達成する。 (4) これらの正則化法の効果は(`メカニカル')解釈可能である: 重みの減衰とドロップアウトはすべてのニューロンに一般化表現を学習させ、BatchNormは記憶ニューロンの出力を増幅し、一般化ニューロンの出力を増幅する。最後に、正規化が存在する場合、トレーニングダイナミクスには2つの連続した段階があることを示す: まず、ネットワークは、高列車のemph{and}テスト精度に達する \emph{grokking}ダイナミクスを実行し、第二に、列車の精度が突然100\%$から100 (1-\xi)\%$になるような記憶的な表現を解き放つ。

関連論文リスト

Bigger Isn't Always Memorizing: Early Stopping Overparameterized Diffusion Models [51.03144354630136]
自然データ領域の一般化は、記憶の開始前に訓練中に徐々に達成される。一般化対メモ化は、時間スケール間の競合として最もよく理解される。この現象学は,確率論的文脈自由文法をランダムな規則で学習する拡散モデルにおいて復元されることを示す。
論文参考訳（メタデータ） (2025-05-22T17:40:08Z)
Decoding Generalization from Memorization in Deep Neural Networks [0.0]
一般化されたディープニューラルネットワークは、近年のDeep Learningの劇的な成功の鍵となった。ディープネットワークはトレーニングデータを記憶する能力を持っていることが知られており、クラスラベルが様々な程度にシャッフルされた破損したデータでトレーニングされたモデルに対して、完璧または高いトレーニング精度によって証明されている。ここでは,これらのモデルが,記憶の面においても,その表現に情報を持っていることを示すことによって,後者の可能性を示す証拠を提供する。
論文参考訳（メタデータ） (2025-01-24T18:01:27Z)
What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文参考訳（メタデータ） (2024-11-12T09:52:40Z)
Grokking as the Transition from Lazy to Rich Training Dynamics [35.186196991224286]
グルーキングは、ニューラルネットワークの列車の損失がテスト損失よりもはるかに早く減少するときに起こる。グルーキングの主要な要因は、特徴学習の速度と、初期特徴と対象関数とのアライメントである。
論文参考訳（メタデータ） (2023-10-09T19:33:21Z)
Explaining grokking through circuit efficiency [4.686548060335767]
グルーキングは完璧な訓練精度のネットワークだが貧弱な一般化は完全な一般化へと移行する我々は,グルーキングに関する4つの新しい予測を立証し,その説明に有利な証拠を提示する。ネットワークが完全なテスト精度から低いテスト精度に回帰するアングロキング(ungrokking)と、ネットワークが完全なテスト精度よりも部分的な一般化を遅らせるセミグロキング( semi-grokking)という2つの斬新な動作を示す。
論文参考訳（メタデータ） (2023-09-05T17:00:24Z)
Characterizing Datapoints via Second-Split Forgetting [93.99363547536392]
我々は、オリジナルのトレーニング例が忘れられた後(もしあれば)のエポックを追跡する補足的メトリックである$$-second-$split$$forgetting$$$time$ (SSFT)を提案する。例えば$mislabeled$の例はすぐに忘れられ、$rare$の例は比較的ゆっくりと忘れられています。 SSFTは、(i)間違ったラベル付きサンプルを識別し、その除去により一般化が向上し、(ii)障害モードに関する洞察を提供する。
論文参考訳（メタデータ） (2022-10-26T21:03:46Z)
The Curious Case of Benign Memorization [19.74244993871716]
データ拡張を含むトレーニングプロトコルの下で、ニューラルネットワークは、完全にランダムなラベルを良心的に記憶することを学ぶ。深層モデルでは,暗記作業と特徴学習を異なる層に分散することで,信号からノイズを分離する驚くべき能力があることを実証する。
論文参考訳（メタデータ） (2022-10-25T13:41:31Z)
How does unlabeled data improve generalization in self-training? A one-hidden-layer theoretical analysis [93.37576644429578]
この研究は、既知の反復的自己学習パラダイムに関する最初の理論的分析を確立する。トレーニング収束と一般化能力の両面で、ラベルなしデータの利点を実証する。また、浅部ニューラルネットワークから深部ニューラルネットワークへの実験は、我々の確立した自己学習に関する理論的知見の正しさを正当化するものである。
論文参考訳（メタデータ） (2022-01-21T02:16:52Z)
Understanding Memorization from the Perspective of Optimization via Efficient Influence Estimation [54.899751055620904]
本研究では,実データ(実データ)とランダムラベル(ランダムデータ)のデータに対する,ターンオーバードロップアウトによる暗記現象,影響と暗記を効率的に推定する手法について検討する。 i) 実データと乱データの両方において、簡単な例(例えば、実データ)と難しい例(例えば、乱データ)の最適化は、ネットワークによって同時に行われる。
論文参考訳（メタデータ） (2021-12-16T11:34:23Z)
What training reveals about neural network complexity [80.87515604428346]
この研究は、ディープニューラルネットワーク(NN)が学習している関数の複雑さは、トレーニング中にその重みがどれほど速く変化するかによって推定できるという仮説を探求する。我々の結果は、優れた訓練行動が良い一般化への有用なバイアスとなるという仮説を支持している。
論文参考訳（メタデータ） (2021-06-08T08:58:00Z)
Exploring Memorization in Adversarial Training [58.38336773082818]
本稿では, 能力, 収束, 一般化, 特に強靭なオーバーフィッティングの深い理解を促進するための, 対人訓練(AT)における記憶効果について検討する。本稿では,詳細な記憶分析を動機とした新たな緩和アルゴリズムを提案する。
論文参考訳（メタデータ） (2021-06-03T05:39:57Z)
Improving Generalization by Controlling Label-Noise Information in Neural Network Weights [33.85101318266319]
ノイズや誤ったラベルが存在する場合、ニューラルネットワークはノイズに関する情報を記憶する好ましくない傾向にある。ドロップアウト、ウェイト崩壊、データ増大といった標準的な正則化技術は、時折役立つが、そのような振舞いを防げない。任意のトレーニングアルゴリズムに対して、この項の低値はラベルノイズの記憶の減少とより良い境界の減少に対応していることを示す。
論文参考訳（メタデータ） (2020-02-19T00:08:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。