論文の概要: Explaining grokking through circuit efficiency
- arxiv url: http://arxiv.org/abs/2309.02390v1
- Date: Tue, 5 Sep 2023 17:00:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-06 13:41:18.818046
- Title: Explaining grokking through circuit efficiency
- Title(参考訳): 回路効率によるグロッキングの説明
- Authors: Vikrant Varma, Rohin Shah, Zachary Kenton, J\'anos Kram\'ar, Ramana
Kumar
- Abstract要約: グルーキングは 完璧な訓練精度のネットワークだが 貧弱な一般化は 完全な一般化へと移行する
我々は,グルーキングに関する4つの新しい予測を立証し,その説明に有利な証拠を提示する。
ネットワークが完全なテスト精度から低いテスト精度に回帰するアングロキング(ungrokking)と、ネットワークが完全なテスト精度よりも部分的な一般化を遅らせるセミグロキング( semi-grokking)という2つの斬新な動作を示す。
- 参考スコア(独自算出の注目度): 4.686548060335767
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One of the most surprising puzzles in neural network generalisation is
grokking: a network with perfect training accuracy but poor generalisation
will, upon further training, transition to perfect generalisation. We propose
that grokking occurs when the task admits a generalising solution and a
memorising solution, where the generalising solution is slower to learn but
more efficient, producing larger logits with the same parameter norm. We
hypothesise that memorising circuits become more inefficient with larger
training datasets while generalising circuits do not, suggesting there is a
critical dataset size at which memorisation and generalisation are equally
efficient. We make and confirm four novel predictions about grokking, providing
significant evidence in favour of our explanation. Most strikingly, we
demonstrate two novel and surprising behaviours: ungrokking, in which a network
regresses from perfect to low test accuracy, and semi-grokking, in which a
network shows delayed generalisation to partial rather than perfect test
accuracy.
- Abstract(参考訳): ニューラルネットワークの一般化における最も驚くべきパズルの1つは、完全なトレーニング精度を持つが、さらにトレーニングが進むと、完全な一般化へと移行するネットワークだ。
一般化解と記憶解をタスクが認めるとグロッキングが起こり、一般化解は学習が遅いが効率が良くなり、同じパラメータのノルムを持つ大きなロジットを生成する。
我々は、記憶回路がより大きなトレーニングデータセットで非効率になる一方、一般化回路はそうではないと仮定し、記憶と一般化が等しく効率的である重要なデータセットサイズが存在することを示唆する。
我々は,グルーキングに関する4つの新しい予測を立証し,その説明に有利な証拠を提示する。
ネットワークが完全なテスト精度から低いテスト精度に回帰するアングロキング(ungrokking)と、ネットワークが完全なテスト精度ではなく部分的な一般化に遅れたことを示すセミグロキング( semi-grokking)である。
関連論文リスト
- Exact, Tractable Gauss-Newton Optimization in Deep Reversible Architectures Reveal Poor Generalization [52.16435732772263]
多くのアプリケーションにおいて、ディープニューラルネットワークのトレーニングを加速する2階最適化が示されている。
しかし、二階法の一般化特性についてはいまだ議論が続いている。
我々は、Gauss-Newton (GN) の正確な更新が、ディープアーキテクチャのクラスにおいて、牽引可能な形式を取ることを初めて示す。
論文 参考訳(メタデータ) (2024-11-12T17:58:40Z) - Bridging Lottery ticket and Grokking: Is Weight Norm Sufficient to Explain Delayed Generalization? [27.020990219204343]
本研究では,宝くじの仮説からグルーキングのメカニズムを解析することを目的とする。
我々はこれらの作品を「煙突チケット」と呼ぶ。
宝くじは密集したネットワークに比べてグルークを劇的に加速することを示す。
論文 参考訳(メタデータ) (2023-10-30T11:58:44Z) - To grok or not to grok: Disentangling generalization and memorization on
corrupted algorithmic datasets [5.854190253899593]
本稿では,一般化表現を解析的に理解し,記憶表現と容易に区別できる解釈可能なモデルについて検討する。
i) ネットワークが破損したラベルを記憶し、同時に100%の一般化を達成できることが示される。
また、正規化が存在する場合、トレーニングダイナミクスは2つの連続的な段階を含むことを示す。
論文 参考訳(メタデータ) (2023-10-19T18:01:10Z) - The Double-Edged Sword of Implicit Bias: Generalization vs. Robustness
in ReLU Networks [64.12052498909105]
本稿では,ReLUネットワークにおける勾配流の暗黙的バイアスが一般化と対角的ロバスト性に与える影響について検討する。
2層ReLUネットワークでは、勾配流は一般化された解に偏りがあるが、敵の例には非常に弱い。
論文 参考訳(メタデータ) (2023-03-02T18:14:35Z) - Theoretical Characterization of How Neural Network Pruning Affects its
Generalization [131.1347309639727]
この研究は、異なるプルーニング率がモデルの勾配降下ダイナミクスと一般化にどのように影響するかを研究する最初の試みである。
プルーニング率が一定の閾値以下である限り、勾配降下はトレーニング損失をゼロに導くことができる。
より驚くべきことに、プルーニング分数が大きくなるにつれて、一般化境界はより良くなる。
論文 参考訳(メタデータ) (2023-01-01T03:10:45Z) - Neural Networks with Sparse Activation Induced by Large Bias: Tighter Analysis with Bias-Generalized NTK [86.45209429863858]
ニューラル・タンジェント・カーネル(NTK)における一層ReLUネットワークのトレーニングについて検討した。
我々は、ニューラルネットワークが、テクティトビア一般化NTKと呼ばれる異なる制限カーネルを持っていることを示した。
ニューラルネットの様々な特性をこの新しいカーネルで研究する。
論文 参考訳(メタデータ) (2023-01-01T02:11:39Z) - Towards Better Out-of-Distribution Generalization of Neural Algorithmic
Reasoning Tasks [51.8723187709964]
ニューラルネットワーク推論タスクのOOD一般化について検討する。
目標は、ディープニューラルネットワークを使用して入出力ペアからアルゴリズムを学ぶことである。
論文 参考訳(メタデータ) (2022-11-01T18:33:20Z) - Learning Non-Vacuous Generalization Bounds from Optimization [8.294831479902658]
最適化の観点からは、単純だが空でない一般化を示す。
我々は、勾配アルゴリズムによってアクセスされた仮説セットが本質的にフラクタル的であることを利用して、この目標を達成する。
数値解析により,現代のニューラルネットワークにおいて,本手法が有意な一般化を保証することが実証された。
論文 参考訳(メタデータ) (2022-06-09T08:59:46Z) - Grokking: Generalization Beyond Overfitting on Small Algorithmic
Datasets [4.278591555984394]
アルゴリズムによって生成された小さなデータセット上でのニューラルネットワークの一般化について検討する。
ニューラルネットワークは、データ内のパターンを"グロキング"するプロセスを通じて学習することを示す。
これらのデータセットは、ディープラーニングの理解の不十分な側面を研究するための、肥大した土台である、と我々は主張する。
論文 参考訳(メタデータ) (2022-01-06T18:43:37Z) - Why Lottery Ticket Wins? A Theoretical Perspective of Sample Complexity
on Pruned Neural Networks [79.74580058178594]
目的関数の幾何学的構造を解析することにより、刈り取られたニューラルネットワークを訓練する性能を解析する。
本稿では,ニューラルネットワークモデルがプルーニングされるにつれて,一般化が保証された望ましいモデル近傍の凸領域が大きくなることを示す。
論文 参考訳(メタデータ) (2021-10-12T01:11:07Z) - A Partial Regularization Method for Network Compression [0.0]
本稿では, モデル圧縮を高速に行うために, 完全正則化と言われる全てのパラメータをペナライズする元の形式ではなく, 部分正則化のアプローチを提案する。
実験結果から, ほぼすべての状況において, 走行時間の減少を観測することにより, 計算複雑性を低減できることが示唆された。
驚くべきことに、複数のデータセットのトレーニングフェーズとテストフェーズの両方において、回帰フィッティング結果や分類精度などの重要な指標を改善するのに役立ちます。
論文 参考訳(メタデータ) (2020-09-03T00:38:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。