論文の概要: Bridging Lottery ticket and Grokking: Is Weight Norm Sufficient to Explain Delayed Generalization?
- arxiv url: http://arxiv.org/abs/2310.19470v2
- Date: Thu, 9 May 2024 10:21:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-10 18:09:15.009990
- Title: Bridging Lottery ticket and Grokking: Is Weight Norm Sufficient to Explain Delayed Generalization?
- Title(参考訳): 宝くじとグローキングの橋渡し:重量ノルムは遅延一般化に十分か?
- Authors: Gouki Minegishi, Yusuke Iwasawa, Yutaka Matsuo,
- Abstract要約: 本研究では,宝くじの仮説からグルーキングのメカニズムを解析することを目的とする。
我々はこれらの作品を「煙突チケット」と呼ぶ。
宝くじは密集したネットワークに比べてグルークを劇的に加速することを示す。
- 参考スコア(独自算出の注目度): 27.020990219204343
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Grokking is one of the most surprising puzzles in neural network generalization: a network first reaches a memorization solution with perfect training accuracy and poor generalization, but with further training, it reaches a perfectly generalized solution. We aim to analyze the mechanism of grokking from the lottery ticket hypothesis, identifying the process to find the lottery tickets (good sparse subnetworks) as the key to describing the transitional phase between memorization and generalization. We refer to these subnetworks as ''Grokking tickets'', which is identified via magnitude pruning after perfect generalization. First, using ''Grokking tickets'', we show that the lottery tickets drastically accelerate grokking compared to the dense networks on various configurations (MLP and Transformer, and an arithmetic and image classification tasks). Additionally, to verify that ''Grokking ticket'' are a more critical factor than weight norms, we compared the ''good'' subnetworks with a dense network having the same L1 and L2 norms. Results show that the subnetworks generalize faster than the controlled dense model. In further investigations, we discovered that at an appropriate pruning rate, grokking can be achieved even without weight decay. We also show that speedup does not happen when using tickets identified at the memorization solution or transition between memorization and generalization or when pruning networks at the initialization (Random pruning, Grasp, SNIP, and Synflow). The results indicate that the weight norm of network parameters is not enough to explain the process of grokking, but the importance of finding good subnetworks to describe the transition from memorization to generalization. The implementation code can be accessed via this link: \url{https://github.com/gouki510/Grokking-Tickets}.
- Abstract(参考訳): ニューラルネットワークの一般化において、グロッキングは最も驚くべきパズルの1つだ。ネットワークはまず、完全なトレーニング精度と低い一般化を備えた記憶ソリューションに到達するが、さらなるトレーニングでは、完全に一般化されたソリューションに到達する。
本研究の目的は、宝くじの仮説からグラッキングのメカニズムを分析し、宝くじ(良質なスパースサブネットワーク)を見つける過程を記憶と一般化の過渡期を説明する鍵として特定することである。
我々はこれらのサブネットワークを'Grokking ticket'と呼び、完全一般化後のマグニチュードプルーニングによって識別する。
まず,「グルーキングチケット」を用いて,様々な構成(MLP, Transformer, 算術, 画像分類タスク)の高密度ネットワークと比較して,宝くじがグルーキングを劇的に加速することを示す。
また,「グルーキングチケット」がウェイトノルムよりも重要な要因であることを確認するため,「グッド」サブネットワークとL1とL2のノルムを持つ高密度ネットワークを比較した。
その結果, サブネットワークは制御された高密度モデルよりも高速に一般化できることがわかった。
さらなる研究で、適切な刈り取り速度で、重量減衰を伴わずにグルーキングが達成できることが判明した。
また,記憶ソリューションで識別されたチケットを使用したり,記憶と一般化の遷移を行ったり,初期化時にネットワークをプルーニングする場合(ランサムプルーニング,Grasp,SNIP,Synflow)にはスピードアップが起こらないことを示す。
その結果、ネットワークパラメータの重みノルムは、グラッキングの過程を説明するのに十分ではなく、記憶から一般化への遷移を記述するための優れたサブネットを見つけることの重要性が示唆された。
実装コードは、このリンクからアクセスすることができる。
関連論文リスト
- Understanding Grokking Through A Robustness Viewpoint [3.23379981095083]
ニューラルネットワークの一般的な$l$ノルム(メトリック)は、実際にはグルークするのに十分な条件であることを示す。
我々は、ロバストネスと情報理論に基づく新しいメトリクスを提案し、我々の新しいメトリクスがグラッキング現象とよく相関し、グラッキングを予測するのに使用できることを発見した。
論文 参考訳(メタデータ) (2023-11-11T15:45:44Z) - Explaining grokking through circuit efficiency [4.686548060335767]
グルーキングは 完璧な訓練精度のネットワークだが 貧弱な一般化は 完全な一般化へと移行する
我々は,グルーキングに関する4つの新しい予測を立証し,その説明に有利な証拠を提示する。
ネットワークが完全なテスト精度から低いテスト精度に回帰するアングロキング(ungrokking)と、ネットワークが完全なテスト精度よりも部分的な一般化を遅らせるセミグロキング( semi-grokking)という2つの斬新な動作を示す。
論文 参考訳(メタデータ) (2023-09-05T17:00:24Z) - Dual Lottery Ticket Hypothesis [71.95937879869334]
Lottery Ticket hypothesis (LTH)は、スパースネットワークトレーニングを調査し、その能力を維持するための新しい視点を提供する。
本稿では,LTHの当選チケットをトレーニング可能なサブネットワークとして,その性能をベンチマークとして検討する。
本稿では,簡単なスパースネットワークトレーニング戦略であるランダムスパースネットワークトランスフォーメーション(RST)を提案し,DLTHを裏付ける。
論文 参考訳(メタデータ) (2022-03-08T18:06:26Z) - Coarsening the Granularity: Towards Structurally Sparse Lottery Tickets [127.56361320894861]
ロッテリーチケット仮説 (LTH) は、密集したモデルには厳密なスパースワーク(すなわち当選チケット)が含まれており、完全な正確性に合わせるために単独で訓練できることを示した。
本稿では,構造的にスパースな入賞券が一般に有効に発見できるという,最初の肯定的な結果を示す。
具体的には、まず、重要と考えられるいくつかのチャネルで「再充填」された要素を返却し、次に非ゼロ要素を「再群」して、柔軟なグループ単位の構造パターンを作成します。
論文 参考訳(メタデータ) (2022-02-09T21:33:51Z) - Why Lottery Ticket Wins? A Theoretical Perspective of Sample Complexity
on Pruned Neural Networks [79.74580058178594]
目的関数の幾何学的構造を解析することにより、刈り取られたニューラルネットワークを訓練する性能を解析する。
本稿では,ニューラルネットワークモデルがプルーニングされるにつれて,一般化が保証された望ましいモデル近傍の凸領域が大きくなることを示す。
論文 参考訳(メタデータ) (2021-10-12T01:11:07Z) - The Elastic Lottery Ticket Hypothesis [106.79387235014379]
Lottery Ticket Hypothesisは、スパーストレーニング可能なワークスや優勝チケットの識別に注意を向けています。
そのような勝利チケットを識別する最も効果的な方法は、まだ反復マグニチュードベースのPruningです。
我々は,同じモデルファミリーの異なるネットワークから得られる当選チケットを微調整する様々な戦略を提案する。
論文 参考訳(メタデータ) (2021-03-30T17:53:45Z) - Good Students Play Big Lottery Better [84.6111281091602]
宝くじの仮説は、高密度ニューラルネットワークは、元の高密度ネットのテスト精度に一致できる疎サブネットワークを含むことを示唆している。
近年の研究では、巻き戻し技術を用いてスパースサブネットワークが得られることが示されている。
本論文では,KDチケット (Knowledge Distillation Ticket) と呼ばれるサブネットワークを再訓練する手法を提案する。
論文 参考訳(メタデータ) (2021-01-08T23:33:53Z) - Sanity-Checking Pruning Methods: Random Tickets can Win the Jackpot [55.37967301483917]
従来のプルーニングアルゴリズムの知恵は、プルーニング手法がトレーニングデータから情報を利用して良い作品を見つけることを示唆している。
本稿では,近年の非構造的刈り取り法について,上記の信念の正当性チェックを行う。
本稿では,各層に対して単純なデータに依存しないプーン比を提案し,サブネットワークを得るために各層をランダムにプーンする。
論文 参考訳(メタデータ) (2020-09-22T17:36:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。