論文の概要: Bridging Lottery Ticket and Grokking: Understanding Grokking from Inner Structure of Networks
- arxiv url: http://arxiv.org/abs/2310.19470v3
- Date: Fri, 09 May 2025 15:21:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-12 20:40:09.903574
- Title: Bridging Lottery Ticket and Grokking: Understanding Grokking from Inner Structure of Networks
- Title(参考訳): ブリジング・ロタリー・チケットとグロッキング:ネットワークの内部構造からのグラッキングを理解する
- Authors: Gouki Minegishi, Yusuke Iwasawa, Yutaka Matsuo,
- Abstract要約: 内部ネットワーク構造がグラッキングに与える影響について検討する。
一般化段階での宝くじの利用は,遅延一般化を著しく減少させることを示す。
グルーク付きチケットは,周期的な重みパターン,有益なグラフ特性を示し,急激な構造変化を呈する。
- 参考スコア(独自算出の注目度): 27.020990219204343
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Grokking is an intriguing phenomenon of delayed generalization, where neural networks initially memorize training data with perfect accuracy but exhibit poor generalization, subsequently transitioning to a generalizing solution with continued training. While factors such as weight norms and sparsity have been proposed to explain this delayed generalization, the influence of network structure remains underexplored. In this work, we link the grokking phenomenon to the lottery ticket hypothesis to investigate the impact of internal network structures. We demonstrate that utilizing lottery tickets obtained during the generalizing phase (termed grokked tickets) significantly reduces delayed generalization across various tasks, including multiple modular arithmetic operations, polynomial regression, sparse parity, and MNIST classification. Through controlled experiments, we show that the mitigation of delayed generalization is not due solely to reduced weight norms or increased sparsity, but rather to the discovery of good subnetworks. Furthermore, we find that grokked tickets exhibit periodic weight patterns, beneficial graph properties such as increased average path lengths and reduced clustering coefficients, and undergo rapid structural changes that coincide with improvements in generalization. Additionally, pruning techniques like the edge-popup algorithm can identify these effective structures without modifying the weights, thereby transforming memorizing networks into generalizing ones. These results underscore the novel insight that structural exploration plays a pivotal role in understanding grokking. The implementation code can be accessed via this link: https://github.com/gouki510/Grokking-Tickets.
- Abstract(参考訳): グロキングは遅延一般化の興味深い現象であり、当初ニューラルネットワークはトレーニングデータを完全な正確さで記憶していたが、一般化が不十分で、その後、継続トレーニングを伴う一般化ソリューションへと移行した。
この遅れた一般化を説明するために、重みノルムや疎度などの要因が提案されているが、ネットワーク構造の影響はいまだ未解明である。
本研究では,グルーキング現象と宝くじの仮説を結びつけ,内部ネットワーク構造の影響について検討する。
一般化段階で得られた宝くじ(終値付き切符)を利用することで、複数のモジュラー演算、多項式回帰、スパースパリティ、MNIST分類を含む様々なタスクにおける遅延一般化が大幅に削減されることを示す。
制御された実験を通して、遅延一般化の緩和は、単に重量ノルムの減少や空間性の増大によるものではなく、優れたサブネットの発見によるものであることを示す。
さらに,グルークチケットは周期的な重みパターンを示し,平均経路長の増加やクラスタリング係数の低下などのグラフ特性が向上し,一般化に伴う急激な構造変化が見られた。
さらに、エッジポップアップアルゴリズムのようなプルーニング手法は、重みを変更することなくこれらの効果的な構造を識別し、記憶ネットワークを一般化する。
これらの結果は、構造探査がグルーキングを理解する上で重要な役割を担っているという新たな洞察を裏付けている。
実装コードは、このリンクからアクセスできる。
関連論文リスト
- Find A Winning Sign: Sign Is All We Need to Win the Lottery [52.63674911541416]
既存のIP手法によって訓練されたスパースネットワークは,パラメータ記号と正規化層パラメータが保存されている場合,アトラクションの基盤を保持することができることを示す。
本手法により訓練されたスパースネットワークと正規化層パラメータとの線形経路における高い誤差障壁を防止し, 正規化層パラメータへの依存を緩和する。
論文 参考訳(メタデータ) (2025-04-07T09:30:38Z) - Understanding Grokking Through A Robustness Viewpoint [3.23379981095083]
ニューラルネットワークの一般的な$l$ノルム(メトリック)は、実際にはグルークするのに十分な条件であることを示す。
我々は、ロバストネスと情報理論に基づく新しいメトリクスを提案し、我々の新しいメトリクスがグラッキング現象とよく相関し、グラッキングを予測するのに使用できることを発見した。
論文 参考訳(メタデータ) (2023-11-11T15:45:44Z) - Explaining grokking through circuit efficiency [4.686548060335767]
グルーキングは 完璧な訓練精度のネットワークだが 貧弱な一般化は 完全な一般化へと移行する
我々は,グルーキングに関する4つの新しい予測を立証し,その説明に有利な証拠を提示する。
ネットワークが完全なテスト精度から低いテスト精度に回帰するアングロキング(ungrokking)と、ネットワークが完全なテスト精度よりも部分的な一般化を遅らせるセミグロキング( semi-grokking)という2つの斬新な動作を示す。
論文 参考訳(メタデータ) (2023-09-05T17:00:24Z) - Dual Lottery Ticket Hypothesis [71.95937879869334]
Lottery Ticket hypothesis (LTH)は、スパースネットワークトレーニングを調査し、その能力を維持するための新しい視点を提供する。
本稿では,LTHの当選チケットをトレーニング可能なサブネットワークとして,その性能をベンチマークとして検討する。
本稿では,簡単なスパースネットワークトレーニング戦略であるランダムスパースネットワークトランスフォーメーション(RST)を提案し,DLTHを裏付ける。
論文 参考訳(メタデータ) (2022-03-08T18:06:26Z) - Coarsening the Granularity: Towards Structurally Sparse Lottery Tickets [127.56361320894861]
ロッテリーチケット仮説 (LTH) は、密集したモデルには厳密なスパースワーク(すなわち当選チケット)が含まれており、完全な正確性に合わせるために単独で訓練できることを示した。
本稿では,構造的にスパースな入賞券が一般に有効に発見できるという,最初の肯定的な結果を示す。
具体的には、まず、重要と考えられるいくつかのチャネルで「再充填」された要素を返却し、次に非ゼロ要素を「再群」して、柔軟なグループ単位の構造パターンを作成します。
論文 参考訳(メタデータ) (2022-02-09T21:33:51Z) - Why Lottery Ticket Wins? A Theoretical Perspective of Sample Complexity
on Pruned Neural Networks [79.74580058178594]
目的関数の幾何学的構造を解析することにより、刈り取られたニューラルネットワークを訓練する性能を解析する。
本稿では,ニューラルネットワークモデルがプルーニングされるにつれて,一般化が保証された望ましいモデル近傍の凸領域が大きくなることを示す。
論文 参考訳(メタデータ) (2021-10-12T01:11:07Z) - The Elastic Lottery Ticket Hypothesis [106.79387235014379]
Lottery Ticket Hypothesisは、スパーストレーニング可能なワークスや優勝チケットの識別に注意を向けています。
そのような勝利チケットを識別する最も効果的な方法は、まだ反復マグニチュードベースのPruningです。
我々は,同じモデルファミリーの異なるネットワークから得られる当選チケットを微調整する様々な戦略を提案する。
論文 参考訳(メタデータ) (2021-03-30T17:53:45Z) - Good Students Play Big Lottery Better [84.6111281091602]
宝くじの仮説は、高密度ニューラルネットワークは、元の高密度ネットのテスト精度に一致できる疎サブネットワークを含むことを示唆している。
近年の研究では、巻き戻し技術を用いてスパースサブネットワークが得られることが示されている。
本論文では,KDチケット (Knowledge Distillation Ticket) と呼ばれるサブネットワークを再訓練する手法を提案する。
論文 参考訳(メタデータ) (2021-01-08T23:33:53Z) - Sanity-Checking Pruning Methods: Random Tickets can Win the Jackpot [55.37967301483917]
従来のプルーニングアルゴリズムの知恵は、プルーニング手法がトレーニングデータから情報を利用して良い作品を見つけることを示唆している。
本稿では,近年の非構造的刈り取り法について,上記の信念の正当性チェックを行う。
本稿では,各層に対して単純なデータに依存しないプーン比を提案し,サブネットワークを得るために各層をランダムにプーンする。
論文 参考訳(メタデータ) (2020-09-22T17:36:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。