論文の概要: Unmasking the Lottery Ticket Hypothesis: What's Encoded in a Winning
Ticket's Mask?
- arxiv url: http://arxiv.org/abs/2210.03044v1
- Date: Thu, 6 Oct 2022 16:50:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 15:17:24.154647
- Title: Unmasking the Lottery Ticket Hypothesis: What's Encoded in a Winning
Ticket's Mask?
- Title(参考訳): 宝くじの仮説を解き明かす - 当選券のマスクにエンコードされたものは何か?
- Authors: Mansheej Paul, Feng Chen, Brett W. Larsen, Jonathan Frankle, Surya
Ganguli, Gintare Karolina Dziugaite
- Abstract要約: トレーニング終了後に発見されたIMPマスクは,所望のサブ空間の同一性を伝達することを示す。
また,SGDは強靭性のため,この情報を活用できることを示す。
総合的に,優勝チケットの存在を軽視する動きが進んでいる。
- 参考スコア(独自算出の注目度): 40.52143582292875
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern deep learning involves training costly, highly overparameterized
networks, thus motivating the search for sparser networks that can still be
trained to the same accuracy as the full network (i.e. matching). Iterative
magnitude pruning (IMP) is a state of the art algorithm that can find such
highly sparse matching subnetworks, known as winning tickets. IMP operates by
iterative cycles of training, masking smallest magnitude weights, rewinding
back to an early training point, and repeating. Despite its simplicity, the
underlying principles for when and how IMP finds winning tickets remain
elusive. In particular, what useful information does an IMP mask found at the
end of training convey to a rewound network near the beginning of training? How
does SGD allow the network to extract this information? And why is iterative
pruning needed? We develop answers in terms of the geometry of the error
landscape. First, we find that$\unicode{x2014}$at higher
sparsities$\unicode{x2014}$pairs of pruned networks at successive pruning
iterations are connected by a linear path with zero error barrier if and only
if they are matching. This indicates that masks found at the end of training
convey the identity of an axial subspace that intersects a desired linearly
connected mode of a matching sublevel set. Second, we show SGD can exploit this
information due to a strong form of robustness: it can return to this mode
despite strong perturbations early in training. Third, we show how the flatness
of the error landscape at the end of training determines a limit on the
fraction of weights that can be pruned at each iteration of IMP. Finally, we
show that the role of retraining in IMP is to find a network with new small
weights to prune. Overall, these results make progress toward demystifying the
existence of winning tickets by revealing the fundamental role of error
landscape geometry.
- Abstract(参考訳): 現代のディープラーニングでは、費用がかかり、過小評価されたネットワークをトレーニングすることで、完全なネットワーク(すなわちマッチング)と同じ精度でトレーニングできるスパルサーネットワークの探索を動機付ける。
イテレーティブ・マグニチュード・プルーニング(IMP)は、優勝チケットとして知られる、非常にスパースなサブネットワークを見つけることができる技術アルゴリズムの状態である。
IMPはトレーニングの反復サイクルで動作し、最小の重量をマスクし、初期のトレーニングポイントに巻き戻し、繰り返す。
その単純さにもかかわらず、IMPがいつどのようにチケットを勝ち取るかという根底にある原則はいまだに解明されていない。
特に,トレーニング終了時に見つかったimpマスクは,トレーニング開始付近のリワーンドネットワークにどのような有用な情報を提供するのか?
SGDはどのようにしてこの情報を抽出できるのか?
なぜイテレーティブ・プルーニングが必要なのか?
我々は、エラーランドスケープの幾何学的観点から答えを開発する。
まず、連続するプルーニングイテレーションにおけるプルーニングネットワークの高次スパルシティー$\unicode{x2014}$pairsは、エラーバリアがゼロの線形経路で接続される。
これは、トレーニングの終わりに見つかったマスクが、一致したサブレベル集合の望ましい線形連結モードと交差する軸部分空間の同一性を伝えることを示している。
第二に、SGDは強靭性のためにこの情報を活用できることを示し、訓練の早い段階で強い摂動にもかかわらず、このモードに戻ることができる。
第3に、トレーニング終了時のエラーランドスケープの平坦さが、impの各イテレーションでprunできる重みの比率の限界をどのように決定するかを示す。
最後に、IMPにおける再トレーニングの役割は、新しい小さな重みを持つネットワークを見つけることであることを示す。
全体として,これらの結果は,エラーランドスケープ幾何学の基本的役割を明らかにすることによって,当選チケットの存在を確定する方向に進んでいる。
関連論文リスト
- No Free Prune: Information-Theoretic Barriers to Pruning at Initialization [8.125999058340998]
arXiv:2105.12806のロバスト性法則を,通常のパラメータカウントを$p_texteff$に置き換えたスパースネットワークに拡張する。
ニューラルネットワークの実験では、トレーニング中に得られた情報がモデル能力に影響を与える可能性があることが確認されている。
論文 参考訳(メタデータ) (2024-02-02T01:13:16Z) - When Layers Play the Lottery, all Tickets Win at Initialization [0.0]
プルーニングはディープネットワークの計算コストを削減する手法である。
そこで本研究では,プルーニング処理によって層が取り除かれた場合の当選チケットの発見を提案する。
優勝チケットは特にトレーニングフェーズをスピードアップし、二酸化炭素排出量の最大51%を削減しています。
論文 参考訳(メタデータ) (2023-01-25T21:21:15Z) - Training Your Sparse Neural Network Better with Any Mask [106.134361318518]
高品質で独立したトレーニング可能なスパースマスクを作成するために、大規模なニューラルネットワークをプルーニングすることが望ましい。
本稿では、デフォルトの高密度ネットワークトレーニングプロトコルから逸脱するためにスパーストレーニングテクニックをカスタマイズできる別の機会を示す。
我々の新しいスパーストレーニングレシピは、スクラッチから様々なスパースマスクでトレーニングを改善するために一般的に適用されます。
論文 参考訳(メタデータ) (2022-06-26T00:37:33Z) - Lottery Tickets on a Data Diet: Finding Initializations with Sparse
Trainable Networks [40.55816472416984]
反復トレーニング(IMP; Frankle et al.)に関する目覚ましい観察は、x2014x2014の数百ステップの密集した後に、x$である。
本研究では、この事前学習の初期段階が、データとネットワークの両方に優れたIMPをもたらすかを理解することを目的とする。
損失景観密度ネットワークの新たな特性を同定し,性能の予測を行う。
論文 参考訳(メタデータ) (2022-06-02T20:04:06Z) - Dual Lottery Ticket Hypothesis [71.95937879869334]
Lottery Ticket hypothesis (LTH)は、スパースネットワークトレーニングを調査し、その能力を維持するための新しい視点を提供する。
本稿では,LTHの当選チケットをトレーニング可能なサブネットワークとして,その性能をベンチマークとして検討する。
本稿では,簡単なスパースネットワークトレーニング戦略であるランダムスパースネットワークトランスフォーメーション(RST)を提案し,DLTHを裏付ける。
論文 参考訳(メタデータ) (2022-03-08T18:06:26Z) - Coarsening the Granularity: Towards Structurally Sparse Lottery Tickets [127.56361320894861]
ロッテリーチケット仮説 (LTH) は、密集したモデルには厳密なスパースワーク(すなわち当選チケット)が含まれており、完全な正確性に合わせるために単独で訓練できることを示した。
本稿では,構造的にスパースな入賞券が一般に有効に発見できるという,最初の肯定的な結果を示す。
具体的には、まず、重要と考えられるいくつかのチャネルで「再充填」された要素を返却し、次に非ゼロ要素を「再群」して、柔軟なグループ単位の構造パターンを作成します。
論文 参考訳(メタデータ) (2022-02-09T21:33:51Z) - The Elastic Lottery Ticket Hypothesis [106.79387235014379]
Lottery Ticket Hypothesisは、スパーストレーニング可能なワークスや優勝チケットの識別に注意を向けています。
そのような勝利チケットを識別する最も効果的な方法は、まだ反復マグニチュードベースのPruningです。
我々は,同じモデルファミリーの異なるネットワークから得られる当選チケットを微調整する様々な戦略を提案する。
論文 参考訳(メタデータ) (2021-03-30T17:53:45Z) - Good Students Play Big Lottery Better [84.6111281091602]
宝くじの仮説は、高密度ニューラルネットワークは、元の高密度ネットのテスト精度に一致できる疎サブネットワークを含むことを示唆している。
近年の研究では、巻き戻し技術を用いてスパースサブネットワークが得られることが示されている。
本論文では,KDチケット (Knowledge Distillation Ticket) と呼ばれるサブネットワークを再訓練する手法を提案する。
論文 参考訳(メタデータ) (2021-01-08T23:33:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。