論文の概要: Rare Gems: Finding Lottery Tickets at Initialization
- arxiv url: http://arxiv.org/abs/2202.12002v1
- Date: Thu, 24 Feb 2022 10:28:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-25 16:27:16.746436
- Title: Rare Gems: Finding Lottery Tickets at Initialization
- Title(参考訳): Rare Gems: 初期化時にロッキーなチケットを見つける
- Authors: Kartik Sreenivasan, Jy-yong Sohn, Liu Yang, Matthew Grinde, Alliot
Nagle, Hongyi Wang, Kangwook Lee, Dimitris Papailiopoulos
- Abstract要約: 大規模なニューラルネットワークは、元のサイズのごく一部に切断することができる。
トレーニング可能なネットワークを見つけるための現在のアルゴリズムは、単純なベースライン比較に失敗する。
単純なベースラインよりも正確性を高めるために訓練する宝くじを見つけることは、未解決の問題である。
- 参考スコア(独自算出の注目度): 21.130411799740532
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It has been widely observed that large neural networks can be pruned to a
small fraction of their original size, with little loss in accuracy, by
typically following a time-consuming "train, prune, re-train" approach. Frankle
& Carbin (2018) conjecture that we can avoid this by training lottery tickets,
i.e., special sparse subnetworks found at initialization, that can be trained
to high accuracy. However, a subsequent line of work presents concrete evidence
that current algorithms for finding trainable networks at initialization, fail
simple baseline comparisons, e.g., against training random sparse subnetworks.
Finding lottery tickets that train to better accuracy compared to simple
baselines remains an open problem. In this work, we partially resolve this open
problem by discovering rare gems: subnetworks at initialization that attain
considerable accuracy, even before training. Refining these rare gems - "by
means of fine-tuning" - beats current baselines and leads to accuracy
competitive or better than magnitude pruning methods.
- Abstract(参考訳): 大規模なニューラルネットワークは、通常、時間を要する"トレイン、プルー、再トレーニング"アプローチに従えば、元のサイズのごく一部にプルーニングできるが、精度の低下はほとんどないことが広く観測されている。
Frankle & Carbin (2018) は、宝くじを訓練することでこれを回避できる、すなわち、初期化時に見つかった特別なスパース部分ネットを高精度に訓練できると推測した。
しかし、その後の一連の研究は、トレーニング可能なネットワークを初期化時に発見するための現在のアルゴリズムが、例えばランダムスパースサブネットワークのトレーニングに対する単純なベースライン比較に失敗するという具体的な証拠を示している。
単純なベースラインよりも正確性を追求する宝くじを見つけることは、未解決の問題である。
本研究では,このオープンな問題を,トレーニング前にもある程度の精度で初期化できるサブネットワークで発見することで部分的に解決する。
これらの希少な宝石を「微調整によって」精製すると、現在の基準線を破り、精度を競い合うか、マグニチュードプルーニング法より優れている。
関連論文リスト
- Intersection of Parallels as an Early Stopping Criterion [64.8387564654474]
そこで本研究では,検証セットを必要とせずに,トレーニングイテレーションの早期停止点を見つける手法を提案する。
幅広い学習率において,コサイン距離基準 (CDC) と呼ばれる手法は,比較したすべての手法よりも平均的な一般化に寄与する。
論文 参考訳(メタデータ) (2022-08-19T19:42:41Z) - Lottery Tickets on a Data Diet: Finding Initializations with Sparse
Trainable Networks [40.55816472416984]
反復トレーニング(IMP; Frankle et al.)に関する目覚ましい観察は、x2014x2014の数百ステップの密集した後に、x$である。
本研究では、この事前学習の初期段階が、データとネットワークの両方に優れたIMPをもたらすかを理解することを目的とする。
損失景観密度ネットワークの新たな特性を同定し,性能の予測を行う。
論文 参考訳(メタデータ) (2022-06-02T20:04:06Z) - Dual Lottery Ticket Hypothesis [71.95937879869334]
Lottery Ticket hypothesis (LTH)は、スパースネットワークトレーニングを調査し、その能力を維持するための新しい視点を提供する。
本稿では,LTHの当選チケットをトレーニング可能なサブネットワークとして,その性能をベンチマークとして検討する。
本稿では,簡単なスパースネットワークトレーニング戦略であるランダムスパースネットワークトランスフォーメーション(RST)を提案し,DLTHを裏付ける。
論文 参考訳(メタデータ) (2022-03-08T18:06:26Z) - The Unreasonable Effectiveness of Random Pruning: Return of the Most
Naive Baseline for Sparse Training [111.15069968583042]
ランダムプルーニングは、ニューラルネットワークのスパーシティを実現する最も単純な方法であることは間違いないが、トレーニング後のプルーニングやスパーストレーニングでは非競争的であると見なされている。
我々は、スクラッチからランダムに切断されたネットワークをスクラッチからスクラッチ的に訓練することで、その密度の高い等価性の性能に一致することを実証的に実証した。
以上の結果から,大規模なスパーストレーニングを行う余地はより大きいことが示唆され,スポーシティのメリットは慎重に設計されたプルーニングを超えて普遍的である可能性が示唆された。
論文 参考訳(メタデータ) (2022-02-05T21:19:41Z) - Plant 'n' Seek: Can You Find the Winning Ticket? [6.85316573653194]
宝くじの仮説は、構造学習を行うプルーニングアルゴリズムの急速な発展を引き起こした。
我々は、非常に疎いネットワークトポロジを手作りし、それらを大きなニューラルネットワークに植え込み、最先端の宝くじ改札方法を評価する。
論文 参考訳(メタデータ) (2021-11-22T12:32:25Z) - Towards Understanding Iterative Magnitude Pruning: Why Lottery Tickets
Win [20.97456178983006]
宝くじの仮説では、スパースワークはランダムに密集したネットワークに存在し、密集したネットワークと同じ精度でトレーニングすることができる。
線形モード接続に関して安定なトレーニング手法を用いることで、大規模なネットワークを初期化に完全に巻き戻すことができることを示す。
論文 参考訳(メタデータ) (2021-06-13T10:06:06Z) - Lottery Ticket Implies Accuracy Degradation, Is It a Desirable
Phenomenon? [43.47794674403988]
ディープモデル圧縮では、最近の発見 "Lottery Ticket Hypothesis" (LTH) (Frankle & Carbin) は、勝利チケットが存在する可能性があることを指摘しました。
勝利特性の背後にある基礎的条件と理論的根拠を調査し,その基礎的理由が重みと最終訓練重みの相関関係に大きく関係していることを見いだした。
宝くじのスパーストレーニングを一貫して上回る"pruning & fine-tuning"方式を提案します。
論文 参考訳(メタデータ) (2021-02-19T14:49:46Z) - Good Students Play Big Lottery Better [84.6111281091602]
宝くじの仮説は、高密度ニューラルネットワークは、元の高密度ネットのテスト精度に一致できる疎サブネットワークを含むことを示唆している。
近年の研究では、巻き戻し技術を用いてスパースサブネットワークが得られることが示されている。
本論文では,KDチケット (Knowledge Distillation Ticket) と呼ばれるサブネットワークを再訓練する手法を提案する。
論文 参考訳(メタデータ) (2021-01-08T23:33:53Z) - The Lottery Ticket Hypothesis for Pre-trained BERT Networks [137.99328302234338]
自然言語処理(NLP)では、BERTのような巨大な事前学習モデルがトレーニングの標準出発点となっている。
並行して、抽選券仮説の研究により、NLPとコンピュータビジョンのモデルには、完全精度で個別にトレーニングできる小さなマッチングワークが含まれていることが示されている。
これらの観測と組み合わせて、トレーニング済みのBERTモデルにそのようなトレーニング可能なトランスファーブルワークが存在するかどうかを評価する。
論文 参考訳(メタデータ) (2020-07-23T19:35:39Z) - Distance-Based Regularisation of Deep Networks for Fine-Tuning [116.71288796019809]
我々は,仮説クラスを,初期訓練前の重みを中心にした小さな球面に制約するアルゴリズムを開発した。
実験的な評価は、我々のアルゴリズムがうまく機能していることを示し、理論的な結果を裏付けるものである。
論文 参考訳(メタデータ) (2020-02-19T16:00:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。