論文の概要: Studying the Consistency and Composability of Lottery Ticket Pruning
Masks
- arxiv url: http://arxiv.org/abs/2104.14753v1
- Date: Fri, 30 Apr 2021 04:38:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-03 13:49:18.628286
- Title: Studying the Consistency and Composability of Lottery Ticket Pruning
Masks
- Title(参考訳): 宝くじ刈りマスクの一貫性と構成性に関する研究
- Authors: Rajiv Movva, Jonathan Frankle, Michael Carbin
- Abstract要約: CIFAR-10の異なるSGDデータオーダーを使用して、いくつかのネットワークコピー(emphsiblings)をトレーニングします。
兄弟の刈り取りマスクは偶然にあまり似ていないが、兄弟の訓練は数回の共有前訓練の後、大幅に刈り取り重複を増加させる。
驚くべきことに、ユニオンマスクと交差点マスクは非常によく似ています。
- 参考スコア(独自算出の注目度): 19.61428333037523
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Magnitude pruning is a common, effective technique to identify sparse
subnetworks at little cost to accuracy. In this work, we ask whether a
particular architecture's accuracy-sparsity tradeoff can be improved by
combining pruning information across multiple runs of training. From a shared
ResNet-20 initialization, we train several network copies (\emph{siblings}) to
completion using different SGD data orders on CIFAR-10. While the siblings'
pruning masks are naively not much more similar than chance, starting sibling
training after a few epochs of shared pretraining significantly increases
pruning overlap. We then choose a subnetwork by either (1) taking all weights
that survive pruning in any sibling (mask union), or (2) taking only the
weights that survive pruning across all siblings (mask intersection). The
resulting subnetwork is retrained. Strikingly, we find that union and
intersection masks perform very similarly. Both methods match the
accuracy-sparsity tradeoffs of the one-shot magnitude pruning baseline, even
when we combine masks from up to $k = 10$ siblings.
- Abstract(参考訳): マグニチュードプルーニング(Magnitude pruning)は、スパースサブネットワークを精度の低いコストで識別する一般的な、効果的な手法である。
本研究では,特定のアーキテクチャの精度とスパーシティのトレードオフを,複数のトレーニング実行におけるプルーニング情報を組み合わせて改善できるかどうかを問う。
共有 ResNet-20 の初期化から CIFAR-10 上で異なる SGD データオーダを用いて複数のネットワークコピー (\emph{siblings} ) をトレーニングする。
兄弟姉妹の刈り取りマスクは、偶然とあまり似ていないが、数回の共有前訓練の後、兄弟姉妹のトレーニングを開始すると、刈り取りの重なりが著しく増加する。
次に、(1)兄弟姉妹の刈り取り(マスク結合)を生き残るすべての重み(マスク交叉)、(2)全ての兄弟姉妹の刈り取りを生き残る重みのみを取る(マスク交叉)のいずれかによってサブネットワークを選択する。
その結果、サブネットワークが再トレーニングされる。
興味深いことに、結合マスクと交叉マスクは同じような働きをする。
どちらの手法も、最大$k = 10$兄弟のマスクを組み合わせても、一等級プルーニングベースラインの精度とスパーシティのトレードオフに一致する。
関連論文リスト
- Network Fission Ensembles for Low-Cost Self-Ensembles [20.103367702014474]
NFE(Network Fission Ensembles)と呼ばれる低コストのアンサンブル学習と推論を提案する。
まず、トレーニングの負担を軽減するために、いくつかの重みを取り除きます。
次に、残りの重みを複数の集合に分けて、各集合を用いて複数の補助経路を作成し、複数の集合を構成する。
論文 参考訳(メタデータ) (2024-08-05T08:23:59Z) - Unmasking the Lottery Ticket Hypothesis: What's Encoded in a Winning
Ticket's Mask? [40.52143582292875]
トレーニング終了後に発見されたIMPマスクは,所望のサブ空間の同一性を伝達することを示す。
また,SGDは強靭性のため,この情報を活用できることを示す。
総合的に,優勝チケットの存在を軽視する動きが進んでいる。
論文 参考訳(メタデータ) (2022-10-06T16:50:20Z) - Training Your Sparse Neural Network Better with Any Mask [106.134361318518]
高品質で独立したトレーニング可能なスパースマスクを作成するために、大規模なニューラルネットワークをプルーニングすることが望ましい。
本稿では、デフォルトの高密度ネットワークトレーニングプロトコルから逸脱するためにスパーストレーニングテクニックをカスタマイズできる別の機会を示す。
我々の新しいスパーストレーニングレシピは、スクラッチから様々なスパースマスクでトレーニングを改善するために一般的に適用されます。
論文 参考訳(メタデータ) (2022-06-26T00:37:33Z) - Superposing Many Tickets into One: A Performance Booster for Sparse
Neural Network Training [32.30355584300427]
本研究では,2つのデシラタを同時に1つのスパース・ツー・スパース・トレーニング・プロセスで満たすことのできる,新しいスパース・トレーニング・アプローチであるtextbfSup-tkets を提案する。
CIFAR-10/100 および ImageNet 上の様々なモダンアーキテクチャにおいて,Sup-tket が既存のスパーストレーニング手法とシームレスに統合されていることを示す。
論文 参考訳(メタデータ) (2022-05-30T16:01:32Z) - Prune and Tune Ensembles: Low-Cost Ensemble Learning With Sparse
Independent Subnetworks [0.0]
我々は、スクラッチから複数のモデルを訓練することなく、多様なニューラルネットワークのアンサンブルを生成する、高速で低コストな方法を紹介した。
親のクローンを作成し、各子のパラメータを劇的に刈り上げ、ユニークな多様なトポロジを持つメンバのアンサンブルを作成します。
この多様性により、"Prune and Tune"アンサンブルは、トレーニングコストのごく一部で従来のアンサンブルと競合する結果を達成することができる。
論文 参考訳(メタデータ) (2022-02-23T20:53:54Z) - Lottery Jackpots Exist in Pre-trained Models [69.17690253938211]
未拡張幅の事前学習モデルには,「ロテリ・ジャックポット」と呼ばれる重量訓練を伴わずに,高性能で疎結合なサブネットワークが存在していることを示す。
トレーニング損失に悪影響を及ぼす可能性のあるマスクの変化を制限するための,新しい短い制限法を提案する。
論文 参考訳(メタデータ) (2021-04-18T03:50:28Z) - MixMo: Mixing Multiple Inputs for Multiple Outputs via Deep Subnetworks [97.08677678499075]
マルチインプットマルチアウトプットディープワークを学ぶための新しいフレームワークであるMixMoを紹介します。
機能、特にCutMixのパッチによるバイナリの混合は、ワークをより強く、より多様なものにすることによって、結果を向上します。
実装が容易で、推論にコストがかかることに加えて、我々のモデルはよりコストの高いデータ拡張深層アンサンブルよりも優れています。
論文 参考訳(メタデータ) (2021-03-10T15:31:02Z) - Sanity-Checking Pruning Methods: Random Tickets can Win the Jackpot [55.37967301483917]
従来のプルーニングアルゴリズムの知恵は、プルーニング手法がトレーニングデータから情報を利用して良い作品を見つけることを示唆している。
本稿では,近年の非構造的刈り取り法について,上記の信念の正当性チェックを行う。
本稿では,各層に対して単純なデータに依存しないプーン比を提案し,サブネットワークを得るために各層をランダムにプーンする。
論文 参考訳(メタデータ) (2020-09-22T17:36:17Z) - ESPN: Extremely Sparse Pruned Networks [50.436905934791035]
簡単な反復マスク探索法により,非常に深いネットワークの最先端の圧縮を実現することができることを示す。
本アルゴリズムは,シングルショット・ネットワーク・プルーニング法とロッテ・ティケット方式のハイブリッド・アプローチを示す。
論文 参考訳(メタデータ) (2020-06-28T23:09:27Z) - Supermasks in Superposition [70.5780643117055]
本稿では,スーパーマスク・イン・スーパーポジション(SupSup)モデルを提案する。
提案手法はランダムに固定されたベースネットワークを用い,各タスクに対して,優れた性能を実現するサブネットワーク(スーパーマスク)を求める。
実際には、2500のタスクの中でも、1つの勾配ステップが正しいマスクを特定するのに十分であることがわかった。
論文 参考訳(メタデータ) (2020-06-26T03:16:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。