論文の概要: Dual Lottery Ticket Hypothesis
- arxiv url: http://arxiv.org/abs/2203.04248v1
- Date: Tue, 8 Mar 2022 18:06:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-09 15:14:23.518853
- Title: Dual Lottery Ticket Hypothesis
- Title(参考訳): 二重抽選券仮説
- Authors: Yue Bai, Huan Wang, Zhiqiang Tao, Kunpeng Li, Yun Fu
- Abstract要約: Lottery Ticket hypothesis (LTH)は、スパースネットワークトレーニングを調査し、その能力を維持するための新しい視点を提供する。
本稿では,LTHの当選チケットをトレーニング可能なサブネットワークとして,その性能をベンチマークとして検討する。
本稿では,簡単なスパースネットワークトレーニング戦略であるランダムスパースネットワークトランスフォーメーション(RST)を提案し,DLTHを裏付ける。
- 参考スコア(独自算出の注目度): 71.95937879869334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fully exploiting the learning capacity of neural networks requires
overparameterized dense networks. On the other side, directly training sparse
neural networks typically results in unsatisfactory performance. Lottery Ticket
Hypothesis (LTH) provides a novel view to investigate sparse network training
and maintain its capacity. Concretely, it claims there exist winning tickets
from a randomly initialized network found by iterative magnitude pruning and
preserving promising trainability (or we say being in trainable condition). In
this work, we regard the winning ticket from LTH as the subnetwork which is in
trainable condition and its performance as our benchmark, then go from a
complementary direction to articulate the Dual Lottery Ticket Hypothesis
(DLTH): Randomly selected subnetworks from a randomly initialized dense network
can be transformed into a trainable condition and achieve admirable performance
compared with LTH -- random tickets in a given lottery pool can be transformed
into winning tickets. Specifically, by using uniform-randomly selected
subnetworks to represent the general cases, we propose a simple sparse network
training strategy, Random Sparse Network Transformation (RST), to substantiate
our DLTH. Concretely, we introduce a regularization term to borrow learning
capacity and realize information extrusion from the weights which will be
masked. After finishing the transformation for the randomly selected
subnetworks, we conduct the regular finetuning to evaluate the model using fair
comparisons with LTH and other strong baselines. Extensive experiments on
several public datasets and comparisons with competitive approaches validate
our DLTH as well as the effectiveness of the proposed model RST. Our work is
expected to pave a way for inspiring new research directions of sparse network
training in the future. Our code is available at
https://github.com/yueb17/DLTH.
- Abstract(参考訳): ニューラルネットワークの学習能力を完全に活用するには、過パラメータの高密度ネットワークが必要である。
一方、スパースニューラルネットワークを直接トレーニングすると、通常は不十分なパフォーマンスになる。
Lottery Ticket hypothesis (LTH)は、スパースネットワークトレーニングを調査し、その能力を維持するための新しい視点を提供する。
具体的には、ランダムに初期化されたネットワークから、反復的なマグニチュードの刈り取りと、有望なトレーサビリティ(つまり訓練可能な状態にある)の維持によって、入賞チケットが存在すると主張している。
本稿では, LTH の当選チケットを, トレーニング可能な状態にあるサブネットワークであり, その性能をベンチマークとして, 補完的な方向から, ランダムに初期化された高密度ネットワークからランダムに選択されたサブネットワークをトレーニング可能な状態に変換し, LTH と比較して有意な性能を達成することができる。
具体的には,一様ランダムに選択したサブネットワークを用いて汎用ケースを表現することにより,単純なスパースネットワークトレーニング戦略である乱数スパースネットワークトランスフォーメーション(rst)を提案する。
具体的には,学習能力を借りる正規化用語を導入し,マスクする重みからの情報押出を実現する。
ランダムに選択されたサブネットの変換を完了した後、LTHや他の強いベースラインと公正に比較してモデルの評価を行う。
いくつかのパブリックデータセットに関する広範囲な実験と競合アプローチとの比較により,提案モデルrstの有効性とdlthの有効性が検証された。
我々の研究は、将来、スパースネットワークトレーニングの新しい研究方向性を刺激する道を開くことが期待されている。
私たちのコードはhttps://github.com/yueb17/dlthで利用可能です。
関連論文リスト
- Data-Efficient Double-Win Lottery Tickets from Robust Pre-training [129.85939347733387]
本稿では,事前学習したモデルからのサブネットワークを,様々な下流タスクで独立に転送できるDouble-Win Lottery Ticketsを紹介する。
頑健な事前訓練は、標準的なものよりも優れたパフォーマンスで、スペーサーのダブルウィン・宝くじを製作する傾向にある。
論文 参考訳(メタデータ) (2022-06-09T20:52:50Z) - FreeTickets: Accurate, Robust and Efficient Deep Ensemble by Training
with Dynamic Sparsity [74.58777701536668]
我々は、疎い畳み込みニューラルネットワークの性能を、ネットワークの高密度な部分よりも大きなマージンで向上させることができるFreeTicketsの概念を紹介した。
本研究では, ダイナミックな間隔を持つ2つの新しい効率的なアンサンブル手法を提案し, スパーストレーニング過程において, 多数の多様かつ正確なチケットを「無償」で撮影する。
論文 参考訳(メタデータ) (2021-06-28T10:48:20Z) - The Elastic Lottery Ticket Hypothesis [106.79387235014379]
Lottery Ticket Hypothesisは、スパーストレーニング可能なワークスや優勝チケットの識別に注意を向けています。
そのような勝利チケットを識別する最も効果的な方法は、まだ反復マグニチュードベースのPruningです。
我々は,同じモデルファミリーの異なるネットワークから得られる当選チケットを微調整する様々な戦略を提案する。
論文 参考訳(メタデータ) (2021-03-30T17:53:45Z) - Lottery Ticket Implies Accuracy Degradation, Is It a Desirable
Phenomenon? [43.47794674403988]
ディープモデル圧縮では、最近の発見 "Lottery Ticket Hypothesis" (LTH) (Frankle & Carbin) は、勝利チケットが存在する可能性があることを指摘しました。
勝利特性の背後にある基礎的条件と理論的根拠を調査し,その基礎的理由が重みと最終訓練重みの相関関係に大きく関係していることを見いだした。
宝くじのスパーストレーニングを一貫して上回る"pruning & fine-tuning"方式を提案します。
論文 参考訳(メタデータ) (2021-02-19T14:49:46Z) - Good Students Play Big Lottery Better [84.6111281091602]
宝くじの仮説は、高密度ニューラルネットワークは、元の高密度ネットのテスト精度に一致できる疎サブネットワークを含むことを示唆している。
近年の研究では、巻き戻し技術を用いてスパースサブネットワークが得られることが示されている。
本論文では,KDチケット (Knowledge Distillation Ticket) と呼ばれるサブネットワークを再訓練する手法を提案する。
論文 参考訳(メタデータ) (2021-01-08T23:33:53Z) - The Lottery Ticket Hypothesis for Pre-trained BERT Networks [137.99328302234338]
自然言語処理(NLP)では、BERTのような巨大な事前学習モデルがトレーニングの標準出発点となっている。
並行して、抽選券仮説の研究により、NLPとコンピュータビジョンのモデルには、完全精度で個別にトレーニングできる小さなマッチングワークが含まれていることが示されている。
これらの観測と組み合わせて、トレーニング済みのBERTモデルにそのようなトレーニング可能なトランスファーブルワークが存在するかどうかを評価する。
論文 参考訳(メタデータ) (2020-07-23T19:35:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。