論文の概要: Successfully Applying the Stabilized Lottery Ticket Hypothesis to the
Transformer Architecture
- arxiv url: http://arxiv.org/abs/2005.03454v2
- Date: Fri, 3 Jul 2020 15:22:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 00:11:44.805696
- Title: Successfully Applying the Stabilized Lottery Ticket Hypothesis to the
Transformer Architecture
- Title(参考訳): 変圧器アーキテクチャへの安定化ロテリチケット仮説の適用に成功
- Authors: Christopher Brix, Parnia Bahar, Hermann Ney
- Abstract要約: 安定化された宝くじのプルーニングは, スパシティレベルが最大85%の場合に, マグニチュードプルーニングと同じような性能を示すことを示す。
パラメータの初期符号が具体的ではなく,その値がトレーニングを成功させる主要な要因であることを確認し,獲得した宝くじを見つけるために,等級プルーニングが有効であることを示す。
- 参考スコア(独自算出の注目度): 47.39346022004215
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sparse models require less memory for storage and enable a faster inference
by reducing the necessary number of FLOPs. This is relevant both for
time-critical and on-device computations using neural networks. The stabilized
lottery ticket hypothesis states that networks can be pruned after none or few
training iterations, using a mask computed based on the unpruned converged
model. On the transformer architecture and the WMT 2014 English-to-German and
English-to-French tasks, we show that stabilized lottery ticket pruning
performs similar to magnitude pruning for sparsity levels of up to 85%, and
propose a new combination of pruning techniques that outperforms all other
techniques for even higher levels of sparsity. Furthermore, we confirm that the
parameter's initial sign and not its specific value is the primary factor for
successful training, and show that magnitude pruning could be used to find
winning lottery tickets.
- Abstract(参考訳): スパースモデルはストレージのメモリを少なくし、必要なFLOP数を減らして高速な推論を可能にする。
これは、ニューラルネットワークを用いた時間クリティカルな計算とオンデバイス計算の両方に関係している。
安定化抽選券仮説では、ネットワークは、未学習の収束モデルに基づいて計算されたマスクを使用して、無または数回のトレーニングイテレーションで刈り取ることができる。
トランスフォーマーアーキテクチャとWMT 2014英語-ドイツ語-英語-フランス語タスクでは、安定化された宝くじのプルーニングが最大85%のスパーシリティレベルでのスケールプルーニングと同じような性能を示し、さらに高いスパーシティレベルのために他のすべての技術より優れたプルーニング技術の組み合わせを提案する。
さらに、パラメータの初期符号が具体的ではなく、トレーニングを成功させる主要な要因であることを確認し、獲得した宝くじを見つけるために等級プルーニングを使用できることを示す。
関連論文リスト
- Playing the Lottery With Concave Regularizers for Sparse Trainable Neural Networks [10.48836159692231]
我々は宝くじを弾くための新しい方法のクラスを提案する。
鍵となる点は、緩和された二元マスクの空間性を促進するために凹凸正則化を使うことである。
提案手法は,最先端のアルゴリズムの性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2025-01-19T18:05:13Z) - Instant Soup: Cheap Pruning Ensembles in A Single Pass Can Draw Lottery
Tickets from Large Models [106.19385911520652]
Lottery Ticket hypothesis (LTH)とその変種は、パラメーターワークを生成する大規模な事前訓練モデルを作成するために利用されてきた。
LTHは反復的フルトレーニングと反復的マグニチュードプルーニング(IMP)のプルーニングルーチンによって著しく抑制される
Instant Soup Pruning (ISP) を提案する。
論文 参考訳(メタデータ) (2023-06-18T03:09:52Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - A Fast Post-Training Pruning Framework for Transformers [74.59556951906468]
プルーニングは、大きなTransformerモデルの巨大な推論コストを削減する効果的な方法である。
モデルプルーニングの以前の作業では、モデルの再トレーニングが必要だった。
本稿では,再学習を必要としないトランスフォーマーのための高速な訓練後プルーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-29T07:41:11Z) - Dual Lottery Ticket Hypothesis [71.95937879869334]
Lottery Ticket hypothesis (LTH)は、スパースネットワークトレーニングを調査し、その能力を維持するための新しい視点を提供する。
本稿では,LTHの当選チケットをトレーニング可能なサブネットワークとして,その性能をベンチマークとして検討する。
本稿では,簡単なスパースネットワークトレーニング戦略であるランダムスパースネットワークトランスフォーメーション(RST)を提案し,DLTHを裏付ける。
論文 参考訳(メタデータ) (2022-03-08T18:06:26Z) - The Lottery Ticket Hypothesis for Object Recognition [39.186511997089575]
Lottery Ticket Hypothesisは、大規模なデータセットで訓練されたディープネットワークには、高密度ネットワークと同等のパフォーマンスを実現する小さなニューラルネットワークが含まれていると述べている。
性能低下を招くことなく、異なるサブタスクに対して最大80%の間隔で宝くじを探す方法に関するガイダンスを提供する。
論文 参考訳(メタデータ) (2020-12-08T18:59:13Z) - FlipOut: Uncovering Redundant Weights via Sign Flipping [0.0]
そこで本研究では,トレーニング中に重みが作用する0ドル前後の振動を用いて,その正当性を決定する新しいプルーニング法を提案する。
提案手法は,ネットワークが収束する前にプルーニングを行うことができ,チューニングの手間が少なく,ユーザが望むスパシティのレベルを直接的にターゲットすることができる。
各種オブジェクト分類アーキテクチャを用いて実施した本実験は,既存手法と競合し,99.6%以上のスパーシリティレベルの最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2020-09-05T20:27:32Z) - Towards Practical Lottery Ticket Hypothesis for Adversarial Training [78.30684998080346]
トレーニングプロセス中にはるかに高速に収束する,前述のサブネットワークのサブセットが存在することを示す。
本研究の実践的応用として,このようなサブネットワークは,対人訓練の総時間を短縮する上で有効であることを示す。
論文 参考訳(メタデータ) (2020-03-06T03:11:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。