論文の概要: Network Pruning That Matters: A Case Study on Retraining Variants
- arxiv url: http://arxiv.org/abs/2105.03193v1
- Date: Fri, 7 May 2021 12:03:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-10 12:26:49.626723
- Title: Network Pruning That Matters: A Case Study on Retraining Variants
- Title(参考訳): ネットワーク・プルーニングの現状と課題 : リトレーニング・バリアントを事例として
- Authors: Duong H. Le, Binh-Son Hua
- Abstract要約: 本研究では,異なる再訓練機構の有効性について検討する。
ランダムに刈り取られたネットワークは、系統的に刈り取られたネットワークよりも優れた性能を達成できるという、直観に反する現象を示す。
- 参考スコア(独自算出の注目度): 11.503165599245467
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Network pruning is an effective method to reduce the computational expense of
over-parameterized neural networks for deployment on low-resource systems.
Recent state-of-the-art techniques for retraining pruned networks such as
weight rewinding and learning rate rewinding have been shown to outperform the
traditional fine-tuning technique in recovering the lost accuracy (Renda et
al., 2020), but so far it is unclear what accounts for such performance. In
this work, we conduct extensive experiments to verify and analyze the uncanny
effectiveness of learning rate rewinding. We find that the reason behind the
success of learning rate rewinding is the usage of a large learning rate.
Similar phenomenon can be observed in other learning rate schedules that
involve large learning rates, e.g., the 1-cycle learning rate schedule (Smith
et al., 2019). By leveraging the right learning rate schedule in retraining, we
demonstrate a counter-intuitive phenomenon in that randomly pruned networks
could even achieve better performance than methodically pruned networks
(fine-tuned with the conventional approach). Our results emphasize the
cruciality of the learning rate schedule in pruned network retraining - a
detail often overlooked by practitioners during the implementation of network
pruning. One-sentence Summary: We study the effective of different retraining
mechanisms while doing pruning
- Abstract(参考訳): ネットワークプルーニングは、低リソースシステムへのデプロイのための過パラメータニューラルネットワークの計算コストを削減する効果的な方法である。
近年では、重みの巻き戻しや学習率の巻き戻しといった最先端のネットワークを訓練する技術が、失われた精度を回復する従来の微調整技術よりも優れていることが示されている(renda et al., 2020)。
本研究では,学習率の巻き戻し効果を検証・分析するために,広範囲にわたる実験を行った。
学習率の巻き戻しの成功の背景にあるのは,大きな学習率の利用であることがわかった。
同様の現象は、例えば1サイクルの学習率スケジュール(Smith et al., 2019)のような大きな学習率を含む他の学習率スケジュールでも見られる。
再学習において適切な学習率スケジュールを活用することで、ランダムに切断されたネットワークは、(従来のアプローチで微調整された)体系的に切断されたネットワークよりも優れた性能を達成できるという反直感現象を実証する。
本研究は,ネットワーク再トレーニングにおける学習率スケジュールの重要さを強調するものである。
one-sentence summary: 刈り取りをしながら異なるリトレーニング機構の有効性について検討する。
関連論文リスト
- Normalization and effective learning rates in reinforcement learning [52.59508428613934]
正規化層は近年,深層強化学習と連続学習文学においてルネッサンスを経験している。
正規化は、ネットワークパラメータのノルムにおける成長と効果的な学習速度における崩壊の間の等価性という、微妙だが重要な副作用をもたらすことを示す。
そこで本研究では,正規化・プロジェクトと呼ぶ単純な再パラメータ化により,学習率を明示的にする手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T20:58:01Z) - Understanding the Generalization Benefits of Late Learning Rate Decay [14.471831651042367]
ニューラルネットワークにおけるトレーニングとテスト損失の関係を示す。
本稿では、実際のニューラルネットワークで観測された損失景観を反映した非線形モデルを提案する。
学習率の高い拡張フェーズが、トレーニング損失の最小限の標準解に向けて、我々のモデルを導いてくれることを実証する。
論文 参考訳(メタデータ) (2024-01-21T21:11:09Z) - Effect of Choosing Loss Function when Using T-batching for
Representation Learning on Dynamic Networks [0.0]
Tバッチは動的ネットワークモデルをトレーニングする上で貴重なテクニックである。
t-batchingで使用する訓練損失関数の制限について検討した。
これらの問題を克服する2つの代替損失関数を提案し、結果としてトレーニング性能が向上する。
論文 参考訳(メタデータ) (2023-08-13T23:34:36Z) - Stimulative Training++: Go Beyond The Performance Limits of Residual
Networks [91.5381301894899]
残余のネットワークは大きな成功を収め、最近のディープニューラルネットワークモデルでは欠かせないものになっている。
従来の研究では、残余ネットワークは浅いネットワークのアンサンブルと見なせることが示唆されている。
残余ネットワーク内のワークは、単独で作業するよりもグループとして働く場合の労力を減らしがちである。
論文 参考訳(メタデータ) (2023-05-04T02:38:11Z) - Detachedly Learn a Classifier for Class-Incremental Learning [11.865788374587734]
本稿では,バニラ体験リプレイ(ER)の失敗は,従来のタスクの不要な再学習と,現在のタスクと以前のタスクとを区別する能力の欠如が原因であることを示す。
本稿では,新しいリプレイ戦略・タスク認識体験リプレイを提案する。
実験の結果,本手法は最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-02-23T01:35:44Z) - Theoretical Characterization of How Neural Network Pruning Affects its
Generalization [131.1347309639727]
この研究は、異なるプルーニング率がモデルの勾配降下ダイナミクスと一般化にどのように影響するかを研究する最初の試みである。
プルーニング率が一定の閾値以下である限り、勾配降下はトレーニング損失をゼロに導くことができる。
より驚くべきことに、プルーニング分数が大きくなるにつれて、一般化境界はより良くなる。
論文 参考訳(メタデータ) (2023-01-01T03:10:45Z) - Recursive Least-Squares Estimator-Aided Online Learning for Visual
Tracking [58.14267480293575]
オフライン学習を必要とせず、簡単な効果的なオンライン学習手法を提案する。
これは、モデルが以前見たオブジェクトに関する知識を記憶するための、内蔵されたメモリ保持メカニズムを可能にする。
我々は、RT-MDNetにおける多層パーセプトロンと、DiMPにおける畳み込みニューラルネットワークの追跡のためのオンライン学習ファミリーにおける2つのネットワークに基づくアプローチを評価する。
論文 参考訳(メタデータ) (2021-12-28T06:51:18Z) - Sparse Training via Boosting Pruning Plasticity with Neuroregeneration [79.78184026678659]
本研究では, プラスティック性の観点から, 訓練を通しての刈り込みの効果について検討した。
ゼロコスト神経再生(GraNet)と動的スパーストレーニング(DST)変異(GraNet-ST)を併用した段階的プラニング(gradual pruning)法を考案した。
おそらく最も印象的なのは、ImageNet上のResNet-50との大きなマージンで、さまざまな密集したスパースメソッドに対するスパース・ツー・スパーストレーニングのパフォーマンスを初めて向上させたことだ。
論文 参考訳(メタデータ) (2021-06-19T02:09:25Z) - Sparsity in Deep Learning: Pruning and growth for efficient inference
and training in neural networks [78.47459801017959]
Sparsityは、モバイル機器に適合する通常のネットワークのメモリフットプリントを減らすことができる。
ニューラルネットワークの要素を除去および追加するためのアプローチ、モデルの疎性を達成するための異なるトレーニング戦略、実際に疎性を利用するメカニズムについて説明する。
論文 参考訳(メタデータ) (2021-01-31T22:48:50Z) - Retrospective Loss: Looking Back to Improve Training of Deep Neural
Networks [15.329684157845872]
我々は、ディープニューラルネットワークモデルのトレーニングを改善するために、新しい振り返り損失を導入する。
レトロスペクティブの損失を最小限に抑え、タスク固有の損失と共に、現在のトレーニングステップでパラメータ状態を最適なパラメータ状態にプッシュします。
簡単なアイデアではあるが、我々はこの手法を解析し、ドメイン全体にわたる包括的な実験を行う。
論文 参考訳(メタデータ) (2020-06-24T10:16:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。