論文の概要: Powerpropagation: A sparsity inducing weight reparameterisation
- arxiv url: http://arxiv.org/abs/2110.00296v1
- Date: Fri, 1 Oct 2021 10:03:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-04 14:49:47.577143
- Title: Powerpropagation: A sparsity inducing weight reparameterisation
- Title(参考訳): パワープロパゲーション:ウェイトレパラメトリゼーションを誘導するスパーシティ
- Authors: Jonathan Schwarz and Siddhant M. Jayakumar and Razvan Pascanu and
Peter E. Latham and Yee Whye Teh
- Abstract要約: 我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。
この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。
ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
- 参考スコア(独自算出の注目度): 65.85142037667065
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The training of sparse neural networks is becoming an increasingly important
tool for reducing the computational footprint of models at training and
evaluation, as well enabling the effective scaling up of models. Whereas much
work over the years has been dedicated to specialised pruning techniques,
little attention has been paid to the inherent effect of gradient based
training on model sparsity. In this work, we introduce Powerpropagation, a new
weight-parameterisation for neural networks that leads to inherently sparse
models. Exploiting the behaviour of gradient descent, our method gives rise to
weight updates exhibiting a "rich get richer" dynamic, leaving low-magnitude
parameters largely unaffected by learning. Models trained in this manner
exhibit similar performance, but have a distribution with markedly higher
density at zero, allowing more parameters to be pruned safely. Powerpropagation
is general, intuitive, cheap and straight-forward to implement and can readily
be combined with various other techniques. To highlight its versatility, we
explore it in two very different settings: Firstly, following a recent line of
work, we investigate its effect on sparse training for resource-constrained
settings. Here, we combine Powerpropagation with a traditional weight-pruning
technique as well as recent state-of-the-art sparse-to-sparse algorithms,
showing superior performance on the ImageNet benchmark. Secondly, we advocate
the use of sparsity in overcoming catastrophic forgetting, where compressed
representations allow accommodating a large number of tasks at fixed model
capacity. In all cases our reparameterisation considerably increases the
efficacy of the off-the-shelf methods.
- Abstract(参考訳): スパースニューラルネットワークのトレーニングは、トレーニングと評価におけるモデルの計算フットプリントを削減し、モデルの効果的なスケールアップを可能にするための、ますます重要なツールになりつつある。
長年にわたる多くの作業がプルーニング技術に特化されてきたが、勾配に基づくトレーニングがモデル空間に与える影響にはほとんど注意が払われていない。
本研究では,ニューラルネットワークの新しい重みパラメータ化手法であるPowerpropagationを導入する。
勾配降下の挙動をエクスプロイトすることにより,「豊かに富む」ダイナミックさを示す重み更新が生じ,低マグニチュードパラメータは学習の影響を受けない。
この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。
パワープロパゲーションは一般的に、直感的で、安価で実装が容易で、他の様々な技術と組み合わせることができる。
その汎用性を強調するために、我々は2つの異なる設定で検討する。 まず、最近の作業に従って、リソース制約された設定のスパーストレーニングにその影響について調査する。
ここでは,従来の重み付け手法と,最新の最先端のスパース・ツー・スパースアルゴリズムを組み合わせることで,imagenetベンチマークで優れた性能を示す。
第二に, 圧縮された表現により, モデルキャパシティに多数のタスクを収容することが可能な, 破滅的忘れを克服するための疎結合の活用を提唱する。
いずれの場合も、再パラメータ化はオフザシェルフ法の有効性を著しく向上させる。
関連論文リスト
- HyperSparse Neural Networks: Shifting Exploration to Exploitation
through Adaptive Regularization [18.786142528591355]
スパースニューラルネットワークは、リソース効率のよい機械学習アプリケーションを開発する上で重要な要素である。
本稿では,高密度をスパースネットワークに圧縮する適応正規化学習(ART)を提案する。
本手法は,事前学習したモデル知識を最大級の重みに圧縮する。
論文 参考訳(メタデータ) (2023-08-14T14:18:11Z) - Accurate Neural Network Pruning Requires Rethinking Sparse Optimization [87.90654868505518]
標準コンピュータビジョンと自然言語処理の疎度ベンチマークを用いたモデルトレーニングにおいて,高い疎度が与える影響について述べる。
本稿では,視覚モデルのスパース事前学習と言語モデルのスパース微調整の両面において,この問題を軽減するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-08-03T21:49:14Z) - FOSTER: Feature Boosting and Compression for Class-Incremental Learning [52.603520403933985]
ディープニューラルネットワークは、新しいカテゴリーを学ぶ際に破滅的な忘れ方に悩まされる。
本稿では,新たなカテゴリを適応的に学習するためのモデルとして,新しい2段階学習パラダイムFOSTERを提案する。
論文 参考訳(メタデータ) (2022-04-10T11:38:33Z) - Dynamic Collective Intelligence Learning: Finding Efficient Sparse Model
via Refined Gradients for Pruned Weights [31.68257673664519]
動的プルーニング法は, STE(Straight-Through-Estimator)を用いて, プルーニング重量の勾配を近似することにより, トレーニング中に多様なスペーサ性パターンを求める。
我々は,2組の重みから2つの前方経路を形成することにより,刈り上げ重みを更新するための洗練された勾配を導入する。
本稿では,両重み集合の集合的知性間の学習相乗効果を利用した新しい動的集団知能学習(DCIL)を提案する。
論文 参考訳(メタデータ) (2021-09-10T04:41:17Z) - Top-KAST: Top-K Always Sparse Training [50.05611544535801]
トレーニングを通して一定間隔を保存するTop-KASTを提案する。
確立したImageNetベンチマークのトレーニングモデルでは,従来の作業と同等かそれ以上に動作可能であることを示す。
ImageNetの結果に加えて、言語モデリングの分野においても、我々のアプローチを実証しています。
論文 参考訳(メタデータ) (2021-06-07T11:13:05Z) - Provable Benefits of Overparameterization in Model Compression: From
Double Descent to Pruning Neural Networks [38.153825455980645]
最近の実証的な証拠は、オーバライゼーションの実践が大きなモデルのトレーニングに利益をもたらすだけでなく、軽量モデルの構築を支援することも示している。
本稿では,モデル刈り込みの高次元ツールセットを理論的に特徴付けることにより,これらの経験的発見に光を当てる。
もっとも情報に富む特徴の位置が分かっていても、我々は大きなモデルに適合し、刈り取るのがよい体制を解析的に特定する。
論文 参考訳(メタデータ) (2020-12-16T05:13:30Z) - Towards Practical Lipreading with Distilled and Efficient Models [57.41253104365274]
ニューラルネットワークの復活により、リリーディングは多くの進歩を目の当たりにした。
最近の研究は、最適なアーキテクチャを見つけるか、一般化を改善することで、パフォーマンスを改善するといった側面に重点を置いている。
現在の方法論と、実践的なシナリオにおける効果的なリップリーディングのデプロイ要件との間には、依然として大きなギャップがあります。
まず, LRW と LRW-1000 をそれぞれ 88.5% と 46.6% に比例して, 最先端の性能を高めることを提案する。
論文 参考訳(メタデータ) (2020-07-13T16:56:27Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。