論文の概要: Top-KAST: Top-K Always Sparse Training
- arxiv url: http://arxiv.org/abs/2106.03517v1
- Date: Mon, 7 Jun 2021 11:13:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-08 18:31:58.742689
- Title: Top-KAST: Top-K Always Sparse Training
- Title(参考訳): Top-KAST:Top-K Always Sparse Training
- Authors: Siddhant M. Jayakumar, Razvan Pascanu, Jack W. Rae, Simon Osindero,
Erich Elsen
- Abstract要約: トレーニングを通して一定間隔を保存するTop-KASTを提案する。
確立したImageNetベンチマークのトレーニングモデルでは,従来の作業と同等かそれ以上に動作可能であることを示す。
ImageNetの結果に加えて、言語モデリングの分野においても、我々のアプローチを実証しています。
- 参考スコア(独自算出の注目度): 50.05611544535801
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sparse neural networks are becoming increasingly important as the field seeks
to improve the performance of existing models by scaling them up, while
simultaneously trying to reduce power consumption and computational footprint.
Unfortunately, most existing methods for inducing performant sparse models
still entail the instantiation of dense parameters, or dense gradients in the
backward-pass, during training. For very large models this requirement can be
prohibitive. In this work we propose Top-KAST, a method that preserves constant
sparsity throughout training (in both the forward and backward-passes). We
demonstrate the efficacy of our approach by showing that it performs comparably
to or better than previous works when training models on the established
ImageNet benchmark, whilst fully maintaining sparsity. In addition to our
ImageNet results, we also demonstrate our approach in the domain of language
modeling where the current best performing architectures tend to have tens of
billions of parameters and scaling up does not yet seem to have saturated
performance. Sparse versions of these architectures can be run with
significantly fewer resources, making them more widely accessible and
applicable. Furthermore, in addition to being effective, our approach is
straightforward and can easily be implemented in a wide range of existing
machine learning frameworks with only a few additional lines of code. We
therefore hope that our contribution will help enable the broader community to
explore the potential held by massive models, without incurring massive
computational cost.
- Abstract(参考訳): スパースニューラルネットワークは、既存のモデルのスケールアップによるパフォーマンス向上と、消費電力と計算フットプリントの削減を同時に図りながら、ますます重要になっている。
残念なことに、パフォーマンススパースモデルを誘導する既存の手法は、トレーニング中も高密度パラメータや後方通過における密度勾配のインスタンス化を必要とする。
非常に大きなモデルでは、この要件は禁じられる。
本研究は,(前方パスと後方パスの両方において)トレーニングを通して一定のスパース性を保持する方法であるtop-kastを提案する。
提案手法の有効性は,既存のImageNetベンチマークのトレーニングモデルにおいて,従来と同等以上の性能を示しながら,空間性を完全に維持していることを示す。
ImageNetの結果に加えて、現在の最高のパフォーマンスアーキテクチャが数千億のパラメータを持つ傾向にあり、スケールアップがまだ飽和したパフォーマンスを持っていない言語モデリングの分野においても、私たちのアプローチを実証しています。
これらのアーキテクチャのスパースバージョンは、はるかに少ないリソースで実行でき、より広くアクセス可能で適用可能である。
さらに、効果的であることに加えて、私たちのアプローチは単純で、数行のコードだけで、幅広い既存の機械学習フレームワークで簡単に実装できます。
それゆえ私たちは、我々の貢献が、膨大な計算コストを伴わずに、広範囲のコミュニティが巨大なモデルが持つ可能性を探求するのに役立つことを期待しています。
関連論文リスト
- Exploring the design space of deep-learning-based weather forecasting systems [56.129148006412855]
本稿では,異なる設計選択がディープラーニングに基づく天気予報システムに与える影響を系統的に分析する。
UNet、完全畳み込みアーキテクチャ、トランスフォーマーベースモデルなどの固定グリッドアーキテクチャについて検討する。
固定グリッドモデルの強靭な性能とグリッド不変アーキテクチャの柔軟性を組み合わせたハイブリッドシステムを提案する。
論文 参考訳(メタデータ) (2024-10-09T22:25:50Z) - Always-Sparse Training by Growing Connections with Guided Stochastic
Exploration [46.4179239171213]
本研究では,より大規模かつスペーサーなモデルへのスケーリングに優れる,効率的な常時スパーストレーニングアルゴリズムを提案する。
我々は,VGGモデルとVTモデルを用いて,CIFAR-10/100 と ImageNet の手法を評価し,様々なスペーサー化手法と比較した。
論文 参考訳(メタデータ) (2024-01-12T21:32:04Z) - Efficiently Robustify Pre-trained Models [18.392732966487582]
大規模モデルの現実的な設定に対する堅牢性は、いまだ探索されていないトピックである。
まず、異なる摂動とデータセットの下でこれらのモデルのパフォーマンスをベンチマークします。
続いて、大規模ネットワークにおいて、モデルファインチューニングに基づく既存のロバスト化スキームが拡張性に欠ける可能性について論じる。
論文 参考訳(メタデータ) (2023-09-14T08:07:49Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Receptive Field Refinement for Convolutional Neural Networks Reliably
Improves Predictive Performance [1.52292571922932]
本稿では,このような理論的および経験的性能向上をもたらす受容場解析への新たなアプローチを提案する。
我々のアプローチは、広く知られたSOTA(State-of-the-art)モデルクラスにおいて、ImageNet1Kのパフォーマンスを改善することができる。
論文 参考訳(メタデータ) (2022-11-26T05:27:44Z) - Powerpropagation: A sparsity inducing weight reparameterisation [65.85142037667065]
我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。
この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。
ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-10-01T10:03:57Z) - Towards Practical Lipreading with Distilled and Efficient Models [57.41253104365274]
ニューラルネットワークの復活により、リリーディングは多くの進歩を目の当たりにした。
最近の研究は、最適なアーキテクチャを見つけるか、一般化を改善することで、パフォーマンスを改善するといった側面に重点を置いている。
現在の方法論と、実践的なシナリオにおける効果的なリップリーディングのデプロイ要件との間には、依然として大きなギャップがあります。
まず, LRW と LRW-1000 をそれぞれ 88.5% と 46.6% に比例して, 最先端の性能を高めることを提案する。
論文 参考訳(メタデータ) (2020-07-13T16:56:27Z) - Dynamic Model Pruning with Feedback [64.019079257231]
余分なオーバーヘッドを伴わずにスパーストレーニングモデルを生成する新しいモデル圧縮法を提案する。
CIFAR-10 と ImageNet を用いて本手法の評価を行い,得られたスパースモデルが高密度モデルの最先端性能に到達可能であることを示す。
論文 参考訳(メタデータ) (2020-06-12T15:07:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。