論文の概要: Dynamic Sparse Training via Balancing the Exploration-Exploitation
Trade-off
- arxiv url: http://arxiv.org/abs/2211.16667v3
- Date: Mon, 24 Apr 2023 04:24:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-25 23:21:01.994208
- Title: Dynamic Sparse Training via Balancing the Exploration-Exploitation
Trade-off
- Title(参考訳): 探索・探索トレードオフのバランスによる動的スパーストレーニング
- Authors: Shaoyi Huang, Bowen Lei, Dongkuan Xu, Hongwu Peng, Yue Sun, Mimi Xie,
Caiwen Ding
- Abstract要約: スパーストレーニングは、モデルサイズを減らすことで、トレーニングコストを大幅に削減する可能性がある。
既存のスパーストレーニング方法は、主にランダムベースまたはグリーディベースのドロップ・アンド・グロー戦略を使用する。
本研究では,動的スパース学習をスパース接続探索問題として考察する。
実験の結果,提案手法により得られたスパースモデル(最大98%のスパース)は,SOTAスパース訓練法より優れていた。
- 参考スコア(独自算出の注目度): 19.230329532065635
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Over-parameterization of deep neural networks (DNNs) has shown high
prediction accuracy for many applications. Although effective, the large number
of parameters hinders its popularity on resource-limited devices and has an
outsize environmental impact. Sparse training (using a fixed number of nonzero
weights in each iteration) could significantly mitigate the training costs by
reducing the model size. However, existing sparse training methods mainly use
either random-based or greedy-based drop-and-grow strategies, resulting in
local minimal and low accuracy. In this work, we consider the dynamic sparse
training as a sparse connectivity search problem and design an exploitation and
exploration acquisition function to escape from local optima and saddle points.
We further design an acquisition function and provide the theoretical
guarantees for the proposed method and clarify its convergence property.
Experimental results show that sparse models (up to 98\% sparsity) obtained by
our proposed method outperform the SOTA sparse training methods on a wide
variety of deep learning tasks. On VGG-19 / CIFAR-100, ResNet-50 / CIFAR-10,
ResNet-50 / CIFAR-100, our method has even higher accuracy than dense models.
On ResNet-50 / ImageNet, the proposed method has up to 8.2\% accuracy
improvement compared to SOTA sparse training methods.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)のオーバーパラメータ化は、多くのアプリケーションに対して高い予測精度を示している。
有効ではあるが、多くのパラメータはリソース制限されたデバイスでの人気を阻害し、環境への影響を大きくする。
スパーストレーニング(各イテレーションで一定数の非ゼロ重みを使用する)は、モデルサイズを小さくすることでトレーニングコストを大幅に削減することができる。
しかし、既存のスパーストレーニング手法は主にランダムベースまたはグリーディベースのドロップ・アンド・グロウ戦略を使用しており、局所的な最小化と精度の低下をもたらした。
本研究では,動的スパーストレーニングを疎結合探索問題として捉え,局所視眼点や鞍点から逃れるための搾取・探索獲得関数を設計する。
さらに, 獲得関数を設計し, 提案手法の理論的保証を提供し, その収束性を明らかにする。
実験の結果,提案手法により得られたスパースモデル(最大98.%のスパース)は,多種多様な深層学習課題において,SOTAスパース訓練法より優れていることがわかった。
VGG-19/CIFAR-100,ResNet-50/CIFAR-10,ResNet-50/CIFAR-100では,高密度モデルよりも精度が高い。
ResNet-50 / ImageNetでは,SOTAスパース訓練法と比較して最大8.2\%の精度向上を実現している。
関連論文リスト
- Just How Flexible are Neural Networks in Practice? [89.80474583606242]
ニューラルネットワークは、パラメータを持つ少なくとも多くのサンプルを含むトレーニングセットに適合できると広く信じられている。
しかし実際には、勾配や正規化子など、柔軟性を制限したトレーニング手順によるソリューションしか見つからない。
論文 参考訳(メタデータ) (2024-06-17T12:24:45Z) - Accurate Neural Network Pruning Requires Rethinking Sparse Optimization [87.90654868505518]
標準コンピュータビジョンと自然言語処理の疎度ベンチマークを用いたモデルトレーニングにおいて,高い疎度が与える影響について述べる。
本稿では,視覚モデルのスパース事前学習と言語モデルのスパース微調整の両面において,この問題を軽減するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-08-03T21:49:14Z) - AUTOSPARSE: Towards Automated Sparse Training of Deep Neural Networks [2.6742343015805083]
本稿では,ニューラルネットワーク内に存在する空間の均一分布を探索するグラディエント・アナリング(GA)を提案する。
GAは、余剰を誘導する正規化を必要とせずに、余剰と正確性の間のエレガントなトレードオフを提供する。
GAと最新の学習可能なプルーニング手法を統合し、AutoSparseと呼ばれる自動スパーストレーニングアルゴリズムを作成する。
論文 参考訳(メタデータ) (2023-04-14T06:19:07Z) - Two Heads are Better than One: Robust Learning Meets Multi-branch Models [14.72099568017039]
本稿では,従来の対人訓練用データセットのみを用いて,最先端のパフォーマンスを得るために,分岐直交補助訓練(BORT)を提案する。
我々は, CIFAR-10, CIFAR-100, SVHN に対する Epsilon = 8/255 の ell_infty ノルム束縛摂動に対するアプローチを評価した。
論文 参考訳(メタデータ) (2022-08-17T05:42:59Z) - Controlled Sparsity via Constrained Optimization or: How I Learned to
Stop Tuning Penalties and Love Constraints [81.46143788046892]
スパースラーニングを行う際には,スパーシティのレベルを制御するタスクに焦点をあてる。
スパーシリティを誘発する罰則に基づく既存の方法は、ペナルティファクターの高価な試行錯誤チューニングを含む。
本稿では,学習目標と所望のスパーシリティ目標によって,エンドツーエンドでスペーシフィケーションをガイドする制約付き定式化を提案する。
論文 参考訳(メタデータ) (2022-08-08T21:24:20Z) - Structured Directional Pruning via Perturbation Orthogonal Projection [13.704348351073147]
より合理的なアプローチは、NISTによって発見された平坦な最小の谷に沿ってスパース最小化器を見つけることである。
平坦な最小の谷に摂動を投射する構造的指向性プルーニングを提案する。
実験の結果,VGG16では93.97%,CIFAR-10タスクでは再トレーニングを行なわず,最先端のプルーニング精度が得られた。
論文 参考訳(メタデータ) (2021-07-12T11:35:47Z) - Effective Model Sparsification by Scheduled Grow-and-Prune Methods [73.03533268740605]
本稿では,高密度モデルの事前学習を伴わない新規なGrow-and-prune(GaP)手法を提案する。
実験により、そのようなモデルは様々なタスクにおいて80%の間隔で高度に最適化された高密度モデルの品質に適合または打ち勝つことができることが示された。
論文 参考訳(メタデータ) (2021-06-18T01:03:13Z) - A Simple Fine-tuning Is All You Need: Towards Robust Deep Learning Via
Adversarial Fine-tuning [90.44219200633286]
我々は,$textitslow start, fast decay$ learning rate schedulingストラテジーに基づく,単純かつ非常に効果的な敵の微調整手法を提案する。
実験の結果,提案手法はCIFAR-10, CIFAR-100, ImageNetデータセットの最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2020-12-25T20:50:15Z) - Training Sparse Neural Networks using Compressed Sensing [13.84396596420605]
本研究では,プレニングとトレーニングを1ステップに組み合わせた圧縮センシングに基づく新しい手法の開発と試験を行う。
具体的には、トレーニング中の重みを適応的に重み付けした$ell1$のペナルティを利用して、スパースニューラルネットワークをトレーニングするために、正規化二重平均化(RDA)アルゴリズムの一般化と組み合わせる。
論文 参考訳(メタデータ) (2020-08-21T19:35:54Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。