論文の概要: Directional Pruning of Deep Neural Networks
- arxiv url: http://arxiv.org/abs/2006.09358v2
- Date: Tue, 13 Oct 2020 19:58:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-20 19:36:44.142575
- Title: Directional Pruning of Deep Neural Networks
- Title(参考訳): 深部ニューラルネットワークの方向決定
- Authors: Shih-Kang Chao, Zhanyu Wang, Yue Xing and Guang Cheng
- Abstract要約: 勾配降下 (SGD) はしばしばトレーニング損失において平坦な最小の谷を見出す。
そこで我々は,その平坦な領域内あるいは近辺のスパース最小化器を探索する新しい方向決定法を提案する。
- 参考スコア(独自算出の注目度): 26.41161344079131
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the light of the fact that the stochastic gradient descent (SGD) often
finds a flat minimum valley in the training loss, we propose a novel
directional pruning method which searches for a sparse minimizer in or close to
that flat region. The proposed pruning method does not require retraining or
the expert knowledge on the sparsity level. To overcome the computational
formidability of estimating the flat directions, we propose to use a carefully
tuned $\ell_1$ proximal gradient algorithm which can provably achieve the
directional pruning with a small learning rate after sufficient training. The
empirical results demonstrate the promising results of our solution in highly
sparse regime (92% sparsity) among many existing pruning methods on the
ResNet50 with the ImageNet, while using only a slightly higher wall time and
memory footprint than the SGD. Using the VGG16 and the wide ResNet 28x10 on the
CIFAR-10 and CIFAR-100, we demonstrate that our solution reaches the same
minima valley as the SGD, and the minima found by our solution and the SGD do
not deviate in directions that impact the training loss. The code that
reproduces the results of this paper is available at
https://github.com/donlan2710/gRDA-Optimizer/tree/master/directional_pruning.
- Abstract(参考訳): 確率的勾配降下 (sgd) が訓練損失において平坦な最小の谷をしばしば発見するという事実を踏まえ, 平坦な領域内あるいはその近傍のスパース最小値を求める新しい方向プルーニング法を提案する。
提案手法では,再訓練やスパルサリティレベルに関する専門家の知識は必要としない。
平坦方向推定の計算可能性を克服するために,十分なトレーニングの後に,少ない学習率で方向プラニングを実現するための,注意深く調整された$\ell_1$ 近位勾配アルゴリズムを提案する。
実験結果から,resnet50では,sgdよりも壁時間とメモリフットプリントがわずかに高いのに対して,resnet50のプルーニング手法の多くにおいて,高いスパースレジーム(92%スパース性)でソリューションの有望な結果が得られた。
CIFAR-10 と CIFAR-100 上の VGG16 と ワイド ResNet 28x10 を用いて、我々の解は SGD と同じミニマバレーに到達し、我々の解と SGD が発見したミニマはトレーニング損失に影響を与える方向に逸脱しないことを示した。
この論文の結果を再現するコードは、https://github.com/donlan2710/grda-optimizer/tree/master/directional_pruningで入手できる。
関連論文リスト
- Instant Complexity Reduction in CNNs using Locality-Sensitive Hashing [50.79602839359522]
本稿では,パラメータフリーでデータフリーなモジュールであるHASTE(Hashing for Tractable Efficiency)を提案する。
局所性感応ハッシュ (LSH) を用いることで, 精度を犠牲にすることなく, 遅延特徴写像を劇的に圧縮することができる。
特に、HASTEモジュール用のCIFAR-10上のResNet34で畳み込みモジュールを切り替えるだけで、FLOPの46.72%を即座に落とすことができる。
論文 参考訳(メタデータ) (2023-09-29T13:09:40Z) - AUTOSPARSE: Towards Automated Sparse Training of Deep Neural Networks [2.6742343015805083]
本稿では,ニューラルネットワーク内に存在する空間の均一分布を探索するグラディエント・アナリング(GA)を提案する。
GAは、余剰を誘導する正規化を必要とせずに、余剰と正確性の間のエレガントなトレードオフを提供する。
GAと最新の学習可能なプルーニング手法を統合し、AutoSparseと呼ばれる自動スパーストレーニングアルゴリズムを作成する。
論文 参考訳(メタデータ) (2023-04-14T06:19:07Z) - Dynamic Sparse Training via Balancing the Exploration-Exploitation
Trade-off [19.230329532065635]
スパーストレーニングは、モデルサイズを減らすことで、トレーニングコストを大幅に削減する可能性がある。
既存のスパーストレーニング方法は、主にランダムベースまたはグリーディベースのドロップ・アンド・グロー戦略を使用する。
本研究では,動的スパース学習をスパース接続探索問題として考察する。
実験の結果,提案手法により得られたスパースモデル(最大98%のスパース)は,SOTAスパース訓練法より優れていた。
論文 参考訳(メタデータ) (2022-11-30T01:22:25Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - Controlled Sparsity via Constrained Optimization or: How I Learned to
Stop Tuning Penalties and Love Constraints [81.46143788046892]
スパースラーニングを行う際には,スパーシティのレベルを制御するタスクに焦点をあてる。
スパーシリティを誘発する罰則に基づく既存の方法は、ペナルティファクターの高価な試行錯誤チューニングを含む。
本稿では,学習目標と所望のスパーシリティ目標によって,エンドツーエンドでスペーシフィケーションをガイドする制約付き定式化を提案する。
論文 参考訳(メタデータ) (2022-08-08T21:24:20Z) - GDP: Stabilized Neural Network Pruning via Gates with Differentiable
Polarization [84.57695474130273]
ゲートベースまたは重要度に基づくプルーニング手法は、重要度が最小のチャネルを削除することを目的としている。
GDPは、各チャネルのオン・アンド・オフを制御するために、ベルやホイッスルのない畳み込み層の前に接続することができる。
CIFAR-10とImageNetデータセットを用いて行った実験は、提案したGDPが最先端のパフォーマンスを達成することを示している。
論文 参考訳(メタデータ) (2021-09-06T03:17:10Z) - Structured Directional Pruning via Perturbation Orthogonal Projection [13.704348351073147]
より合理的なアプローチは、NISTによって発見された平坦な最小の谷に沿ってスパース最小化器を見つけることである。
平坦な最小の谷に摂動を投射する構造的指向性プルーニングを提案する。
実験の結果,VGG16では93.97%,CIFAR-10タスクでは再トレーニングを行なわず,最先端のプルーニング精度が得られた。
論文 参考訳(メタデータ) (2021-07-12T11:35:47Z) - Dep-$L_0$: Improving $L_0$-based Network Sparsification via Dependency
Modeling [6.081082481356211]
L_0$正規化によるディープニューラルネットワークのトレーニングは、ネットワークプルーニングやスパシフィケーションの顕著なアプローチのひとつだ。
本稿では,ImageNet上のResNet50のような大規模学習タスクに対して一貫性のない処理を行うことを示す。
本稿では,多層パーセプトロンとして効果的にモデル化できるバイナリゲートの依存性モデリングを提案する。
論文 参考訳(メタデータ) (2021-06-30T19:33:35Z) - RNN Training along Locally Optimal Trajectories via Frank-Wolfe
Algorithm [50.76576946099215]
小領域の損失面に局所的なミニマを反復的に求めることにより,RNNの新規かつ効率的なトレーニング手法を提案する。
新たなRNNトレーニング手法を開発し,追加コストを伴っても,全体のトレーニングコストがバックプロパゲーションよりも低いことを実証的に観察した。
論文 参考訳(メタデータ) (2020-10-12T01:59:18Z) - A Diffusion Theory For Deep Learning Dynamics: Stochastic Gradient
Descent Exponentially Favors Flat Minima [91.11332770406007]
グラディエントDescent (SGD) は, 鋭いミニマよりも指数関数的に平坦なミニマを好んでいる。
また、小さな学習率か大規模なバッチトレーニングのどちらかが、ミニマから逃れるために指数関数的に多くのイテレーションを必要とすることも明らかにした。
論文 参考訳(メタデータ) (2020-02-10T02:04:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。