論文の概要: Learning Low-rank Deep Neural Networks via Singular Vector Orthogonality
Regularization and Singular Value Sparsification
- arxiv url: http://arxiv.org/abs/2004.09031v1
- Date: Mon, 20 Apr 2020 02:40:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-11 17:44:08.816174
- Title: Learning Low-rank Deep Neural Networks via Singular Vector Orthogonality
Regularization and Singular Value Sparsification
- Title(参考訳): Singular Vector Orthogonality RegularizationとSingular Value Sparsificationによる低ランクディープニューラルネットワークの学習
- Authors: Huanrui Yang, Minxue Tang, Wei Wen, Feng Yan, Daniel Hu, Ang Li, Hai
Li, Yiran Chen
- Abstract要約: 各ステップにSVDを適用することなく、トレーニング中に低ランクDNNを明示的に達成する最初の方法であるSVDトレーニングを提案する。
SVDトレーニングがDNN層のランクを著しく低減し,同じ精度で計算負荷の低減を実現することを実証的に示す。
- 参考スコア(独自算出の注目度): 53.50708351813565
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern deep neural networks (DNNs) often require high memory consumption and
large computational loads. In order to deploy DNN algorithms efficiently on
edge or mobile devices, a series of DNN compression algorithms have been
explored, including factorization methods. Factorization methods approximate
the weight matrix of a DNN layer with the multiplication of two or multiple
low-rank matrices. However, it is hard to measure the ranks of DNN layers
during the training process. Previous works mainly induce low-rank through
implicit approximations or via costly singular value decomposition (SVD)
process on every training step. The former approach usually induces a high
accuracy loss while the latter has a low efficiency. In this work, we propose
SVD training, the first method to explicitly achieve low-rank DNNs during
training without applying SVD on every step. SVD training first decomposes each
layer into the form of its full-rank SVD, then performs training directly on
the decomposed weights. We add orthogonality regularization to the singular
vectors, which ensure the valid form of SVD and avoid gradient
vanishing/exploding. Low-rank is encouraged by applying sparsity-inducing
regularizers on the singular values of each layer. Singular value pruning is
applied at the end to explicitly reach a low-rank model. We empirically show
that SVD training can significantly reduce the rank of DNN layers and achieve
higher reduction on computation load under the same accuracy, comparing to not
only previous factorization methods but also state-of-the-art filter pruning
methods.
- Abstract(参考訳): 現代のディープニューラルネットワーク(DNN)は、しばしば高いメモリ消費と大きな計算負荷を必要とする。
エッジやモバイルデバイス上で効率的にDNNアルゴリズムをデプロイするために,因子化手法を含む一連のDNN圧縮アルゴリズムが検討されている。
因子化法は、DNN層の重み行列を2つまたは複数の低ランク行列の乗算で近似する。
しかし,訓練中のdnn層のランクを計測することは困難である。
従来の研究は主に暗黙の近似やコスト特異値分解(SVD)プロセスを通じて低ランクを誘導する。
前者のアプローチは通常高い精度の損失を誘発するが、後者の効率は低い。
本研究では,各ステップにSVDを適用することなく,トレーニング中に低ランクDNNを明示的に達成するためのSVDトレーニングを提案する。
SVDトレーニングはまず各レイヤをフルランクのSVDの形式に分解し、その後、分解した重量を直接トレーニングする。
特異ベクトルに直交正則化を加え、SVDの有効な形式を保証し、勾配の消滅/展開を避ける。
低ランクは各層の特異値にスパーシティー誘導正則化器を適用することで促進される。
末尾に特異値プルーニングを適用して、低ランクモデルに明示的に到達する。
SVDトレーニングはDNN層のランクを著しく下げることができ、従来の分解法だけでなく、最先端のフィルタプルーニング法と比較して、同じ精度で計算負荷の低減を実現することができることを実証的に示す。
関連論文リスト
- Maestro: Uncovering Low-Rank Structures via Trainable Decomposition [15.254107731735553]
近年、ディープニューラルネットワーク(DNN)はAIのブレークスルーの大きな要因となっている。
より正確で安全になるにつれて、ますます大きなものになってきています。
つまり、トレーニングはますますコストと時間がかかります。
トレーニング可能な低ランク層のためのフレームワークであるMaestroを提案する。
論文 参考訳(メタデータ) (2023-08-28T23:08:15Z) - Layer-wise Adaptive Step-Sizes for Stochastic First-Order Methods for
Deep Learning [8.173034693197351]
深層学習における一階最適化のための新しい階層ごとの適応的なステップサイズ手順を提案する。
提案手法は,ディープニューラルネットワーク(DNN)におけるヘシアン対角ブロックに含まれる層次曲率情報を用いて,各層に対する適応的なステップサイズ(LR)を算出する。
数値実験により、SGDの運動量とAdamWと、提案した層ごとのステップサイズを組み合わせることで、効率的なLRスケジュールを選択できることが示されている。
論文 参考訳(メタデータ) (2023-05-23T04:12:55Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - Variational Sparse Coding with Learned Thresholding [6.737133300781134]
サンプルをしきい値にすることでスパース分布を学習できる変分スパース符号化の新しい手法を提案する。
まず,線形発生器を訓練し,その性能,統計的効率,勾配推定に優れることを示す。
論文 参考訳(メタデータ) (2022-05-07T14:49:50Z) - DNN Training Acceleration via Exploring GPGPU Friendly Sparsity [16.406482603838157]
本稿では、従来のランダムなニューロンやシナプスのドロップアウトを、通常のオンラインの行ベースもしくはタイルベースのドロップアウトパターンに置き換える近似ランダムドロップアウトを提案する。
次に,SGDに基づく探索アルゴリズムを開発し,行ベースあるいはタイルベースのドロップアウトパターンの分布を生成し,潜在的な精度損失を補う。
また,入力特徴図をその感度に基づいて動的にドロップアウトし,前向きおよび後向きのトレーニングアクセラレーションを実現するための感度対応ドロップアウト手法を提案する。
論文 参考訳(メタデータ) (2022-03-11T01:32:03Z) - AC/DC: Alternating Compressed/DeCompressed Training of Deep Neural
Networks [78.62086125399831]
本稿では、ディープニューラルネットワーク(DNN)のAC/DCトレーニング(Alternating Compressed/DeCompressed)と呼ばれる一般的なアプローチを提案する。
AC/DCは、類似の計算予算で既存のスパーストレーニング方法よりも精度が高い。
AC/DCの重要な特性は、密度とスパースモデルのコトレーニングが可能であり、トレーニングプロセスの終了時に正確なスパース・ダンスモデルペアが得られることである。
論文 参考訳(メタデータ) (2021-06-23T13:23:00Z) - Effective Model Sparsification by Scheduled Grow-and-Prune Methods [73.03533268740605]
本稿では,高密度モデルの事前学習を伴わない新規なGrow-and-prune(GaP)手法を提案する。
実験により、そのようなモデルは様々なタスクにおいて80%の間隔で高度に最適化された高密度モデルの品質に適合または打ち勝つことができることが示された。
論文 参考訳(メタデータ) (2021-06-18T01:03:13Z) - Why Approximate Matrix Square Root Outperforms Accurate SVD in Global
Covariance Pooling? [59.820507600960745]
本稿では,前方通過のSVDと後方伝播のPad'e近似を用いて勾配を計算する新しいGCPメタ層を提案する。
提案するメタレイヤは,さまざまなCNNモデルに統合され,大規模および微細なデータセット上で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-05-06T08:03:45Z) - Gradient Centralization: A New Optimization Technique for Deep Neural
Networks [74.935141515523]
勾配集中(GC)は、勾配ベクトルをゼロ平均とする集中化によって、勾配を直接操作する。
GCは、制約された損失関数を持つ射影勾配降下法とみなすことができる。
GCは実装が非常に簡単で、1行のコードだけで既存のグラデーションベースのDNNに簡単に組み込める。
論文 参考訳(メタデータ) (2020-04-03T10:25:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。