論文の概要: Neural gradients are near-lognormal: improved quantized and sparse
training
- arxiv url: http://arxiv.org/abs/2006.08173v3
- Date: Mon, 12 Oct 2020 14:18:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 03:32:22.158979
- Title: Neural gradients are near-lognormal: improved quantized and sparse
training
- Title(参考訳): 神経勾配は異常に近い-量子化とスパーストレーニングの改善
- Authors: Brian Chmiel, Liad Ben-Uri, Moran Shkolnik, Elad Hoffer, Ron Banner,
Daniel Soudry
- Abstract要約: 神経勾配の分布は概ね対数正規である。
神経勾配の計算と記憶の負担を軽減するための2つの閉形式解析法を提案する。
我々の知る限り,本論文は,(1)6ビット浮動小数点形式への勾配の定量化,あるいは(2)精度の低い場合において,最大85%の勾配間隔を達成した最初の論文である。
- 参考スコア(独自算出の注目度): 35.28451407313548
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While training can mostly be accelerated by reducing the time needed to
propagate neural gradients back throughout the model, most previous works focus
on the quantization/pruning of weights and activations. These methods are often
not applicable to neural gradients, which have very different statistical
properties. Distinguished from weights and activations, we find that the
distribution of neural gradients is approximately lognormal. Considering this,
we suggest two closed-form analytical methods to reduce the computational and
memory burdens of neural gradients. The first method optimizes the
floating-point format and scale of the gradients. The second method accurately
sets sparsity thresholds for gradient pruning. Each method achieves
state-of-the-art results on ImageNet. To the best of our knowledge, this paper
is the first to (1) quantize the gradients to 6-bit floating-point formats, or
(2) achieve up to 85% gradient sparsity -- in each case without accuracy
degradation. Reference implementation accompanies the paper.
- Abstract(参考訳): トレーニングは主に、モデル全体にわたって神経勾配を伝播させるのに必要な時間を短縮することで加速することができるが、以前のほとんどの研究は重みとアクティベーションの量子化/プルーニングに重点を置いていた。
これらの方法は、非常に異なる統計特性を持つ神経勾配には適用されないことが多い。
重みと活性化とは区別され、神経勾配の分布はおよそ対数正規である。
そこで本研究では,ニューラルグラデーションの計算量とメモリ負荷を低減する2つのクローズドフォーム解析手法を提案する。
最初の方法は浮動小数点の形式と勾配のスケールを最適化する。
第2の方法は、勾配刈りの間隔閾値を正確に設定する。
各メソッドはimagenetで最先端の結果を得る。
我々の知る限り,本論文は,(1)6ビット浮動小数点形式への勾配の定量化,あるいは(2)最大85%の勾配間隔を,精度の劣化を伴わずに達成した最初の論文である。
参照実装はその論文に付随する。
関連論文リスト
- How to guess a gradient [68.98681202222664]
我々は、勾配が以前考えられていたよりもより構造化されていることを示す。
この構造をエクスプロイトすると、勾配のない最適化スキームが大幅に改善される。
厳密な勾配の最適化と勾配の推測の間に大きなギャップを克服する上での新たな課題を強調した。
論文 参考訳(メタデータ) (2023-12-07T21:40:44Z) - Neural Gradient Learning and Optimization for Oriented Point Normal
Estimation [53.611206368815125]
本研究では,3次元点雲から勾配ベクトルを一貫した向きで学習し,正規推定を行うためのディープラーニング手法を提案する。
局所平面幾何に基づいて角距離場を学習し、粗勾配ベクトルを洗練する。
本手法は,局所特徴記述の精度と能力の一般化を図りながら,グローバル勾配近似を効率的に行う。
論文 参考訳(メタデータ) (2023-09-17T08:35:11Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - On Training Implicit Models [75.20173180996501]
ファントム勾配(ファントム勾配)と呼ばれる暗黙モデルに対する新しい勾配推定法を提案し、正確な勾配の計算コストを抑える。
大規模タスクの実験では、これらの軽量ファントム勾配が暗黙の訓練モデルの後方通過を約1.7倍加速することを示した。
論文 参考訳(メタデータ) (2021-11-09T14:40:24Z) - Continuous vs. Discrete Optimization of Deep Neural Networks [15.508460240818575]
均一な活性化を伴う深層ニューラルネットワーク上では、勾配流軌跡が良好な曲率を享受できることが示される。
この発見により、深い線形ニューラルネットワーク上の勾配流の解析を、勾配勾配が効率的に大域最小限に収束することを保証できる。
我々は、勾配流の理論が深層学習の背後にある謎の解き放つ中心となると仮定する。
論文 参考訳(メタデータ) (2021-07-14T10:59:57Z) - Adapting Stepsizes by Momentumized Gradients Improves Optimization and
Generalization [89.66571637204012]
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
論文 参考訳(メタデータ) (2021-06-22T03:13:23Z) - Decreasing scaling transition from adaptive gradient descent to
stochastic gradient descent [1.7874193862154875]
本稿では,適応勾配降下法から勾配勾配降下法DSTAdaへのスケーリング遷移を減少させる手法を提案する。
実験の結果,DSTAdaは高速で精度が高く,安定性と堅牢性も向上した。
論文 参考訳(メタデータ) (2021-06-12T11:28:58Z) - Reparametrizing gradient descent [0.0]
本稿では,ノルム適応勾配勾配という最適化アルゴリズムを提案する。
我々のアルゴリズムは準ニュートン法と比較することもできるが、定常点ではなく根を求める。
論文 参考訳(メタデータ) (2020-10-09T20:22:29Z) - Channel-Directed Gradients for Optimization of Convolutional Neural
Networks [50.34913837546743]
本稿では,畳み込みニューラルネットワークの最適化手法を提案する。
出力チャネル方向に沿って勾配を定義することで性能が向上し,他の方向が有害となることを示す。
論文 参考訳(メタデータ) (2020-08-25T00:44:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。