論文の概要: One-Step Forward and Backtrack: Overcoming Zig-Zagging in Loss-Aware
Quantization Training
- arxiv url: http://arxiv.org/abs/2401.16760v1
- Date: Tue, 30 Jan 2024 05:42:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-31 16:08:14.931291
- Title: One-Step Forward and Backtrack: Overcoming Zig-Zagging in Loss-Aware
Quantization Training
- Title(参考訳): ワンステップフォワードとバックトラック:ロスアウェア量子化トレーニングにおけるジグザグの克服
- Authors: Lianbo Ma, Yuee Zhou, Jianlun Ma, Guo Yu, Qing Li
- Abstract要約: 重み量子化は、限られたリソースを持つエッジデバイスに展開するディープニューラルネットワークを圧縮する効果的な手法である。
従来の損失対応量子化法は、全精度勾配を置き換えるために量子化勾配を用いるのが一般的である。
本稿では、損失認識量子化のための1ステップの前進およびバックトラック手法を提案し、より正確で安定した勾配方向を得る。
- 参考スコア(独自算出の注目度): 12.400950982075948
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Weight quantization is an effective technique to compress deep neural
networks for their deployment on edge devices with limited resources.
Traditional loss-aware quantization methods commonly use the quantized gradient
to replace the full-precision gradient. However, we discover that the gradient
error will lead to an unexpected zig-zagging-like issue in the gradient descent
learning procedures, where the gradient directions rapidly oscillate or
zig-zag, and such issue seriously slows down the model convergence.
Accordingly, this paper proposes a one-step forward and backtrack way for
loss-aware quantization to get more accurate and stable gradient direction to
defy this issue. During the gradient descent learning, a one-step forward
search is designed to find the trial gradient of the next-step, which is
adopted to adjust the gradient of current step towards the direction of fast
convergence. After that, we backtrack the current step to update the
full-precision and quantized weights through the current-step gradient and the
trial gradient. A series of theoretical analysis and experiments on benchmark
deep models have demonstrated the effectiveness and competitiveness of the
proposed method, and our method especially outperforms others on the
convergence performance.
- Abstract(参考訳): 重み量子化は、限られたリソースを持つエッジデバイスに展開するディープニューラルネットワークを圧縮する効果的な手法である。
従来の損失対応量子化法は、全精度勾配を置き換えるために量子化勾配を用いるのが一般的である。
しかし,勾配方向が急速に振動する勾配降下学習手順において,勾配誤差が予期せぬジグザグ問題を引き起こすことが判明し,そのような問題はモデル収束を著しく遅らせる。
そこで本論文では、損失認識量子化のための1ステップの前進とバックトラック方式を提案し、この問題を解消するためにより正確で安定した勾配方向を求める。
勾配降下学習では, 次のステップの試行勾配を求める一段階前方探索が設計され, 高速収束方向への電流ステップの勾配の調整に採用されている。
その後、現在のステップをバックトラックして、現在段階の勾配と試行段階の勾配を通じて、全精度と定量化された重みを更新します。
ベンチマークディープモデルに関する一連の理論的解析と実験により,提案手法の有効性と競争性を実証し,本手法は収束性能において他の手法よりも優れていることを示した。
関連論文リスト
- Toward INT4 Fixed-Point Training via Exploring Quantization Error for Gradients [24.973203825917906]
大振幅勾配の誤差の低減は量子化性能を著しく向上させることを示す。
また、大きな勾配に対する小さな量子化誤差を維持するために、量子化間隔を適応的に調整する間隔更新アルゴリズムを導入する。
論文 参考訳(メタデータ) (2024-07-17T15:06:12Z) - Point Cloud Denoising via Momentum Ascent in Gradient Fields [72.93429911044903]
ニューラルネットワークを用いて雑音点雲から勾配場を推定する勾配法を提案した。
そこで我々は, 過去の反復情報を利用して, 点の軌道を決定する運動量勾配上昇法を開発した。
実験により, 提案手法は, 様々な点群, ノイズタイプ, 騒音レベルを有する最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2022-02-21T10:21:40Z) - On Training Implicit Models [75.20173180996501]
ファントム勾配(ファントム勾配)と呼ばれる暗黙モデルに対する新しい勾配推定法を提案し、正確な勾配の計算コストを抑える。
大規模タスクの実験では、これらの軽量ファントム勾配が暗黙の訓練モデルの後方通過を約1.7倍加速することを示した。
論文 参考訳(メタデータ) (2021-11-09T14:40:24Z) - Adapting Stepsizes by Momentumized Gradients Improves Optimization and
Generalization [89.66571637204012]
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
論文 参考訳(メタデータ) (2021-06-22T03:13:23Z) - Scaling transition from momentum stochastic gradient descent to plain
stochastic gradient descent [1.7874193862154875]
運動量勾配降下は、蓄積された勾配を電流パラメータの更新方向として利用する。
平坦勾配降下は, 累積勾配により補正されていない。
TSGDアルゴリズムは訓練速度が速く、精度が高く、安定性も向上している。
論文 参考訳(メタデータ) (2021-06-12T11:42:04Z) - Decreasing scaling transition from adaptive gradient descent to
stochastic gradient descent [1.7874193862154875]
本稿では,適応勾配降下法から勾配勾配降下法DSTAdaへのスケーリング遷移を減少させる手法を提案する。
実験の結果,DSTAdaは高速で精度が高く,安定性と堅牢性も向上した。
論文 参考訳(メタデータ) (2021-06-12T11:28:58Z) - Channel-Directed Gradients for Optimization of Convolutional Neural
Networks [50.34913837546743]
本稿では,畳み込みニューラルネットワークの最適化手法を提案する。
出力チャネル方向に沿って勾配を定義することで性能が向上し,他の方向が有害となることを示す。
論文 参考訳(メタデータ) (2020-08-25T00:44:09Z) - Variance Reduction for Deep Q-Learning using Stochastic Recursive
Gradient [51.880464915253924]
深層Q-ラーニングアルゴリズムは、過度な分散を伴う勾配推定に苦しむことが多い。
本稿では、SRG-DQNと呼ばれる新しいアルゴリズムを実現するため、深層Q-ラーニングにおける勾配推定を更新するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-25T00:54:20Z) - Regularizing Meta-Learning via Gradient Dropout [102.29924160341572]
メタ学習モデルは、メタ学習者が一般化するのに十分なトレーニングタスクがない場合、過度に適合する傾向がある。
本稿では,勾配に基づくメタ学習において過度に適合するリスクを軽減するための,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2020-04-13T10:47:02Z) - Explore Aggressively, Update Conservatively: Stochastic Extragradient
Methods with Variable Stepsize Scaling [34.35013145885164]
機械学習における大規模サドルポイント問題の解法としては、段階的な手法が必須となっている。
本稿では, 単純な双線形モデルであっても, 勾配によるバニラの過度な走行は収束を阻害する可能性があることを示す。
この修正により勾配にも収束でき、誤差境界条件下での鋭い収束率を導出できることを示す。
論文 参考訳(メタデータ) (2020-03-23T10:24:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。