論文の概要: MetaGrad: Adaptive Gradient Quantization with Hypernetworks
- arxiv url: http://arxiv.org/abs/2303.02347v2
- Date: Wed, 1 Nov 2023 02:31:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 18:09:28.705745
- Title: MetaGrad: Adaptive Gradient Quantization with Hypernetworks
- Title(参考訳): MetaGrad: Hypernetworksによる適応型グラディエント量子化
- Authors: Kaixin Xu, Alina Hui Xiu Lee, Ziyuan Zhao, Zhe Wang, Min Wu, Weisi Lin
- Abstract要約: 量子化対応トレーニング(QAT)は、ニューラルネットワークのトレーニングと推論の間、前方通過を加速する。
本稿では,ハイパーネットワークを用いた次のトレーニングの計算グラフに勾配を組み込むことで,この問題を解決することを提案する。
CNNネットワークアーキテクチャの異なるCIFAR-10データセットに対する様々な実験により、我々のハイパーネットワークに基づくアプローチは、勾配量子化ノイズの負の効果を効果的に低減できることを示した。
- 参考スコア(独自算出の注目度): 46.55625589293897
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A popular track of network compression approach is Quantization aware
Training (QAT), which accelerates the forward pass during the neural network
training and inference. However, not much prior efforts have been made to
quantize and accelerate the backward pass during training, even though that
contributes around half of the training time. This can be partly attributed to
the fact that errors of low-precision gradients during backward cannot be
amortized by the training objective as in the QAT setting. In this work, we
propose to solve this problem by incorporating the gradients into the
computation graph of the next training iteration via a hypernetwork. Various
experiments on CIFAR-10 dataset with different CNN network architectures
demonstrate that our hypernetwork-based approach can effectively reduce the
negative effect of gradient quantization noise and successfully quantizes the
gradients to INT4 with only 0.64 accuracy drop for VGG-16 on CIFAR-10.
- Abstract(参考訳): ネットワーク圧縮アプローチの一般的なトラックは量子化対応トレーニング(QAT)であり、ニューラルネットワークのトレーニングと推論の間、前方通過を加速する。
しかしながら、トレーニング時間の約半分に寄与するにもかかわらず、トレーニング中に後方通過を定量化し、加速する以前の取り組みはあまり行われていない。
これは、後向きの低精度勾配の誤差が、QAT設定のようにトレーニング目標によって補正できないという事実によるものである。
本稿では,ハイパーネットワークによる次のトレーニングイテレーションの計算グラフに勾配を組み込むことで,この問題を解決することを提案する。
異なるCNNネットワークアーキテクチャを用いたCIFAR-10データセットの様々な実験により、我々のハイパーネットワークベースのアプローチは、勾配量子化ノイズの負の効果を効果的に低減し、CIFAR-10上のVGG-16の0.64精度低下でINT4への勾配の量子化に成功した。
関連論文リスト
- 1-Bit FQT: Pushing the Limit of Fully Quantized Training to 1-bit [41.993927897814785]
フル量子化トレーニング(FQT)は、アクティベーション、ウェイト、勾配をより低い精度に定量化することで、ディープニューラルネットワークのトレーニングを加速する。
1ビットFQTでFQTの極限(達成可能な最低精度)を探索する試みを行う。
論文 参考訳(メタデータ) (2024-08-26T13:42:43Z) - One-Step Forward and Backtrack: Overcoming Zig-Zagging in Loss-Aware
Quantization Training [12.400950982075948]
重み量子化は、限られたリソースを持つエッジデバイスに展開するディープニューラルネットワークを圧縮する効果的な手法である。
従来の損失対応量子化法は、全精度勾配を置き換えるために量子化勾配を用いるのが一般的である。
本稿では、損失認識量子化のための1ステップの前進およびバックトラック手法を提案し、より正確で安定した勾配方向を得る。
論文 参考訳(メタデータ) (2024-01-30T05:42:54Z) - Take A Shortcut Back: Mitigating the Gradient Vanishing for Training Spiking Neural Networks [15.691263438655842]
Spiking Neural Network(SNN)は生物学的にインスパイアされたニューラルネットワーク基盤であり、最近大きな注目を集めている。
SNNの訓練は、発射スパイクプロセスの未定義の勾配のため、直接的に挑戦する。
本論文では,損失から浅い層に直接勾配を伝達する手法を提案する。
論文 参考訳(メタデータ) (2024-01-09T10:54:41Z) - Balance is Essence: Accelerating Sparse Training via Adaptive Gradient
Correction [29.61757744974324]
ディープニューラルネットワークでは、メモリと計算コストが大幅に削減される。
スパーストレーニングは、これらのコストを削減する最も一般的な手法の1つである。
本研究では,この問題を克服し,時空協調効率の実現を目指す。
論文 参考訳(メタデータ) (2023-01-09T18:50:03Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - FracTrain: Fractionally Squeezing Bit Savings Both Temporally and
Spatially for Efficient DNN Training [81.85361544720885]
アクティベーション、ウェイト、グラデーションの精度を徐々に高めるプログレッシブ分数量子化を統合したFracTrainを提案します。
FracTrainはDNNトレーニングの計算コストとハードウェア量子化エネルギー/レイテンシを削減し、同等以上の精度(-0.12%+1.87%)を達成する。
論文 参考訳(メタデータ) (2020-12-24T05:24:10Z) - A Statistical Framework for Low-bitwidth Training of Deep Neural
Networks [70.77754244060384]
フル量子化トレーニング(FQT)は、ニューラルネットワークモデルのアクティベーション、重み、勾配を定量化することで、低ビット幅のハードウェアを使用する。
FQTの最大の課題は、特に勾配量子化が収束特性にどのように影響するかという理論的な理解の欠如である。
論文 参考訳(メタデータ) (2020-10-27T13:57:33Z) - Variance Reduction for Deep Q-Learning using Stochastic Recursive
Gradient [51.880464915253924]
深層Q-ラーニングアルゴリズムは、過度な分散を伴う勾配推定に苦しむことが多い。
本稿では、SRG-DQNと呼ばれる新しいアルゴリズムを実現するため、深層Q-ラーニングにおける勾配推定を更新するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-25T00:54:20Z) - Towards Unified INT8 Training for Convolutional Neural Network [83.15673050981624]
共用畳み込みニューラルネットワークのための統合8ビット(INT8)トレーニングフレームワークを構築した。
まず、勾配の4つの特徴を経験的に発見し、勾配量子化の洞察力のある手がかりを与える。
勾配の方向ずれを低減させる方向感度勾配クリッピングを含む2つの普遍的手法を提案する。
論文 参考訳(メタデータ) (2019-12-29T08:37:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。