Fugu-MT 論文翻訳(概要): MetaGrad: Adaptive Gradient Quantization with Hypernetworks

論文の概要: MetaGrad: Adaptive Gradient Quantization with Hypernetworks

arxiv url: http://arxiv.org/abs/2303.02347v2
Date: Wed, 1 Nov 2023 02:31:05 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-02 18:09:28.705745
Title: MetaGrad: Adaptive Gradient Quantization with Hypernetworks
Title（参考訳）: MetaGrad: Hypernetworksによる適応型グラディエント量子化
Authors: Kaixin Xu, Alina Hui Xiu Lee, Ziyuan Zhao, Zhe Wang, Min Wu, Weisi Lin
Abstract要約: 量子化対応トレーニング(QAT)は、ニューラルネットワークのトレーニングと推論の間、前方通過を加速する。本稿では,ハイパーネットワークを用いた次のトレーニングの計算グラフに勾配を組み込むことで,この問題を解決することを提案する。 CNNネットワークアーキテクチャの異なるCIFAR-10データセットに対する様々な実験により、我々のハイパーネットワークに基づくアプローチは、勾配量子化ノイズの負の効果を効果的に低減できることを示した。
参考スコア（独自算出の注目度）: 46.55625589293897
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: A popular track of network compression approach is Quantization aware Training (QAT), which accelerates the forward pass during the neural network training and inference. However, not much prior efforts have been made to quantize and accelerate the backward pass during training, even though that contributes around half of the training time. This can be partly attributed to the fact that errors of low-precision gradients during backward cannot be amortized by the training objective as in the QAT setting. In this work, we propose to solve this problem by incorporating the gradients into the computation graph of the next training iteration via a hypernetwork. Various experiments on CIFAR-10 dataset with different CNN network architectures demonstrate that our hypernetwork-based approach can effectively reduce the negative effect of gradient quantization noise and successfully quantizes the gradients to INT4 with only 0.64 accuracy drop for VGG-16 on CIFAR-10.
Abstract（参考訳）: ネットワーク圧縮アプローチの一般的なトラックは量子化対応トレーニング(QAT)であり、ニューラルネットワークのトレーニングと推論の間、前方通過を加速する。しかしながら、トレーニング時間の約半分に寄与するにもかかわらず、トレーニング中に後方通過を定量化し、加速する以前の取り組みはあまり行われていない。これは、後向きの低精度勾配の誤差が、QAT設定のようにトレーニング目標によって補正できないという事実によるものである。本稿では,ハイパーネットワークによる次のトレーニングイテレーションの計算グラフに勾配を組み込むことで,この問題を解決することを提案する。異なるCNNネットワークアーキテクチャを用いたCIFAR-10データセットの様々な実験により、我々のハイパーネットワークベースのアプローチは、勾配量子化ノイズの負の効果を効果的に低減し、CIFAR-10上のVGG-16の0.64精度低下でINT4への勾配の量子化に成功した。

関連論文リスト

A Numerical Gradient Inversion Attack in Variational Quantum Neural-Networks [4.086403209504347]
変分量子ニューラルネットワーク(VQNN)のロスランドスケープは、量子ビットの増加とともに指数関数的に増大する局所的ミニマによって特徴づけられる。本稿では,学習可能なVQNNの勾配から入力学習,実世界,実践的データを再構築する数値計算手法を提案する。
論文参考訳（メタデータ） (2025-04-17T10:12:38Z)
Fast and Slow Gradient Approximation for Binary Neural Network Optimization [11.064044986709733]
ハイパーネットワークに基づく手法は、ニューラルネットワークを用いて微分不可能な量子化関数の勾配を学習する。本稿では,ヒストリ・グラディエント・ストレージ(HGS)モジュールを提案する。これは,ヒストリ・グラディエント・シーケンスをモデル化し,最適化に必要な1次モーメントを生成する。また、ハイパーネットワークに層認識埋め込み(LRE)を導入し、層固有の微細勾配の生成を容易にする。
論文参考訳（メタデータ） (2024-12-16T13:48:40Z)
1-Bit FQT: Pushing the Limit of Fully Quantized Training to 1-bit [41.993927897814785]
フル量子化トレーニング(FQT)は、アクティベーション、ウェイト、勾配をより低い精度に定量化することで、ディープニューラルネットワークのトレーニングを加速する。 1ビットFQTでFQTの極限(達成可能な最低精度)を探索する試みを行う。
論文参考訳（メタデータ） (2024-08-26T13:42:43Z)
One-Step Forward and Backtrack: Overcoming Zig-Zagging in Loss-Aware Quantization Training [12.400950982075948]
重み量子化は、限られたリソースを持つエッジデバイスに展開するディープニューラルネットワークを圧縮する効果的な手法である。従来の損失対応量子化法は、全精度勾配を置き換えるために量子化勾配を用いるのが一般的である。本稿では、損失認識量子化のための1ステップの前進およびバックトラック手法を提案し、より正確で安定した勾配方向を得る。
論文参考訳（メタデータ） (2024-01-30T05:42:54Z)
Take A Shortcut Back: Mitigating the Gradient Vanishing for Training Spiking Neural Networks [15.691263438655842]
Spiking Neural Network(SNN)は生物学的にインスパイアされたニューラルネットワーク基盤であり、最近大きな注目を集めている。 SNNの訓練は、発射スパイクプロセスの未定義の勾配のため、直接的に挑戦する。本論文では,損失から浅い層に直接勾配を伝達する手法を提案する。
論文参考訳（メタデータ） (2024-01-09T10:54:41Z)
Balance is Essence: Accelerating Sparse Training via Adaptive Gradient Correction [29.61757744974324]
ディープニューラルネットワークでは、メモリと計算コストが大幅に削減される。スパーストレーニングは、これらのコストを削減する最も一般的な手法の1つである。本研究では,この問題を克服し,時空協調効率の実現を目指す。
論文参考訳（メタデータ） (2023-01-09T18:50:03Z)
Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文参考訳（メタデータ） (2022-10-07T03:52:27Z)
FracTrain: Fractionally Squeezing Bit Savings Both Temporally and Spatially for Efficient DNN Training [81.85361544720885]
アクティベーション、ウェイト、グラデーションの精度を徐々に高めるプログレッシブ分数量子化を統合したFracTrainを提案します。 FracTrainはDNNトレーニングの計算コストとハードウェア量子化エネルギー/レイテンシを削減し、同等以上の精度(-0.12%+1.87%)を達成する。
論文参考訳（メタデータ） (2020-12-24T05:24:10Z)
A Statistical Framework for Low-bitwidth Training of Deep Neural Networks [70.77754244060384]
フル量子化トレーニング(FQT)は、ニューラルネットワークモデルのアクティベーション、重み、勾配を定量化することで、低ビット幅のハードウェアを使用する。 FQTの最大の課題は、特に勾配量子化が収束特性にどのように影響するかという理論的な理解の欠如である。
論文参考訳（メタデータ） (2020-10-27T13:57:33Z)
Variance Reduction for Deep Q-Learning using Stochastic Recursive Gradient [51.880464915253924]
深層Q-ラーニングアルゴリズムは、過度な分散を伴う勾配推定に苦しむことが多い。本稿では、SRG-DQNと呼ばれる新しいアルゴリズムを実現するため、深層Q-ラーニングにおける勾配推定を更新するためのフレームワークを提案する。
論文参考訳（メタデータ） (2020-07-25T00:54:20Z)
Towards Unified INT8 Training for Convolutional Neural Network [83.15673050981624]
共用畳み込みニューラルネットワークのための統合8ビット(INT8)トレーニングフレームワークを構築した。まず、勾配の4つの特徴を経験的に発見し、勾配量子化の洞察力のある手がかりを与える。勾配の方向ずれを低減させる方向感度勾配クリッピングを含む2つの普遍的手法を提案する。
論文参考訳（メタデータ） (2019-12-29T08:37:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。