論文の概要: MARViN -- Multiple Arithmetic Resolutions Vacillating in Neural Networks
- arxiv url: http://arxiv.org/abs/2107.13490v1
- Date: Wed, 28 Jul 2021 16:57:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-29 15:01:00.385329
- Title: MARViN -- Multiple Arithmetic Resolutions Vacillating in Neural Networks
- Title(参考訳): MARViN - ニューラルネットワークにおける複数の算数分解能
- Authors: Lorenz Kummer, Kevin Sidak, Tabea Reichmann, Wilfried Gansterer
- Abstract要約: 本稿では,情報理論に基づく時間内精度スイッチングを用いた新しい量子化トレーニング戦略であるMARViNを紹介する。
我々は,AlexNet/ResNetの平均劣化精度を-0.075%に制限しながら,float32ベースと比較して平均1.86の高速化を実現した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Quantization is a technique for reducing deep neural networks (DNNs) training
and inference times, which is crucial for training in resource constrained
environments or time critical inference applications. State-of-the-art (SOTA)
quantization approaches focus on post-training quantization, i.e. quantization
of pre-trained DNNs for speeding up inference. Very little work on quantized
training exists, which neither al-lows dynamic intra-epoch precision switches
nor em-ploys an information theory based switching heuristic. Usually, existing
approaches require full precision refinement afterwards and enforce a global
word length across the whole DNN. This leads to suboptimal quantization
mappings and resource usage. Recognizing these limits, we introduce MARViN, a
new quantized training strategy using information theory-based intra-epoch
precision switching, which decides on a per-layer basis which precision should
be used in order to minimize quantization-induced information loss. Note that
any quantization must leave enough precision such that future learning steps do
not suffer from vanishing gradients. We achieve an average speedup of 1.86
compared to a float32 basis while limiting mean accuracy degradation on
AlexNet/ResNet to only -0.075%.
- Abstract(参考訳): 量子化はディープニューラルネットワーク(DNN)のトレーニングと推論時間を短縮する技術であり、リソース制約のある環境や時間クリティカルな推論アプリケーションのトレーニングに不可欠である。
state-of-the-art(sota)量子化アプローチはトレーニング後の量子化に焦点を当てている。
推論を高速化するための事前訓練DNNの量子化。
量子化トレーニングの作業はほとんど存在せず、al-low や in-epoch precision switch も em-ploy もスイッチングヒューリスティックに基づく情報理論を扱わない。
通常、既存のアプローチはその後、完全な精度の向上を必要とし、DNN全体にわたってグローバルな単語長を強制する。
これは準最適量子化マッピングとリソース使用につながる。
この限界を認識したmarvinは, 量子化による情報損失を最小限に抑えるために, 層単位の精度を決定する情報理論に基づくイントラ・エポック精度スイッチを用いた新しい量子化トレーニング戦略である。
量子化は、将来の学習ステップが消滅する勾配に支障を来さないよう、十分な精度を残さなければならない。
平均速度はfloat32ベースと比較して1.86で,alexnet/resnetの平均精度は0.075%に抑えられた。
関連論文リスト
- Edge Inference with Fully Differentiable Quantized Mixed Precision
Neural Networks [1.131071436917293]
パラメータと演算をビット精度の低いものに量子化することで、ニューラルネットワークの推論にかなりのメモリとエネルギーを節約できる。
本稿では,エッジ計算を対象とする混合精度畳み込みニューラルネットワーク(CNN)の量子化手法を提案する。
論文 参考訳(メタデータ) (2022-06-15T18:11:37Z) - Navigating Local Minima in Quantized Spiking Neural Networks [3.1351527202068445]
深層学習(DL)アルゴリズムの超効率的な実装においては,スパイキングと量子ニューラルネットワーク(NN)が極めて重要になっている。
これらのネットワークは、ハードしきい値を適用する際の勾配信号の欠如により、エラーのバックプロパゲーションを使用してトレーニングする際の課題に直面している。
本稿では,コサインアニールLRスケジュールと重み非依存適応モーメント推定を併用したシステム評価を行った。
論文 参考訳(メタデータ) (2022-02-15T06:42:25Z) - Quantune: Post-training Quantization of Convolutional Neural Networks
using Extreme Gradient Boosting for Fast Deployment [15.720551497037176]
本稿では,量子化の構成の探索を高速化するために,Quantune という自動チューニングを提案する。
我々は、Quantuneが6つのCNNモデルに対して0.07 0.65%の精度で、量子化の探索時間を約36.5倍削減することを示した。
論文 参考訳(メタデータ) (2022-02-10T14:05:02Z) - Mixed Precision Low-bit Quantization of Neural Network Language Models
for Speech Recognition [67.95996816744251]
長期間のメモリリカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端言語モデル(LM)は、実用アプリケーションではますます複雑で高価なものになりつつある。
現在の量子化法は、均一な精度に基づいており、量子化誤差に対するLMの異なる部分での様々な性能感度を考慮できない。
本稿では,新しい混合精度ニューラルネットワークLM量子化法を提案する。
論文 参考訳(メタデータ) (2021-11-29T12:24:02Z) - Low-bit Quantization of Recurrent Neural Network Language Models Using
Alternating Direction Methods of Multipliers [67.688697838109]
本稿では、乗算器の交互方向法(ADMM)を用いて、スクラッチから量子化RNNLMを訓練する新しい手法を提案する。
2つのタスクの実験から、提案されたADMM量子化は、完全な精度ベースライン RNNLM で最大31倍のモデルサイズ圧縮係数を達成したことが示唆された。
論文 参考訳(メタデータ) (2021-11-29T09:30:06Z) - On the Tradeoff between Energy, Precision, and Accuracy in Federated
Quantized Neural Networks [68.52621234990728]
無線ネットワーク上でのフェデレーション学習(FL)は、精度、エネルギー効率、精度のバランスをとる必要がある。
本稿では,ローカルトレーニングとアップリンク伝送の両方において,有限レベルの精度でデータを表現できる量子化FLフレームワークを提案する。
我々のフレームワークは標準的なFLモデルと比較してエネルギー消費量を最大53%削減できる。
論文 参考訳(メタデータ) (2021-11-15T17:00:03Z) - DNN Quantization with Attention [5.72175302235089]
低ビット量子化を緩和するトレーニング手順を提案する。
この緩和は、高、中、低ビット量子化の学習可能な線形結合を用いて達成される。
実験では、他の低ビット量子化技術よりも優れている。
論文 参考訳(メタデータ) (2021-03-24T16:24:59Z) - Adaptive Quantization of Model Updates for Communication-Efficient
Federated Learning [75.45968495410047]
クライアントノードと中央集約サーバ間のモデル更新の通信は、連合学習において大きなボトルネックとなる。
グラディエント量子化(Gradient Quantization)は、各モデル更新間の通信に必要なビット数を削減する効果的な方法である。
通信効率と低エラーフロアを実現することを目的としたAdaFLと呼ばれる適応量子化戦略を提案する。
論文 参考訳(メタデータ) (2021-02-08T19:14:21Z) - FracTrain: Fractionally Squeezing Bit Savings Both Temporally and Spatially for Efficient DNN Training [62.932299614630985]
本稿では, アクティベーション, ウェイト, 勾配の精度を徐々に向上させる, プログレッシブ分数量子化を統合したFracTrainを提案する。
FracTrainはDNNトレーニングの計算コストとハードウェア量子化エネルギー/レイテンシを削減し、同等以上の精度(-0.12%+1.87%)を達成する。
論文 参考訳(メタデータ) (2020-12-24T05:24:10Z) - APQ: Joint Search for Network Architecture, Pruning and Quantization
Policy [49.3037538647714]
本稿では,リソース制約のあるハードウェア上での効率的なディープラーニング推論のためのAPQを提案する。
ニューラルアーキテクチャ、プルーニングポリシー、量子化ポリシーを別々に検索する従来の方法とは異なり、我々はそれらを共同で最適化する。
同じ精度で、APQはMobileNetV2+HAQよりもレイテンシ/エネルギーを2倍/1.3倍削減する。
論文 参考訳(メタデータ) (2020-06-15T16:09:17Z) - Post-Training Piecewise Linear Quantization for Deep Neural Networks [13.717228230596167]
リソース制限されたデバイスへのディープニューラルネットワークのエネルギー効率向上において、量子化は重要な役割を果たす。
本稿では,長い尾を持つベル形状のテンソル値の正確な近似を実現するために,一方向線形量子化方式を提案する。
提案手法は,最先端のポストトレーニング量子化手法と比較して,画像分類,セマンティックセグメンテーション,オブジェクト検出においてわずかなオーバーヘッドで優れた性能を実現する。
論文 参考訳(メタデータ) (2020-01-31T23:47:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。