論文の概要: BitPruning: Learning Bitlengths for Aggressive and Accurate Quantization
- arxiv url: http://arxiv.org/abs/2002.03090v2
- Date: Tue, 11 Aug 2020 20:30:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 22:20:51.244346
- Title: BitPruning: Learning Bitlengths for Aggressive and Accurate Quantization
- Title(参考訳): BitPruning: 攻撃的で正確な量子化のためのビット長学習
- Authors: Milo\v{s} Nikoli\'c, Ghouthi Boukli Hacene, Ciaran Bannon, Alberto
Delmas Lascorz, Matthieu Courbariaux, Yoshua Bengio, Vincent Gripon and
Andreas Moshovos
- Abstract要約: 精度を維持しつつ,任意の粒度で推論ビット長を最小化するためのトレーニング手法を提案する。
ImageNetでは、平均4.13ビット、3.76ビット、4.36ビットを生成する。
- 参考スコア(独自算出の注目度): 57.14179747713731
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural networks have demonstrably achieved state-of-the art accuracy using
low-bitlength integer quantization, yielding both execution time and energy
benefits on existing hardware designs that support short bitlengths. However,
the question of finding the minimum bitlength for a desired accuracy remains
open. We introduce a training method for minimizing inference bitlength at any
granularity while maintaining accuracy. Namely, we propose a regularizer that
penalizes large bitlength representations throughout the architecture and show
how it can be modified to minimize other quantifiable criteria, such as number
of operations or memory footprint. We demonstrate that our method learns
thrifty representations while maintaining accuracy. With ImageNet, the method
produces an average per layer bitlength of 4.13, 3.76 and 4.36 bits on AlexNet,
ResNet18 and MobileNet V2 respectively, remaining within 2.0%, 0.5% and 0.5% of
the base TOP-1 accuracy.
- Abstract(参考訳): ニューラルネットワークは、低ビット長整数量子化による最先端の精度を実証的に達成し、短いビット長をサポートする既存のハードウェア設計に対して実行時間とエネルギーの利点をもたらす。
しかし、所望の精度で最小ビット長を求める問題は未解決のままである。
精度を維持しつつ,任意の粒度で推論ビット長を最小化するためのトレーニング手法を提案する。
すなわち、アーキテクチャ全体にわたって大きなビット長表現をペナライズする正規化器を提案し、演算数やメモリフットプリントなど、他の定量化基準を最小化するための修正方法を示す。
本手法は精度を保ちながらスリフティ表現を学習できることを実証する。
ImageNetでは、平均4.13ビット、3.76ビット、4.36ビットをAlexNet、ResNet18、MobileNet V2で生成し、ベースTOP-1の精度の2.0%、0.5%、0.5%に留まる。
関連論文リスト
- Memory Efficient Optimizers with 4-bit States [22.605392665667136]
我々は、第1モーメントと第2モーメントの詳細な実験分析を通して、状態のビット幅を4ビットまで押し下げる。
ブロックサイズを小さくし,行次情報と列次情報の両方を用いて量子化を改善することを提案する。
我々の4ビットは、自然言語理解、機械翻訳、画像分類、インストラクションチューニングなど、様々なベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-09-04T10:27:17Z) - Model-based Optimization of Superconducting Qubit Readout [59.992881941624965]
超伝導量子ビットに対するモデルベース読み出し最適化を実証する。
我々は,残共振器光子から500nsの終端長と最小限の過剰リセット誤差で,キュービット当たり1.5%の誤差を観測した。
この技術は数百のキュービットに拡張でき、エラー訂正コードや短期アプリケーションの性能を高めるために使用される。
論文 参考訳(メタデータ) (2023-08-03T23:30:56Z) - Quantized Neural Networks for Low-Precision Accumulation with Guaranteed
Overflow Avoidance [68.8204255655161]
本稿では,推定時のアキュムレータの精度を下げる際に,数値オーバーフローを回避する量子化学習アルゴリズムを提案する。
本手法は,浮動小数点点ベースラインに対するモデル精度を維持しつつ,アキュムレータの精度を低減できることを示す。
論文 参考訳(メタデータ) (2023-01-31T02:46:57Z) - RedBit: An End-to-End Flexible Framework for Evaluating the Accuracy of
Quantized CNNs [9.807687918954763]
畳み込みニューラルネットワーク(CNN)は、画像処理、分類、セグメンテーションタスクのためのディープニューラルネットワークの標準クラスとなっている。
RedBitは、透過的で使いやすいインターフェースを提供するオープンソースのフレームワークで、異なるアルゴリズムの有効性をネットワークの精度で評価する。
論文 参考訳(メタデータ) (2023-01-15T21:27:35Z) - The case for 4-bit precision: k-bit Inference Scaling Laws [75.4335600212427]
量子化法は、モデル内の各パラメータを表すために必要なビット数を減少させる。
最終的なモデルサイズは、元のモデルのパラメータの数と圧縮率の両方に依存する。
我々は16ビットの入力とkビットのパラメータを持つ35,000以上のゼロショット実験を行い、どの量子化手法が3ビットから8ビットの精度でスケーリングを改善するかを検証した。
論文 参考訳(メタデータ) (2022-12-19T18:48:33Z) - Accuracy Booster: Enabling 4-bit Fixed-point Arithmetic for DNN Training [31.515532976570643]
算術密度を最大化しながら、トレーニング精度を維持するにはシングルレベルスケーリングが十分であることを示す。
本稿では,4ビットマンティッサをトレーニング中の算術演算の99%以上に使用する混合マンティッサHBFP手法であるAccuracy Boosterを提案する。
論文 参考訳(メタデータ) (2022-11-19T16:17:11Z) - n-hot: Efficient bit-level sparsity for powers-of-two neural network
quantization [0.0]
パワーオブツー(PoT)量子化は、リソース制約ハードウェア上でのディープニューラルネットワークのビット演算数を減少させる。
PoT量子化は、表現能力が限られているため、深刻な精度低下を引き起こす。
メモリ効率の高い方法で精度とコストを両立した効率的なPoT量子化方式を提案する。
論文 参考訳(メタデータ) (2021-03-22T10:13:12Z) - Bayesian Bits: Unifying Quantization and Pruning [73.27732135853243]
我々は、勾配に基づく最適化による混合精度量子化とプルーニングの実用的な方法であるBayesian Bitsを紹介する。
提案手法をいくつかのベンチマーク・データセット上で実験的に検証し,プレナード付き混合精度ネットワークを学習可能であることを示す。
論文 参考訳(メタデータ) (2020-05-14T16:00:34Z) - Training Binary Neural Networks with Real-to-Binary Convolutions [52.91164959767517]
完全精度のネットワークのうち、数パーセント以内にバイナリネットワークをトレーニングする方法を示します。
我々は、最先端の精度をすでに達成している強力なベースラインを構築する方法を示す。
すべての改善をまとめると、提案したモデルは、ImageNet上で5%以上のトップ1精度で、現在の最先端の技術を上回ります。
論文 参考訳(メタデータ) (2020-03-25T17:54:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。