論文の概要: Bayesian Bits: Unifying Quantization and Pruning
- arxiv url: http://arxiv.org/abs/2005.07093v3
- Date: Tue, 27 Oct 2020 11:27:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-03 04:11:49.576261
- Title: Bayesian Bits: Unifying Quantization and Pruning
- Title(参考訳): Bayesian Bits:量子化とプルーニングの統合
- Authors: Mart van Baalen and Christos Louizos and Markus Nagel and Rana Ali
Amjad and Ying Wang and Tijmen Blankevoort and Max Welling
- Abstract要約: 我々は、勾配に基づく最適化による混合精度量子化とプルーニングの実用的な方法であるBayesian Bitsを紹介する。
提案手法をいくつかのベンチマーク・データセット上で実験的に検証し,プレナード付き混合精度ネットワークを学習可能であることを示す。
- 参考スコア(独自算出の注目度): 73.27732135853243
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Bayesian Bits, a practical method for joint mixed precision
quantization and pruning through gradient based optimization. Bayesian Bits
employs a novel decomposition of the quantization operation, which sequentially
considers doubling the bit width. At each new bit width, the residual error
between the full precision value and the previously rounded value is quantized.
We then decide whether or not to add this quantized residual error for a higher
effective bit width and lower quantization noise. By starting with a
power-of-two bit width, this decomposition will always produce
hardware-friendly configurations, and through an additional 0-bit option,
serves as a unified view of pruning and quantization. Bayesian Bits then
introduces learnable stochastic gates, which collectively control the bit width
of the given tensor. As a result, we can obtain low bit solutions by performing
approximate inference over the gates, with prior distributions that encourage
most of them to be switched off. We experimentally validate our proposed method
on several benchmark datasets and show that we can learn pruned, mixed
precision networks that provide a better trade-off between accuracy and
efficiency than their static bit width equivalents.
- Abstract(参考訳): 我々は、勾配に基づく最適化による混合精度量子化とプルーニングの実用的な方法であるBayesian Bitsを紹介する。
ベイズビットは量子化演算の新たな分解を採用し、ビット幅を2倍にすることを考える。
新たなビット幅毎に、全精度値と予め丸められた値との残差誤差を定量化する。
次に、この量子化残差誤差を高い有効ビット幅と低い量子化雑音に対して加算するか否かを決定する。
2ビット幅のパワーから始めると、この分解は常にハードウェアフレンドリーな構成となり、さらに0ビットオプションによって、プルーニングと量子化の統合ビューとして機能する。
ベイズビットは学習可能な確率ゲートを導入し、与えられたテンソルのビット幅をまとめて制御する。
その結果、ゲート上で近似推論を行うことで低ビットの解を得ることができ、そのほとんどをオフにする事前分布を持つことができる。
提案手法をいくつかのベンチマークデータセットで実験的に検証し,静的ビット幅等価値よりも精度と効率のトレードオフを良好に得る,プルーニングされた混合精度ネットワークを学習できることを示した。
関連論文リスト
- Verification of Geometric Robustness of Neural Networks via Piecewise Linear Approximation and Lipschitz Optimisation [57.10353686244835]
我々は、回転、スケーリング、せん断、翻訳を含む入力画像の幾何学的変換に対するニューラルネットワークの検証の問題に対処する。
提案手法は, 分枝・分枝リプシッツと組み合わせたサンプリングおよび線形近似を用いて, 画素値に対する楽音線形制約を求める。
提案手法では,既存の手法よりも最大32%の検証ケースが解決されている。
論文 参考訳(メタデータ) (2024-08-23T15:02:09Z) - DB-LLM: Accurate Dual-Binarization for Efficient LLMs [83.70686728471547]
大規模言語モデル(LLM)は自然言語処理の分野を著しく進歩させてきた。
既存の超低ビット量子化は、常に深刻な精度低下を引き起こす。
本稿では,LLM,すなわちDB-LLMのための新しいデュアルバイナライズ手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T09:04:30Z) - MixQuant: Mixed Precision Quantization with a Bit-width Optimization
Search [7.564770908909927]
量子化は、効率的なディープニューラルネットワーク(DNN)を作成する技術である
ラウンドオフ誤差に基づいて各層重みに対する最適な量子化ビット幅を求める検索アルゴリズムであるMixQuantを提案する。
我々は、MixQuantと最先端の量子化手法BRECQを組み合わせることで、BRECQ単独よりも優れた量子化モデル精度が得られることを示す。
論文 参考訳(メタデータ) (2023-09-29T15:49:54Z) - MBQuant: A Novel Multi-Branch Topology Method for Arbitrary Bit-width Network Quantization [51.85834744835766]
任意のビット幅量子化のための新しい手法MBQuantを提案する。
本稿では,既存の任意のビット幅量子化法と比較して,MBQuantが大幅な性能向上を実現していることを示す。
論文 参考訳(メタデータ) (2023-05-14T10:17:09Z) - Quantized Neural Networks for Low-Precision Accumulation with Guaranteed
Overflow Avoidance [68.8204255655161]
本稿では,推定時のアキュムレータの精度を下げる際に,数値オーバーフローを回避する量子化学習アルゴリズムを提案する。
本手法は,浮動小数点点ベースラインに対するモデル精度を維持しつつ,アキュムレータの精度を低減できることを示す。
論文 参考訳(メタデータ) (2023-01-31T02:46:57Z) - Cluster-Promoting Quantization with Bit-Drop for Minimizing Network
Quantization Loss [61.26793005355441]
クラスタ・プロモーティング・量子化(CPQ)は、ニューラルネットワークに最適な量子化グリッドを見つける。
DropBitsは、ニューロンの代わりにランダムにビットをドロップする標準のドロップアウト正規化を改訂する新しいビットドロップ技術である。
本手法を様々なベンチマークデータセットとネットワークアーキテクチャ上で実験的に検証する。
論文 参考訳(メタデータ) (2021-09-05T15:15:07Z) - FracBits: Mixed Precision Quantization via Fractional Bit-Widths [29.72454879490227]
混合精度量子化は、複数のビット幅での算術演算をサポートするカスタマイズハードウェアで好適である。
本稿では,目標計算制約下での混合精度モデルに基づく学習に基づく新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-04T06:09:09Z) - Post-Training Piecewise Linear Quantization for Deep Neural Networks [13.717228230596167]
リソース制限されたデバイスへのディープニューラルネットワークのエネルギー効率向上において、量子化は重要な役割を果たす。
本稿では,長い尾を持つベル形状のテンソル値の正確な近似を実現するために,一方向線形量子化方式を提案する。
提案手法は,最先端のポストトレーニング量子化手法と比較して,画像分類,セマンティックセグメンテーション,オブジェクト検出においてわずかなオーバーヘッドで優れた性能を実現する。
論文 参考訳(メタデータ) (2020-01-31T23:47:00Z) - Least squares binary quantization of neural networks [19.818087225770967]
値が-1と1にマップされる二項量子化に焦点を当てる。
2ビット対1ビット量子化のパリト最適性に触発されて、証明可能な最小二乗誤差を持つ新しい2ビット量子化を導入する。
論文 参考訳(メタデータ) (2020-01-09T00:01:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。