論文の概要: QBitOpt: Fast and Accurate Bitwidth Reallocation during Training
- arxiv url: http://arxiv.org/abs/2307.04535v1
- Date: Mon, 10 Jul 2023 13:01:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-11 13:02:28.131073
- Title: QBitOpt: Fast and Accurate Bitwidth Reallocation during Training
- Title(参考訳): QBitOpt: トレーニング中のビット幅の高速かつ正確な再配置
- Authors: Jorn Peters, Marios Fournarakis, Markus Nagel, Mart van Baalen, Tijmen
Blankevoort
- Abstract要約: ニューラルネットワークの量子化は、モバイルおよび組み込みデバイス上で効率的な推論を実現するための最も効果的な方法の1つである。
量子化学習中にビット幅を更新する新しいアルゴリズムQBitOptを提案する。
我々は、ImageNet上でQBitOptを評価し、平均ビット幅制約下で既存の固定精度と混合精度の手法より優れていることを確認した。
- 参考スコア(独自算出の注目度): 19.491778184055118
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Quantizing neural networks is one of the most effective methods for achieving
efficient inference on mobile and embedded devices. In particular, mixed
precision quantized (MPQ) networks, whose layers can be quantized to different
bitwidths, achieve better task performance for the same resource constraint
compared to networks with homogeneous bitwidths. However, finding the optimal
bitwidth allocation is a challenging problem as the search space grows
exponentially with the number of layers in the network. In this paper, we
propose QBitOpt, a novel algorithm for updating bitwidths during
quantization-aware training (QAT). We formulate the bitwidth allocation problem
as a constraint optimization problem. By combining fast-to-compute
sensitivities with efficient solvers during QAT, QBitOpt can produce
mixed-precision networks with high task performance guaranteed to satisfy
strict resource constraints. This contrasts with existing mixed-precision
methods that learn bitwidths using gradients and cannot provide such
guarantees. We evaluate QBitOpt on ImageNet and confirm that we outperform
existing fixed and mixed-precision methods under average bitwidth constraints
commonly found in the literature.
- Abstract(参考訳): ニューラルネットワークの定量化は、モバイルおよび組み込みデバイス上で効率的な推論を実現するための最も効果的な方法の1つである。
特に、異なるビット幅に層を量子化できる混合精度量子化(MPQ)ネットワークは、均一なビット幅を持つネットワークと比較して、同じリソース制約に対してより良いタスク性能を実現する。
しかし,ネットワーク内の層数の増加に伴って探索空間が指数関数的に増加するため,最適なビット幅割当を求めることは難しい問題である。
本稿では,量子化学習(QAT)中にビット幅を更新する新しいアルゴリズムであるQBitOptを提案する。
制約最適化問題としてビット幅割り当て問題を定式化する。
qat中に高速に計算できる感度と効率的な解法を組み合わせることで、qbitoptは厳密なリソース制約を満たす高いタスク性能を持つ混合精度ネットワークを作成できる。
これは、勾配を使ってビット幅を学習し、そのような保証を提供できない既存の混合精度手法とは対照的である。
我々は,imagenet上のqbitoptを評価し,文献でよく見られる平均ビット幅制約下で既存の固定および混合精度法を上回っていることを確認した。
関連論文リスト
- AdaQAT: Adaptive Bit-Width Quantization-Aware Training [0.873811641236639]
大規模ディープニューラルネットワーク(DNN)は多くのアプリケーションシナリオで大きな成功を収めています。
モデル量子化は、デプロイメントの制約に対処する一般的なアプローチであるが、最適化されたビット幅の探索は困難である。
AdaQAT(Adaptive Bit-Width Quantization Aware Training)は,学習中のビット幅を自動的に最適化し,より効率的な推論を行う学習手法である。
論文 参考訳(メタデータ) (2024-04-22T09:23:56Z) - AdaBM: On-the-Fly Adaptive Bit Mapping for Image Super-Resolution [53.23803932357899]
我々は、処理時間を数時間から秒に短縮する最初のオンザフライ適応量子化フレームワークを導入する。
我々は,従来の適応量子化法と競合する性能を実現し,処理時間をx2000で高速化する。
論文 参考訳(メタデータ) (2024-04-04T08:37:27Z) - SySMOL: Co-designing Algorithms and Hardware for Neural Networks with Heterogeneous Precisions [20.241671088121144]
最近の量子化技術は、非常に微細な粒度で不均一な精度を実現している。
これらのネットワークは、個々の変数の精度設定をデコードし、変数を調整し、きめ細かい混合精度計算機能を提供するために、追加のハードウェアを必要とする。
ネットワークを細粒度の不均一な精度で効率的に実行するためのエンド・ツー・エンド協調設計手法を提案する。
論文 参考訳(メタデータ) (2023-11-23T17:20:09Z) - Free Bits: Latency Optimization of Mixed-Precision Quantized Neural
Networks on the Edge [17.277918711842457]
混合精度量子化は、モデルサイズ、レイテンシ、統計的精度の間のトレードオフを最適化する機会を提供する。
本稿では,与えられたネットワークに対する混合精度構成の探索空間をナビゲートするハイブリッド探索手法を提案する。
ハードウェアに依存しない差別化検索アルゴリズムと、特定のハードウェアターゲットに対して遅延最適化された混合精度構成を見つけるハードウェア対応最適化で構成されている。
論文 参考訳(メタデータ) (2023-07-06T09:57:48Z) - MBQuant: A Novel Multi-Branch Topology Method for Arbitrary Bit-width Network Quantization [51.85834744835766]
任意のビット幅量子化のための新しい手法MBQuantを提案する。
本稿では,既存の任意のビット幅量子化法と比較して,MBQuantが大幅な性能向上を実現していることを示す。
論文 参考訳(メタデータ) (2023-05-14T10:17:09Z) - A Practical Mixed Precision Algorithm for Post-Training Quantization [15.391257986051249]
混合精度量子化は、均一な量子化よりも優れた性能効率トレードオフを見つけるための有望な解である。
簡単な学習後混合精度アルゴリズムを提案する。
我々は,同質のビット幅等価値よりも精度と効率のトレードオフが良い混合精度ネットワークを見つけることができることを示す。
論文 参考訳(メタデータ) (2023-02-10T17:47:54Z) - OMPQ: Orthogonal Mixed Precision Quantization [64.59700856607017]
混合精度量子化は、ハードウェアの多重ビット幅演算を利用して、ネットワーク量子化の全ポテンシャルを解き放つ。
本稿では、整数プログラミングの損失と高い相関関係にあるネットワーク性の概念であるプロキシメトリックを最適化することを提案する。
このアプローチは、量子化精度にほとんど妥協することなく、検索時間と必要なデータ量を桁違いに削減する。
論文 参考訳(メタデータ) (2021-09-16T10:59:33Z) - Quantized Neural Networks via {-1, +1} Encoding Decomposition and
Acceleration [83.84684675841167]
本稿では,量子化されたニューラルネットワーク(QNN)をマルチブランチバイナリネットワークに分解するために,-1,+1を用いた新しい符号化方式を提案する。
本稿では,大規模画像分類,オブジェクト検出,セマンティックセグメンテーションにおける提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2021-06-18T03:11:15Z) - Bit-Mixer: Mixed-precision networks with runtime bit-width selection [72.32693989093558]
Bit-Mixerは、テスト時間中に任意のレイヤが入札幅を変更し、ネットワーク全体の精度の高い推論能力に影響を与えることなく、メタ量子ネットワークをトレーニングする最初の方法である。
本手法は, デバイス上での展開に望ましい柔軟性を示す複合精密ネットワークを, 精度を犠牲にすることなく実現できることを示した。
論文 参考訳(メタデータ) (2021-03-31T17:58:47Z) - Rethinking Differentiable Search for Mixed-Precision Neural Networks [83.55785779504868]
低ビット幅に量子化された重みとアクティベーションを持つ低精度ネットワークは、エッジデバイスでの推論を加速するために広く利用されている。
現在の解は均一であり、全てのフィルタに同じビット幅を使用する。
これは異なるフィルタの異なる感度を考慮せず、最適以下である。
混合精度ネットワークは、ビット幅を個々のフィルタ要求に調整することでこの問題に対処する。
論文 参考訳(メタデータ) (2020-04-13T07:02:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。