論文の概要: MultiQuant: A Novel Multi-Branch Topology Method for Arbitrary Bit-width
Network Quantization
- arxiv url: http://arxiv.org/abs/2305.08117v1
- Date: Sun, 14 May 2023 10:17:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-16 17:24:30.823064
- Title: MultiQuant: A Novel Multi-Branch Topology Method for Arbitrary Bit-width
Network Quantization
- Title(参考訳): MultiQuant: 任意ビット幅ネットワーク量子化のための新しいマルチブランチトポロジー手法
- Authors: Yunshan Zhong, Mingbao Lin, Yuyao Zhou, Mengzhao Chen, Yuxin Zhang,
Fei Chao, Rongrong Ji
- Abstract要約: MultiQuantは任意のビット幅量子化にマルチブランチトポロジーを利用する新しい手法である。
軽量ビット幅の切り替えを回避しつつ、計算コストを同じように維持する。
大規模な実験により、MultiQuantは既存の任意のビット幅量子化法と比較して大きな性能向上を達成した。
- 参考スコア(独自算出の注目度): 64.9617631724811
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Arbitrary bit-width network quantization has received significant attention
due to its high adaptability to various bit-width requirements during runtime.
However, in this paper, we investigate existing methods and observe a
significant accumulation of quantization errors caused by frequent bit-width
switching of weights and activations, leading to limited performance. To
address this issue, we propose MultiQuant, a novel method that utilizes a
multi-branch topology for arbitrary bit-width quantization. MultiQuant
duplicates the network body into multiple independent branches and quantizes
the weights of each branch to a fixed 2-bit while retaining the input
activations in the expected bit-width. This approach maintains the
computational cost as the same while avoiding the switching of weight
bit-widths, thereby substantially reducing errors in weight quantization.
Additionally, we introduce an amortization branch selection strategy to
distribute quantization errors caused by activation bit-width switching among
branches to enhance performance. Finally, we design an in-place distillation
strategy that facilitates guidance between branches to further enhance
MultiQuant's performance. Extensive experiments demonstrate that MultiQuant
achieves significant performance gains compared to existing arbitrary bit-width
quantization methods. Code is at \url{https://github.com/zysxmu/MultiQuant}.
- Abstract(参考訳): 任意のビット幅ネットワーク量子化は、実行時に様々なビット幅要求に高い適応性を持つため、大きな注目を集めている。
しかし,本研究では,重みとアクティベーションの頻繁なビット幅切替による量子化誤差の顕著な蓄積を観測し,性能の限界を指摘した。
この問題に対処するために,任意のビット幅量子化にマルチブランチトポロジを利用する新しい手法であるMultiQuantを提案する。
MultiQuantは、ネットワーク本体を複数の独立したブランチに複製し、期待ビット幅の入力活性化を維持しながら、各ブランチの重みを固定2ビットに量子化する。
この手法は、重みビット幅の切り替えを回避しつつも計算コストを同じに維持し、重み量子化の誤差を実質的に低減する。
また,分枝の活性化ビット幅切替による量子化誤差を分枝間で分散し,性能を向上させるための償却分枝選択戦略を提案する。
最後に,MultiQuantの性能を高めるため,枝間誘導を容易にする蒸留方式を設計する。
大規模な実験により、MultiQuantは既存の任意のビット幅量子化法と比較して大きな性能向上を達成した。
コードは \url{https://github.com/zysxmu/MultiQuant} にある。
関連論文リスト
- Binarizing Sparse Convolutional Networks for Efficient Point Cloud
Analysis [93.55896765176414]
我々は,効率的な点群解析のためのBSC-Netと呼ばれるバイナリスパース畳み込みネットワークを提案する。
我々は,移動したスパース畳み込みにおけるサイトマッチングに最適なオプションを見つけるために,異なる検索戦略を採用している。
我々のBSC-Netは、我々の厳格なベースラインを大幅に改善し、最先端のネットワーク双対化手法より優れています。
論文 参考訳(メタデータ) (2023-03-27T13:47:06Z) - Power-of-Two Quantization for Low Bitwidth and Hardware Compliant Neural
Networks [1.398698203665363]
本稿では,低ビット精度を利用する非線形量子化手法について検討する。
我々は,低ビット幅のPower-of-Two(PoT)ネットワークのトレーニングを可能にするQATアルゴリズムを開発した。
同時に、PoT量子化はニューラルネットワークの計算複雑性を大幅に減らす。
論文 参考訳(メタデータ) (2022-03-09T19:57:14Z) - Cluster-Promoting Quantization with Bit-Drop for Minimizing Network
Quantization Loss [61.26793005355441]
クラスタ・プロモーティング・量子化(CPQ)は、ニューラルネットワークに最適な量子化グリッドを見つける。
DropBitsは、ニューロンの代わりにランダムにビットをドロップする標準のドロップアウト正規化を改訂する新しいビットドロップ技術である。
本手法を様々なベンチマークデータセットとネットワークアーキテクチャ上で実験的に検証する。
論文 参考訳(メタデータ) (2021-09-05T15:15:07Z) - All at Once Network Quantization via Collaborative Knowledge Transfer [56.95849086170461]
オールオンス量子化ネットワークを効率的にトレーニングするための新しい共同知識伝達アプローチを開発しています。
具体的には、低精度の学生に知識を伝達するための高精度のエンクォータを選択するための適応的選択戦略を提案する。
知識を効果的に伝達するために,低精度の学生ネットワークのブロックを高精度の教師ネットワークのブロックにランダムに置き換える動的ブロックスワッピング法を開発した。
論文 参考訳(メタデータ) (2021-03-02T03:09:03Z) - Direct Quantization for Training Highly Accurate Low Bit-width Deep
Neural Networks [73.29587731448345]
本稿では,低ビット幅重みとアクティベーションで深部畳み込みニューラルネットワークを訓練する2つの新しい手法を提案する。
まず、ビット幅の少ない重みを得るため、既存の方法の多くは、全精度ネットワーク重みで量子化することにより量子化重みを得る。
第二に、低ビット幅のアクティベーションを得るために、既存の作品はすべてのチャネルを等しく考慮する。
論文 参考訳(メタデータ) (2020-12-26T15:21:18Z) - AUSN: Approximately Uniform Quantization by Adaptively Superimposing
Non-uniform Distribution for Deep Neural Networks [0.7378164273177589]
既存の一様および非一様量子化法は、表現範囲と表現解像度の間に固有の矛盾を示す。
重みとアクティベーションを定量化する新しい量子化法を提案する。
鍵となる考え方は、複数の非一様量子化値、すなわち AUSN を適応的に重ね合わせることで、ユニフォーム量子化を近似することである。
論文 参考訳(メタデータ) (2020-07-08T05:10:53Z) - Bayesian Bits: Unifying Quantization and Pruning [73.27732135853243]
我々は、勾配に基づく最適化による混合精度量子化とプルーニングの実用的な方法であるBayesian Bitsを紹介する。
提案手法をいくつかのベンチマーク・データセット上で実験的に検証し,プレナード付き混合精度ネットワークを学習可能であることを示す。
論文 参考訳(メタデータ) (2020-05-14T16:00:34Z) - Post-Training Piecewise Linear Quantization for Deep Neural Networks [13.717228230596167]
リソース制限されたデバイスへのディープニューラルネットワークのエネルギー効率向上において、量子化は重要な役割を果たす。
本稿では,長い尾を持つベル形状のテンソル値の正確な近似を実現するために,一方向線形量子化方式を提案する。
提案手法は,最先端のポストトレーニング量子化手法と比較して,画像分類,セマンティックセグメンテーション,オブジェクト検出においてわずかなオーバーヘッドで優れた性能を実現する。
論文 参考訳(メタデータ) (2020-01-31T23:47:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。