論文の概要: AdaQAT: Adaptive Bit-Width Quantization-Aware Training
- arxiv url: http://arxiv.org/abs/2404.16876v1
- Date: Mon, 22 Apr 2024 09:23:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-29 15:13:44.232358
- Title: AdaQAT: Adaptive Bit-Width Quantization-Aware Training
- Title(参考訳): AdaQAT: 適応的なビット幅量子化学習
- Authors: Cédric Gernigon, Silviu-Ioan Filip, Olivier Sentieys, Clément Coggiola, Mickael Bruno,
- Abstract要約: 大規模ディープニューラルネットワーク(DNN)は多くのアプリケーションシナリオで大きな成功を収めています。
モデル量子化は、デプロイメントの制約に対処する一般的なアプローチであるが、最適化されたビット幅の探索は困難である。
AdaQAT(Adaptive Bit-Width Quantization Aware Training)は,学習中のビット幅を自動的に最適化し,より効率的な推論を行う学習手法である。
- 参考スコア(独自算出の注目度): 0.873811641236639
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale deep neural networks (DNNs) have achieved remarkable success in many application scenarios. However, high computational complexity and energy costs of modern DNNs make their deployment on edge devices challenging. Model quantization is a common approach to deal with deployment constraints, but searching for optimized bit-widths can be challenging. In this work, we present Adaptive Bit-Width Quantization Aware Training (AdaQAT), a learning-based method that automatically optimizes weight and activation signal bit-widths during training for more efficient DNN inference. We use relaxed real-valued bit-widths that are updated using a gradient descent rule, but are otherwise discretized for all quantization operations. The result is a simple and flexible QAT approach for mixed-precision uniform quantization problems. Compared to other methods that are generally designed to be run on a pretrained network, AdaQAT works well in both training from scratch and fine-tuning scenarios.Initial results on the CIFAR-10 and ImageNet datasets using ResNet20 and ResNet18 models, respectively, indicate that our method is competitive with other state-of-the-art mixed-precision quantization approaches.
- Abstract(参考訳): 大規模ディープニューラルネットワーク(DNN)は多くのアプリケーションシナリオで大きな成功を収めています。
しかし、現代のDNNの計算複雑性とエネルギーコストが高いため、エッジデバイスへの展開は困難である。
モデル量子化は、デプロイメントの制約に対処する一般的なアプローチであるが、最適化されたビット幅の探索は困難である。
本研究では,より効率的なDNN推論のためのトレーニング中に,重みとアクティベーション信号のビット幅を自動的に最適化する学習手法であるAdaptive Bit-Width Quantization Aware Training (AdaQAT)を提案する。
我々は、勾配降下法則を用いて更新される緩和実数値ビット幅を用いるが、それ以外は全ての量子化演算に対して離散化される。
その結果、混合精度均一量子化問題に対する単純で柔軟なQATアプローチが得られた。
AdaQATは、トレーニング済みのネットワーク上で実行されるように設計されている他の方法と比較して、スクラッチと微調整の両方のシナリオでうまく機能し、CIFAR-10とImageNetデータセットのそれぞれResNet20とResNet18モデルを用いた最初の結果から、我々の手法は他の最先端の混合精度量子化手法と競合していることを示している。
関連論文リスト
- Auto-Train-Once: Controller Network Guided Automatic Network Pruning from Scratch [72.26822499434446]
オートトレインオース (Auto-Train-Once, ATO) は、DNNの計算コストと記憶コストを自動的に削減するために設計された、革新的なネットワークプルーニングアルゴリズムである。
総合的な収束解析と広範な実験を行い,本手法が様々なモデルアーキテクチャにおける最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2024-03-21T02:33:37Z) - AutoQNN: An End-to-End Framework for Automatically Quantizing Neural
Networks [6.495218751128902]
我々は,人的負担を伴わずに,異なるスキームやビット幅を用いて異なるレイヤを自動的に定量化する,AutoQNNというエンドツーエンドフレームワークを提案する。
QPLは、量子化スキームのビット幅を再パラメータ化することで、混合精度ポリシーを学習する最初の方法である。
QAGは、任意のアーキテクチャを手動で介入することなく、対応する量子化アーキテクチャに変換するように設計されている。
論文 参考訳(メタデータ) (2023-04-07T11:14:21Z) - A Practical Mixed Precision Algorithm for Post-Training Quantization [15.391257986051249]
混合精度量子化は、均一な量子化よりも優れた性能効率トレードオフを見つけるための有望な解である。
簡単な学習後混合精度アルゴリズムを提案する。
我々は,同質のビット幅等価値よりも精度と効率のトレードオフが良い混合精度ネットワークを見つけることができることを示す。
論文 参考訳(メタデータ) (2023-02-10T17:47:54Z) - Training Integer-Only Deep Recurrent Neural Networks [3.1829446824051195]
精度の高い整数専用リカレントニューラルネットワーク(iRNN)を得るための量子化学習法を提案する。
本手法は, 層正規化, 注意, アクティベーション関数の適応的片方向線形(PWL)近似をサポートする。
提案手法により,RNNベースの言語モデルでエッジデバイス上で実行可能である。
論文 参考訳(メタデータ) (2022-12-22T15:22:36Z) - Quantization-aware Interval Bound Propagation for Training Certifiably
Robust Quantized Neural Networks [58.195261590442406]
我々は、逆向きに頑健な量子化ニューラルネットワーク(QNN)の訓練と証明の課題について検討する。
近年の研究では、浮動小数点ニューラルネットワークが量子化後の敵攻撃に対して脆弱であることが示されている。
本稿では、堅牢なQNNをトレーニングするための新しい方法であるQA-IBP(quantization-aware interval bound propagation)を提案する。
論文 参考訳(メタデータ) (2022-11-29T13:32:38Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - Neural Network Quantization with AI Model Efficiency Toolkit (AIMET) [15.439669159557253]
AIモデル効率ツールキット(AIMET)を用いたニューラルネットワーク量子化の概要について述べる。
AIMETは、モデル最適化に必要な作業を容易にするために設計された最先端の量子化および圧縮アルゴリズムのライブラリである。
我々は、PTQとQAT、コード例、実用的なヒントを網羅し、AIMETによる量子化の実践的なガイドを提供する。
論文 参考訳(メタデータ) (2022-01-20T20:35:37Z) - Joint inference and input optimization in equilibrium networks [68.63726855991052]
ディープ均衡モデル(Deep equilibrium model)は、従来のネットワークの深さを予測し、代わりに単一の非線形層の固定点を見つけることによってネットワークの出力を計算するモデルのクラスである。
この2つの設定の間には自然なシナジーがあることが示されています。
この戦略は、生成モデルのトレーニングや、潜時符号の最適化、デノベートやインペインティングといった逆問題に対するトレーニングモデル、対逆トレーニング、勾配に基づくメタラーニングなど、様々なタスクにおいて実証される。
論文 参考訳(メタデータ) (2021-11-25T19:59:33Z) - A White Paper on Neural Network Quantization [20.542729144379223]
本稿では,量子化ノイズがネットワークの性能に与える影響を緩和する最新アルゴリズムを提案する。
我々は,ポストトレーニング量子化(PTQ)と量子化アウェア・トレーニング(QAT)の2つのアルゴリズムについて考察する。
論文 参考訳(メタデータ) (2021-06-15T17:12:42Z) - All at Once Network Quantization via Collaborative Knowledge Transfer [56.95849086170461]
オールオンス量子化ネットワークを効率的にトレーニングするための新しい共同知識伝達アプローチを開発しています。
具体的には、低精度の学生に知識を伝達するための高精度のエンクォータを選択するための適応的選択戦略を提案する。
知識を効果的に伝達するために,低精度の学生ネットワークのブロックを高精度の教師ネットワークのブロックにランダムに置き換える動的ブロックスワッピング法を開発した。
論文 参考訳(メタデータ) (2021-03-02T03:09:03Z) - Once Quantization-Aware Training: High Performance Extremely Low-bit
Architecture Search [112.05977301976613]
本稿では,ネットワークアーキテクチャ検索手法と量子化手法を組み合わせることで,両者のメリットを享受することを提案する。
まず、多数の量子化モデルを取得するために、共有ステップサイズでアーキテクチャと量子化の合同トレーニングを提案する。
次に、量子化されたモデルを低ビットに転送するためにビット継承方式を導入し、さらに時間コストを削減し、量子化精度を向上させる。
論文 参考訳(メタデータ) (2020-10-09T03:52:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。