論文の概要: Accumulator-Aware Post-Training Quantization
- arxiv url: http://arxiv.org/abs/2409.17092v1
- Date: Wed, 25 Sep 2024 16:58:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-27 02:44:18.319930
- Title: Accumulator-Aware Post-Training Quantization
- Title(参考訳): 累積器を意識したポストトレーニング量子化
- Authors: Ian Colbert, Fabian Grob, Giuseppe Franco, Jinjie Zhang, Rayan Saab,
- Abstract要約: 本稿では,学習後量子化のためのアキュムレータ対応拡張フレームワークであるAXEを紹介する。
我々はAXEを一般化して、初めて多段階蓄積をサポートする。
本研究では,アキュムレータビット幅とモデル精度とのトレードオフを,ベースライン法よりも大幅に改善した。
- 参考スコア(独自算出の注目度): 3.8447712214412113
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Several recent studies have investigated low-precision accumulation, reporting improvements in throughput, power, and area across various platforms. However, the accompanying proposals have only considered the quantization-aware training (QAT) paradigm, in which models are fine-tuned or trained from scratch with quantization in the loop. As models continue to grow in size, QAT techniques become increasingly more expensive, which has motivated the recent surge in post-training quantization (PTQ) research. To the best of our knowledge, ours marks the first formal study of accumulator-aware quantization in the PTQ setting. To bridge this gap, we introduce AXE, a practical framework of accumulator-aware extensions designed to endow overflow avoidance guarantees to existing layer-wise PTQ algorithms. We theoretically motivate AXE and demonstrate its flexibility by implementing it on top of two state-of-the-art PTQ algorithms: GPFQ and OPTQ. We further generalize AXE to support multi-stage accumulation for the first time, opening the door for full datapath optimization and scaling to large language models (LLMs). We evaluate AXE across image classification and language generation models, and observe significant improvements in the trade-off between accumulator bit width and model accuracy over baseline methods.
- Abstract(参考訳): いくつかの最近の研究では、低精度の蓄積、スループット、パワー、および様々なプラットフォームにわたる領域の改善を報告している。
しかし、関連する提案は量子化対応トレーニング(QAT)パラダイムのみを考慮しており、ループ内の量子化によってモデルがスクラッチから微調整または訓練される。
モデルのサイズが拡大するにつれて、QAT技術はますます高価になり、これはポストトレーニング量子化(PTQ)研究の最近の増加を動機付けている。
我々の知る限りでは、PTQ設定におけるアキュムレータを意識した量子化に関する最初の公式な研究である。
このギャップを埋めるために、我々は既存のレイヤワイドPTQアルゴリズムにオーバーフロー回避を保証するために設計されたアキュムレータ対応拡張の実践的なフレームワークであるAXEを紹介する。
我々はAXEを理論的に動機付け、GPFQとOPTQという2つの最先端PTQアルゴリズム上に実装することで、その柔軟性を実証する。
我々はさらにAXEを一般化して、初めてマルチステージ蓄積をサポートし、完全なデータパス最適化と大規模言語モデル(LLM)へのスケーリングの扉を開く。
画像分類と言語生成モデル間でのAXEの評価を行い,アキュムレータビット幅とベースライン法によるモデル精度とのトレードオフを著しく改善した。
関連論文リスト
- EdgeQAT: Entropy and Distribution Guided Quantization-Aware Training for
the Acceleration of Lightweight LLMs on the Edge [40.85258685379659]
トレーニング後の量子化(PTQ)メソッドは、ウェイト、アクティベーション、KVキャッシュを同時に8ビット以下に定量化する際に品質が低下する。
多くのQAT(Quantization-Aware Training)は、モデルウェイトを定量化し、アクティベーションを未修正のまま残し、エッジ上の推論加速度の量子化の可能性を完全に活用しない。
We propose EdgeQAT, the Entropy and Distribution Guided QAT for the optimization of light LLMs to achieve inference acceleration on Edge devices。
論文 参考訳(メタデータ) (2024-02-16T16:10:38Z) - Trainable Fixed-Point Quantization for Deep Learning Acceleration on
FPGAs [30.325651150798915]
量子化は、組み込みFPGAのようなリソース制約のあるデバイスにディープラーニングモデルをデプロイするための重要な技術である。
モデルトレーニング中の二点位置を自動的に学習する,トレーニング可能な固定点量子化手法であるQFXを提案する。
QFXはPyTorchベースのライブラリとして実装され、FPGA HLSでサポートされている固定点演算を効率的にエミュレートする。
論文 参考訳(メタデータ) (2024-01-31T02:18:27Z) - Zero-Shot Sharpness-Aware Quantization for Pre-trained Language Models [88.80146574509195]
量子化は、メモリオーバーヘッドを減らし、推論を加速するための有望なアプローチである。
種々のPLMのゼロショット量子化のための新しい量子化(ZSAQ)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-20T07:09:56Z) - QuantEase: Optimization-based Quantization for Language Models [17.333778751252392]
本研究は,近年のLarge Language Models (LLMs) の進歩から,様々な量子化層の量子化(PTQ)を導入する。
当社のCDベースのアプローチは、ベクター操作にのみ依存して、簡単にアップデートできる。
我々はまた、完全な精度で重要な重量(外積)を維持することができるような、外れ値のアプローチも検討している。
論文 参考訳(メタデータ) (2023-09-05T01:39:09Z) - PreQuant: A Task-agnostic Quantization Approach for Pre-trained Language
Models [52.09865918265002]
ファインチューニングのフレームワークPreQuantに先立って,新しい量子化を提案する。
PreQuantは様々な量子化戦略と互換性があり、インダクションされた量子化誤差を修正するために、アウタリア対応の微調整が組み込まれている。
BERT,RoBERTa,T5を用いたGLUEベンチマークにおけるPreQuantの有効性を示す。
論文 参考訳(メタデータ) (2023-05-30T08:41:33Z) - A Framework for Demonstrating Practical Quantum Advantage: Racing
Quantum against Classical Generative Models [62.997667081978825]
生成モデルの一般化性能を評価するためのフレームワークを構築した。
古典的および量子生成モデル間の実用的量子優位性(PQA)に対する最初の比較レースを確立する。
以上の結果から,QCBMは,他の最先端の古典的生成モデルよりも,データ制限方式の方が効率的であることが示唆された。
論文 参考訳(メタデータ) (2023-03-27T22:48:28Z) - MQBench: Towards Reproducible and Deployable Model Quantization
Benchmark [53.12623958951738]
MQBenchは、モデル量子化アルゴリズムの評価、分析、およびデプロイ可能性のベンチマークを行う最初の試みである。
我々は、CPU、GPU、ASIC、DSPを含む実世界のデプロイのための複数のプラットフォームを選択し、最先端の量子化アルゴリズムを評価する。
包括的な分析を行い、直感的、直感的、あるいは反直感的な洞察を見出す。
論文 参考訳(メタデータ) (2021-11-05T23:38:44Z) - Towards Efficient Post-training Quantization of Pre-trained Language
Models [85.68317334241287]
PLMのポストトレーニング量子化(PTQ)について検討し,モジュール単位の量子化誤差最小化(MREM)を提案する。
GLUEとSQuADベンチマークの実験により、提案したPTQソリューションはQATに近く動作するだけでなく、トレーニング時間、メモリオーバーヘッド、データ消費を大幅に削減できることがわかった。
論文 参考訳(メタデータ) (2021-09-30T12:50:06Z) - An Investigation on Different Underlying Quantization Schemes for
Pre-trained Language Models [33.49417100179159]
我々はk平均量子化を実装し、BERTの固定精度量子化と線形量子化の性能を比較する。
また、ALBERTモデル上の2つの量子化スキームを比較し、異なる事前学習モデル間のロバスト性差を探索する。
論文 参考訳(メタデータ) (2020-10-14T14:05:06Z) - Once Quantization-Aware Training: High Performance Extremely Low-bit
Architecture Search [112.05977301976613]
本稿では,ネットワークアーキテクチャ検索手法と量子化手法を組み合わせることで,両者のメリットを享受することを提案する。
まず、多数の量子化モデルを取得するために、共有ステップサイズでアーキテクチャと量子化の合同トレーニングを提案する。
次に、量子化されたモデルを低ビットに転送するためにビット継承方式を導入し、さらに時間コストを削減し、量子化精度を向上させる。
論文 参考訳(メタデータ) (2020-10-09T03:52:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。