論文の概要: QFT: Post-training quantization via fast joint finetuning of all degrees
of freedom
- arxiv url: http://arxiv.org/abs/2212.02634v1
- Date: Mon, 5 Dec 2022 22:38:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 15:39:12.843457
- Title: QFT: Post-training quantization via fast joint finetuning of all degrees
of freedom
- Title(参考訳): QFT:全自由度高速関節微調整による後学習量子化
- Authors: Alex Finkelstein, Ella Fuchs, Idan Tal, Mark Grobman, Niv Vosco, Eldad
Meller
- Abstract要約: 我々は、すべての量子化DoFの統一的な分析に向けて、HWを意識した方法で量子化ネットワークパラメータ化を再考する。
本手法はQFT(quantization-aware finetuning)と呼ばれ,SoTAと同等の4ビット重み量子化結果が得られる。
- 参考スコア(独自算出の注目度): 1.1744028458220428
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The post-training quantization (PTQ) challenge of bringing quantized neural
net accuracy close to original has drawn much attention driven by industry
demand. Many of the methods emphasize optimization of a specific
degree-of-freedom (DoF), such as quantization step size, preconditioning
factors, bias fixing, often chained to others in multi-step solutions. Here we
rethink quantized network parameterization in HW-aware fashion, towards a
unified analysis of all quantization DoF, permitting for the first time their
joint end-to-end finetuning. Our single-step simple and extendable method,
dubbed quantization-aware finetuning (QFT), achieves 4-bit weight quantization
results on-par with SoTA within PTQ constraints of speed and resource.
- Abstract(参考訳): トレーニング後の量子化(PTQ)の課題は、量子化されたニューラルネットの精度をオリジナルに近づけることである。
多くの方法は、量子化ステップサイズ、前提条件因子、バイアス固定など、特定の自由度(dof)の最適化を強調する。
ここでは,すべての量子化dofの統一的解析に向けて,hw-aware方式の量子化ネットワークパラメータ化を再考する。
QFT(quantization-aware finetuning)と呼ばれる1ステップの単純拡張可能な手法は,PTQの速度と資源の制約の中でSoTAと同等に4ビットの量子化結果が得られる。
関連論文リスト
- QSpec: Speculative Decoding with Complementary Quantization Schemes [37.007621357142725]
量子化は、推論を加速し、大きな言語モデルのメモリ消費を減らすために、実質的に採用されている。
本稿では、投機的復号化のための2つの相補的量子化スキームをシームレスに統合するQSPECと呼ばれる新しい量子化パラダイムを提案する。
QSPECは、品質上の妥協なしにトークン生成スループットを最大1.80倍向上させる。
論文 参考訳(メタデータ) (2024-10-15T05:57:51Z) - L4Q: Parameter Efficient Quantization-Aware Fine-Tuning on Large Language Models [5.304907804008533]
量子化学習(QAT)とローランド適応(LoRA)を統合し,量子化誤差を効果的に低減する手法であるL4Qを提案する。
メモリ最適化層設計を採用することで、L4QはQATのメモリオーバーヘッドを大幅に削減し、完全な量子化重みを生成する。
論文 参考訳(メタデータ) (2024-02-07T14:35:05Z) - MRQ:Support Multiple Quantization Schemes through Model Re-Quantization [0.17499351967216337]
ディープラーニングモデルは、様々な固定ポイントハードウェアで容易に定量化できない。
モデル再量子化と呼ばれる新しいタイプのモデル量子化手法を提案する。
再量子化プロセスから得られたモデルは、Echo ShowデバイスでNNAにうまくデプロイされている。
論文 参考訳(メタデータ) (2023-08-01T08:15:30Z) - PreQuant: A Task-agnostic Quantization Approach for Pre-trained Language
Models [52.09865918265002]
ファインチューニングのフレームワークPreQuantに先立って,新しい量子化を提案する。
PreQuantは様々な量子化戦略と互換性があり、インダクションされた量子化誤差を修正するために、アウタリア対応の微調整が組み込まれている。
BERT,RoBERTa,T5を用いたGLUEベンチマークにおけるPreQuantの有効性を示す。
論文 参考訳(メタデータ) (2023-05-30T08:41:33Z) - Distribution-Flexible Subset Quantization for Post-Quantizing
Super-Resolution Networks [68.83451203841624]
本稿では,超高分解能ネットワークのためのポストトレーニング量子化手法であるDFSQを提案する。
DFSQは活性化のチャネルワイド正規化を行い、分布フレキシブルなサブセット量子化(SQ)を適用する
6ビットの量子化と8ビットの量子化では完全精度に匹敵する性能を達成し、4ビットの量子化では0.1dBのPSNR低下しか生じない。
論文 参考訳(メタデータ) (2023-05-10T04:19:11Z) - A self-consistent field approach for the variational quantum
eigensolver: orbital optimization goes adaptive [52.77024349608834]
適応微分組立問題集合型アンザッツ変分固有解法(ADAPTVQE)における自己一貫したフィールドアプローチ(SCF)を提案する。
このフレームワークは、短期量子コンピュータ上の化学系の効率的な量子シミュレーションに使用される。
論文 参考訳(メタデータ) (2022-12-21T23:15:17Z) - NIPQ: Noise proxy-based Integrated Pseudo-Quantization [9.207644534257543]
量子化対応トレーニング(QAT)におけるストレートスルー推定器(STE)の不安定収束
アクティベーションと重みの両面において擬似量子化を統一的にサポートする新しいノイズプロキシベース統合擬似量子化(NIPQ)を提案する。
NIPQは、様々なビジョンや言語アプリケーションにおける既存の量子化アルゴリズムよりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2022-06-02T01:17:40Z) - Cluster-Promoting Quantization with Bit-Drop for Minimizing Network
Quantization Loss [61.26793005355441]
クラスタ・プロモーティング・量子化(CPQ)は、ニューラルネットワークに最適な量子化グリッドを見つける。
DropBitsは、ニューロンの代わりにランダムにビットをドロップする標準のドロップアウト正規化を改訂する新しいビットドロップ技術である。
本手法を様々なベンチマークデータセットとネットワークアーキテクチャ上で実験的に検証する。
論文 参考訳(メタデータ) (2021-09-05T15:15:07Z) - A Statistical Framework for Low-bitwidth Training of Deep Neural
Networks [70.77754244060384]
フル量子化トレーニング(FQT)は、ニューラルネットワークモデルのアクティベーション、重み、勾配を定量化することで、低ビット幅のハードウェアを使用する。
FQTの最大の課題は、特に勾配量子化が収束特性にどのように影響するかという理論的な理解の欠如である。
論文 参考訳(メタデータ) (2020-10-27T13:57:33Z) - Gradient $\ell_1$ Regularization for Quantization Robustness [70.39776106458858]
トレーニング後の量子化に対するロバスト性を改善するための単純な正規化スキームを導出する。
量子化対応ネットワークをトレーニングすることにより、異なるビット幅にオンデマンドで量子化できる1組の重みを格納できる。
論文 参考訳(メタデータ) (2020-02-18T12:31:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。