Fugu-MT 論文翻訳(概要): QDrop: Randomly Dropping Quantization for Extremely Low-bit Post-Training Quantization

論文の概要: QDrop: Randomly Dropping Quantization for Extremely Low-bit Post-Training Quantization

arxiv url: http://arxiv.org/abs/2203.05740v1
Date: Fri, 11 Mar 2022 04:01:53 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-14 11:53:12.164701
Title: QDrop: Randomly Dropping Quantization for Extremely Low-bit Post-Training Quantization
Title（参考訳）: QDrop: 極低ビット後トレーニング量子化のためのランダムドロップ量子化
Authors: Xiuying Wei, Ruihao Gong, Yuhang Li, Xianglong Liu, Fengwei Yu
Abstract要約: ポストトレーニング量子化(PTQ)は、長時間のリトレーニングなしに効率的なニューラルネットワークを生成するために多くの注目を集めている。本研究では,PTQ再構成にアクティベーション量子化を適切に組み込むことで,最終的な精度が向上することを先駆的に確認する。結論に基づき、QDROPと呼ばれる単純な効果的なアプローチが提案され、PTQ中のアクティベーションの量子化をランダムに減少させる。
参考スコア（独自算出の注目度）: 54.44028700760694
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, post-training quantization (PTQ) has driven much attention to produce efficient neural networks without long-time retraining. Despite its low cost, current PTQ works tend to fail under the extremely low-bit setting. In this study, we pioneeringly confirm that properly incorporating activation quantization into the PTQ reconstruction benefits the final accuracy. To deeply understand the inherent reason, a theoretical framework is established, indicating that the flatness of the optimized low-bit model on calibration and test data is crucial. Based on the conclusion, a simple yet effective approach dubbed as QDROP is proposed, which randomly drops the quantization of activations during PTQ. Extensive experiments on various tasks including computer vision (image classification, object detection) and natural language processing (text classification and question answering) prove its superiority. With QDROP, the limit of PTQ is pushed to the 2-bit activation for the first time and the accuracy boost can be up to 51.49%. Without bells and whistles, QDROP establishes a new state of the art for PTQ. Our code is available at https://github.com/wimh966/QDrop and has been integrated into MQBench (https://github.com/ModelTC/MQBench)
Abstract（参考訳）: 近年、PTQ(Post-training Quantization)は、長時間のトレーニングを伴わない効率的なニューラルネットワークの実現に多くの注目を集めている。コストは低いが、現在のptqは極めて低ビット設定で失敗する傾向がある。本研究では,PTQ再構成にアクティベーション量子化を適切に組み込むことで,最終的な精度が向上することを確認する。そこで, キャリブレーションとテストデータに対する最適化低ビットモデルの平坦性が重要であることを示す理論的枠組みを構築した。結論に基づき、QDROPと呼ばれる単純な効果的なアプローチが提案され、PTQ中のアクティベーションの量子化をランダムに落とす。コンピュータビジョン (画像分類, オブジェクト検出) や自然言語処理 (テキスト分類, 質問応答) など, 様々なタスクに対する広範な実験は, その優位性を証明している。 QDROPでは、PTQの制限が初めて2ビットアクティベーションにプッシュされ、精度が最大51.49%向上する。ベルとホイッスルがなければ、QDROPはPTQのための新しい最先端技術を確立する。私たちのコードはhttps://github.com/wimh966/QDropで利用可能で、MQBench (https://github.com/ModelTC/MQBench)に統合されています。

関連論文リスト

APHQ-ViT: Post-Training Quantization with Average Perturbation Hessian Based Reconstruction for Vision Transformers [71.2294205496784]
平均摂動ヘシアン (APH) を用いた重要度推定に基づく新しいPTQ手法である textbfAPHQ-ViT を提案する。本稿では,線形量子化器を用いたAPHQ-ViTが既存のPTQ法よりも3ビット,4ビットの差が大きいことを示す。
論文参考訳（メタデータ） (2025-04-03T11:48:56Z)
PTQ1.61: Push the Real Limit of Extremely Low-Bit Post-Training Quantization Methods for Large Language Models [64.84734437930362]
大規模言語モデル(LLM)は、非常に低ビット(2ビット未満)の量子化に直面した場合、性能が著しく低下する。我々はPTQ1.61と呼ばれる極低ビットのPTQ法を提案し、これによって初めて1.61ビットの重み量子化が可能となる。実験により、PTQ1.61は極低ビット量子化において最先端の性能を達成することが示された。
論文参考訳（メタデータ） (2025-02-18T08:04:58Z)
ResQ: Mixed-Precision Quantization of Large Language Models with Low-Rank Residuals [10.860081994662645]
大規模言語モデル(LLM)の学習後の量子化は、推論時の計算コストを抑えるという約束を果たす。本稿では,最先端技術をさらに推し進めるPTQ手法であるResQを提案する。 ResQは、様々なベンチマークにおいて、最近の一様および混合精度のPTQ法よりも優れていることを示す。
論文参考訳（メタデータ） (2024-12-18T22:01:55Z)
EfQAT: An Efficient Framework for Quantization-Aware Training [20.47826378511535]
量子化対応トレーニング(QAT)スキームは、ほぼ完全な精度を実現することが示されている。ポストトレーニング量子化(PTQ)スキームはトレーニングを伴わないため、計算的に安価である。本稿では、量子化モデルのパラメータのサブセットのみを最適化することにより、両方のスキームを一般化するEfQATを提案する。
論文参考訳（メタデータ） (2024-11-17T11:06:36Z)
CBQ: Cross-Block Quantization for Large Language Models [66.82132832702895]
ポストトレーニング量子化(PTQ)は、超低コストで大規模言語モデル(LLM)を圧縮する上で重要な役割を果たしている。 LLMのためのクロスブロック再構成に基づくPTQ手法CBQを提案する。 CBQはリコンストラクションスキームを使用してクロスブロック依存関係を採用し、エラーの蓄積を最小限に抑えるために複数のブロックにまたがる長距離依存関係を確立する。
論文参考訳（メタデータ） (2023-12-13T07:56:27Z)
Designing strong baselines for ternary neural network quantization through support and mass equalization [7.971065005161565]
ディープニューラルネットワーク(DNN)は、コンピュータビジョンにおける幅広いアプリケーションにおいて、最高のパフォーマンスを提供する。浮動小数点値を3次値に定量化することにより、この計算負担を劇的に低減することができる。提案手法は, 様々なシナリオを用いて三次量子化の性能を大幅に向上させることができることを示す。
論文参考訳（メタデータ） (2023-06-30T07:35:07Z)
Benchmarking the Reliability of Post-training Quantization: a Particular Focus on Worst-case Performance [53.45700148820669]
ポストトレーニング量子化(PTQ)は、独自のアーキテクチャやトレーニング手順を変更することなく、ディープニューラルネットワーク(DNN)を圧縮するための一般的な方法である。その有効性と利便性にもかかわらず、分散シフトやデータノイズといった極端ケースの存在下でのPTQ手法の信頼性は明らかにされていない。そこで本研究では,様々なPTQ手法を用いてこの問題について検討する。
論文参考訳（メタデータ） (2023-03-23T02:55:50Z)
RAPQ: Rescuing Accuracy for Power-of-Two Low-bit Post-training Quantization [4.8018862391424095]
ハードウェア要件を満たすディープニューラルネットワークのためのPTQ(Power-of-Two post-training Quantization)手法を提案する。本稿では,ネットワーク全体のパワー・オブ・ツー・スケールを動的に調整する,RAPQと呼ばれる新しいパワー・オブ・ツー・PTQフレームワークを提案する。我々は、より制約のあるハードウェアフレンドリーなPower-of-Two量子化のためのPTQを提案し、SOTA PTQ法とほぼ同じ精度で実現できることを証明した。
論文参考訳（メタデータ） (2022-04-26T14:02:04Z)
Cluster-Promoting Quantization with Bit-Drop for Minimizing Network Quantization Loss [61.26793005355441]
クラスタ・プロモーティング・量子化(CPQ)は、ニューラルネットワークに最適な量子化グリッドを見つける。 DropBitsは、ニューロンの代わりにランダムにビットをドロップする標準のドロップアウト正規化を改訂する新しいビットドロップ技術である。本手法を様々なベンチマークデータセットとネットワークアーキテクチャ上で実験的に検証する。
論文参考訳（メタデータ） (2021-09-05T15:15:07Z)
A White Paper on Neural Network Quantization [20.542729144379223]
本稿では,量子化ノイズがネットワークの性能に与える影響を緩和する最新アルゴリズムを提案する。我々は,ポストトレーニング量子化(PTQ)と量子化アウェア・トレーニング(QAT)の2つのアルゴリズムについて考察する。
論文参考訳（メタデータ） (2021-06-15T17:12:42Z)
BRECQ: Pushing the Limit of Post-Training Quantization by Block Reconstruction [29.040991149922615]
PTQ(Post-training Quantization)という,エンドツーエンドの再トレーニングを伴わないニューラルネットワーク量子化の課題について検討する。本稿では,PTQ のビット幅制限を INT2 に初めて押し下げる BRECQ という新しい PTQ フレームワークを提案する。初めて、ベルとホイッスルなしで、PTQはQATに匹敵する4ビットのResNetとMobileNetV2を達成でき、量子化されたモデルの240倍高速な生産を享受できることを証明した。
論文参考訳（メタデータ） (2021-02-10T13:46:16Z)
AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文参考訳（メタデータ） (2020-07-14T09:07:29Z)
ZeroQ: A Novel Zero Shot Quantization Framework [83.63606876854168]
量子化は、ニューラルネットワークの推論時間とメモリフットプリントを削減するための有望なアプローチである。既存のゼロショット量子化法では、異なるエポックを用いてこの問題に対処するが、性能は低下する。本稿では,この問題に対処する新しいゼロショット量子化フレームワークであるZeroQを提案する。
論文参考訳（メタデータ） (2020-01-01T23:58:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。