Fugu-MT 論文翻訳(概要): Optimal Clipping and Magnitude-aware Differentiation for Improved Quantization-aware Training

論文の概要: Optimal Clipping and Magnitude-aware Differentiation for Improved Quantization-aware Training

arxiv url: http://arxiv.org/abs/2206.06501v1
Date: Mon, 13 Jun 2022 22:15:21 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-16 08:45:11.860629
Title: Optimal Clipping and Magnitude-aware Differentiation for Improved Quantization-aware Training
Title（参考訳）: 量子化アウェアトレーニングにおける最適クリッピング法とマグニチュードアウェア微分法
Authors: Charbel Sakr, Steve Dai, Rangharajan Venkatesan, Brian Zimmer, William J. Dally, Brucek Khailany
Abstract要約: 現在のプラクティスは、クリッピングしきい値スカラーを設定するためにスカラーに依存しており、最適であることを示すことはできない。最適クリッピングスカラーを決定するアルゴリズムであるOptimally Clippeds And Vectors (OCTAV)を提案する。 OCTAVは、量子化認識トレーニング(QAT)ルーチンのイテレーション毎に、テンソル毎に、フライ時に最適なクリッピングスカラーを見つける。
参考スコア（独自算出の注目度）: 8.106641866299377
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Data clipping is crucial in reducing noise in quantization operations and improving the achievable accuracy of quantization-aware training (QAT). Current practices rely on heuristics to set clipping threshold scalars and cannot be shown to be optimal. We propose Optimally Clipped Tensors And Vectors (OCTAV), a recursive algorithm to determine MSE-optimal clipping scalars. Derived from the fast Newton-Raphson method, OCTAV finds optimal clipping scalars on the fly, for every tensor, at every iteration of the QAT routine. Thus, the QAT algorithm is formulated with provably minimum quantization noise at each step. In addition, we reveal limitations in common gradient estimation techniques in QAT and propose magnitude-aware differentiation as a remedy to further improve accuracy. Experimentally, OCTAV-enabled QAT achieves state-of-the-art accuracy on multiple tasks. These include training-from-scratch and retraining ResNets and MobileNets on ImageNet, and Squad fine-tuning using BERT models, where OCTAV-enabled QAT consistently preserves accuracy at low precision (4-to-6-bits). Our results require no modifications to the baseline training recipe, except for the insertion of quantization operations where appropriate.
Abstract（参考訳）: データクリッピングは、量子化操作におけるノイズの低減と量子化対応トレーニング(QAT)の達成可能な精度の向上に不可欠である。現在のプラクティスは、クリッピング閾値スカラーを設定するためのヒューリスティックスに依存しており、最適であることを示すことはできない。我々は,MSE最適クリッピングスカラーを決定する再帰アルゴリズムであるOptimally Clipped Tensors And Vectors (OCTAV)を提案する。高速Newton-Raphson法から派生したOCTAVは、QATルーチンの各イテレーションにおいて、テンソル毎に、フライ時に最適なクリッピングスカラーを見つける。したがって、QATアルゴリズムは各ステップで証明可能な最小量子化ノイズで定式化される。さらに, qatにおける一般的な勾配推定手法の限界を明らかにし, 精度向上のための修正としてマグニチュードアウェア微分を提案する。実験的に、OCTAV対応QATは複数のタスクで最先端の精度を達成する。その中には、ImageNet上のResNetsとMobileNetsのトレーニングとリトレーニング、BERTモデルを使用したSquadの微調整が含まれる。本研究では,量子化操作を適宜挿入する場合を除いて,ベースラインのトレーニングレシピの変更は不要である。

関連論文リスト

RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。 RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文参考訳（メタデータ） (2025-02-13T06:44:33Z)
Nearly Lossless Adaptive Bit Switching [8.485009775430411]
ImageNet-1K分類の実験結果から,本手法は多精度・混合精度の両面において,最先端のワンショットジョイントQATに十分な利点があることが示された。
論文参考訳（メタデータ） (2025-02-03T09:46:26Z)
EfQAT: An Efficient Framework for Quantization-Aware Training [20.47826378511535]
量子化対応トレーニング(QAT)スキームは、ほぼ完全な精度を実現することが示されている。ポストトレーニング量子化(PTQ)スキームはトレーニングを伴わないため、計算的に安価である。本稿では、量子化モデルのパラメータのサブセットのみを最適化することにより、両方のスキームを一般化するEfQATを提案する。
論文参考訳（メタデータ） (2024-11-17T11:06:36Z)
EfficientQAT: Efficient Quantization-Aware Training for Large Language Models [50.525259103219256]
量子化対応トレーニング(QAT)は、低ビット表現によるメモリ消費を最小限の精度で削減することで、ソリューションを提供する。より有効なQATアルゴリズムであるEfficient QAT(Efficient Quantization-Aware Training)を提案する。効率的なQATは、全てのパラメータのブロックワイドトレーニング(Block-AP)と量子化パラメータのエンドツーエンドトレーニング(E2E-QP)の2つのフェーズを含む。
論文参考訳（メタデータ） (2024-07-10T17:53:30Z)
Gradient-based Automatic Mixed Precision Quantization for Neural Networks On-Chip [0.9187138676564589]
本稿では,革新的な量子化学習手法である高粒度量子化(HGQ)を提案する。 HGQは、勾配降下によって最適化できるようにすることで、重量当たりおよび活動当たりの精度を微調整する。このアプローチは、演算演算が可能なハードウェア上で、超低レイテンシと低電力ニューラルネットワークを実現する。
論文参考訳（メタデータ） (2024-05-01T17:18:46Z)
On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文参考訳（メタデータ） (2023-09-05T04:39:34Z)
Efficient and Robust Quantization-aware Training via Adaptive Coreset Selection [38.23587031169402]
QAT(Quantization-Aware Training)は、重みとアクティベーションの冗長性を低減するための代表的なモデル圧縮手法である。既存のQATメソッドの多くは、データセット全体のエンドツーエンドのトレーニングを必要とします。トレーニング中の各試料の重要性を定量化するために, 量化重量の損失と勾配の分析に基づく2つの指標を提案する。
論文参考訳（メタデータ） (2023-06-12T16:20:36Z)
CSQ: Growing Mixed-Precision Quantization Scheme with Bi-level Continuous Sparsification [51.81850995661478]
混合精度量子化はディープニューラルネットワーク(DNN)に広く応用されているトレーニング中のビットレベル正規化とプルーニングに基づく動的精度調整の試みは、ノイズ勾配と不安定収束に悩まされている。安定度を向上した混合精度量子化スキームを探索するビットレベル学習法である連続スカラー化量子化(CSQ)を提案する。
論文参考訳（メタデータ） (2022-12-06T05:44:21Z)
DAQ: Distribution-Aware Quantization for Deep Image Super-Resolution Networks [49.191062785007006]
画像超解像のための深い畳み込みニューラルネットワークの定量化は、計算コストを大幅に削減する。既存の作業は、4ビット以下の超低精度の厳しい性能低下に苦しむか、または性能を回復するために重い微調整プロセスを必要とします。高精度なトレーニングフリー量子化を実現する新しい分散認識量子化方式(DAQ)を提案する。
論文参考訳（メタデータ） (2020-12-21T10:19:42Z)
AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文参考訳（メタデータ） (2020-07-14T09:07:29Z)
EasyQuant: Post-training Quantization via Scale Optimization [15.443708111143412]
8ビットの量子化は、様々なディープラーニングアプリケーションにおけるネットワーク推論の高速化に広く応用されている。量子化法には、トレーニングベース量子化と後学習量子化の2種類がある。
論文参考訳（メタデータ） (2020-06-30T10:43:02Z)
APQ: Joint Search for Network Architecture, Pruning and Quantization Policy [49.3037538647714]
本稿では,リソース制約のあるハードウェア上での効率的なディープラーニング推論のためのAPQを提案する。ニューラルアーキテクチャ、プルーニングポリシー、量子化ポリシーを別々に検索する従来の方法とは異なり、我々はそれらを共同で最適化する。同じ精度で、APQはMobileNetV2+HAQよりもレイテンシ/エネルギーを2倍/1.3倍削減する。
論文参考訳（メタデータ） (2020-06-15T16:09:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。