論文の概要: Quantization Variation: A New Perspective on Training Transformers with Low-Bit Precision
- arxiv url: http://arxiv.org/abs/2307.00331v2
- Date: Sat, 12 Oct 2024 17:53:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-15 15:05:35.986880
- Title: Quantization Variation: A New Perspective on Training Transformers with Low-Bit Precision
- Title(参考訳): 量子化変動:低ビット精度のトレーニング変圧器の新しい展望
- Authors: Xijie Huang, Zhiqiang Shen, Pingcheng Dong, Kwang-Ting Cheng,
- Abstract要約: 本稿では,トランスフォーマーによる低ビット量子化学習の難しさを識別する。
本稿では,視覚と言語変換の両面での変動を考慮した量子化手法を提案する。
我々のソリューションは2ビットのSwin-TとバイナリBERTベースを大幅に改善し、3.35%と1.4%の精度向上を実現した。
- 参考スコア(独自算出の注目度): 45.69716658698776
- License:
- Abstract: Despite the outstanding performance of transformers in both language and vision tasks, the expanding computation and model size have increased the demand for efficient deployment. To address the heavy computation and parameter drawbacks, quantization is frequently studied in the community as a representative model compression technique and has seen extensive use on ConvNets. However, due to the unique properties of transformers, the low-bit quantization applications are still limited and underexplored. In this paper, we identify the difficulty of transformer low-bit quantization-aware training on its unique variation behaviors, which significantly differ from ConvNets. Based on comprehensive quantitative analysis, we observe variation in three hierarchies: various module quantization sensitivities, outliers in static weight and activation distribution, and oscillation in dynamic parameter fluctuations. These variations of transformers bring instability to the quantization-aware training (QAT) and negatively influence the performance. We explore the best practices to alleviate the variation's influence during low-bit transformer QAT and propose a variation-aware quantization scheme for both vision and language transformers. We extensively verify and show our scheme can alleviate the variation and improve the performance of transformers across various models and tasks. Our solution substantially improves the 2-bit Swin-T and binary BERT-base, achieving a 3.35% and 1.4% accuracy improvement over previous state-of-the-art methods on ImageNet-1K and GLUE. Codes and models are available at https://github.com/HuangOwen/Quantization-Variation.
- Abstract(参考訳): 言語タスクと視覚タスクの両方においてトランスフォーマーの優れたパフォーマンスにもかかわらず、計算量の拡大とモデルサイズは、効率的なデプロイメントの需要を増大させてきた。
重い計算とパラメータの欠点に対処するため、量子化はコミュニティにおいて代表的モデル圧縮技術として頻繁に研究され、ConvNetsで広く利用されている。
しかし、変圧器のユニークな性質のため、低ビット量子化の応用はまだ限られており、探索が過小評価されている。
本稿では,ConvNets とは大きく異なる独自の変動挙動に対するトランスフォーマー低ビット量子化学習の難しさを明らかにする。
包括的定量的分析に基づいて,モジュールの量子化感度,静的重みおよび活性化分布の外れ値,動的パラメータ変動の発振の3つの階層の変動を観測する。
これらの変圧器のバリエーションは量子化認識訓練(QAT)に不安定をもたらし、性能に悪影響を及ぼす。
本稿では、低ビット変換器QATにおける変動の影響を軽減するためのベストプラクティスを探求し、視覚と言語変換器の両方に対する変動を考慮した量子化手法を提案する。
提案手法を広範囲に検証し,その変動を緩和し,様々なモデルやタスクにまたがるトランスフォーマーの性能を向上させることができることを示す。
我々のソリューションは2ビットのSwin-TとバイナリBERTベースを大幅に改善し、ImageNet-1KとGLUEの従来の最先端手法よりも3.35%と1.4%の精度向上を実現した。
コードとモデルはhttps://github.com/HuangOwen/Quantization-Variation.comで公開されている。
関連論文リスト
- ADFQ-ViT: Activation-Distribution-Friendly Post-Training Quantization for Vision Transformers [7.155242379236052]
ビジョントランスフォーマー(ViT)の量子化は、これらの課題を緩和するための有望なソリューションとして現れている。
既存の手法は依然として低ビットでの精度の低下に悩まされている。
ADFQ-ViTは、画像分類、オブジェクト検出、および4ビットでのインスタンスセグメンテーションタスクにおいて、様々なベースラインを大幅に改善する。
論文 参考訳(メタデータ) (2024-07-03T02:41:59Z) - RepQuant: Towards Accurate Post-Training Quantization of Large
Transformer Models via Scale Reparameterization [8.827794405944637]
ポストトレーニング量子化(PTQ)は、大きなトランスモデルを圧縮するための有望な解である。
既存のPTQメソッドは、通常、非自明な性能損失を示す。
本稿では、量子化推論デカップリングパラダイムを備えた新しいPTQフレームワークRepQuantを提案する。
論文 参考訳(メタデータ) (2024-02-08T12:35:41Z) - Towards Accurate Post-Training Quantization for Vision Transformer [48.779346466374406]
既存のトレーニング後の量子化手法は依然として深刻な性能低下を引き起こしている。
APQ-ViTは、既存のトレーニング後の量子化手法を証明マージンによって超越している。
論文 参考訳(メタデータ) (2023-03-25T03:05:26Z) - NoisyQuant: Noisy Bias-Enhanced Post-Training Activation Quantization
for Vision Transformers [53.85087932591237]
NoisyQuantは、視覚変換器のトレーニング後のアクティベーション量子化性能に対する量子化器に依存しない拡張である。
理論的な洞察に基づいて、NoisyQuantは重い尾の活性化分布を積極的に変化させる最初の成功を達成している。
NoisyQuantは、最小の計算オーバーヘッドで視覚変換器のトレーニング後の量子化性能を大幅に改善する。
論文 参考訳(メタデータ) (2022-11-29T10:02:09Z) - Patch Similarity Aware Data-Free Quantization for Vision Transformers [2.954890575035673]
Patch similarity Aware data-free Quantization framework for Vision Transformersを提案する。
本研究では,ガウス雑音と実画像の処理において,自己アテンションモジュールの特性を解析し,一般的な相違点(パッチ類似点)を明らかにする。
PSAQ-ViTの有効性を検証するため,様々なベンチマークで実験およびアブレーション実験を行った。
論文 参考訳(メタデータ) (2022-03-04T11:47:20Z) - AdaViT: Adaptive Vision Transformers for Efficient Image Recognition [78.07924262215181]
AdaViTは、パッチ、セルフアテンションヘッド、およびトランスフォーマーブロックを使用するための利用ポリシーを導出する適応フレームワークである。
本手法は,0.8%の精度で,最先端のビジョントランスに比べて2倍以上の効率向上を実現している。
論文 参考訳(メタデータ) (2021-11-30T18:57:02Z) - Understanding and Overcoming the Challenges of Efficient Transformer
Quantization [17.05322956052278]
トランスフォーマーベースのアーキテクチャは、幅広い自然言語処理タスクのデファクト標準モデルとなっている。
しかしながら、メモリフットプリントと高いレイテンシは、リソース制限されたデバイスへの効率的なデプロイメントと推論を禁止している。
変換器にはユニークな量子化の課題があり、すなわち、低ビットの固定点フォーマットで表すのが難しいハイダイナミックなアクティベーション範囲があることが示される。
論文 参考訳(メタデータ) (2021-09-27T10:57:18Z) - Post-Training Quantization for Vision Transformer [85.57953732941101]
本稿では,視覚変換器のメモリ記憶量と計算コストを削減するための学習後量子化アルゴリズムを提案する。
約8ビット量子化を用いて、ImageNetデータセット上でDeiT-Bモデルを用いて81.29%のトップ-1の精度を得ることができる。
論文 参考訳(メタデータ) (2021-06-27T06:27:22Z) - Variational Transformers for Diverse Response Generation [71.53159402053392]
変分変換器(VT)は、変分自己注意フィードフォワードシーケンスモデルである。
VTはトランスフォーマーの並列化性と大域的受容場計算とCVAEの変動特性を組み合わせる。
本稿では,1)大域潜伏変数を用いた談話レベルの多様性のモデル化,2)細粒潜伏変数の列によるトランスフォーマーデコーダの拡張,の2種類のVTについて検討する。
論文 参考訳(メタデータ) (2020-03-28T07:48:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。