論文の概要: Teacher Intervention: Improving Convergence of Quantization Aware
Training for Ultra-Low Precision Transformers
- arxiv url: http://arxiv.org/abs/2302.11812v1
- Date: Thu, 23 Feb 2023 06:48:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-24 16:10:59.971927
- Title: Teacher Intervention: Improving Convergence of Quantization Aware
Training for Ultra-Low Precision Transformers
- Title(参考訳): 教師の介入:超高精度変圧器の量子化意識訓練の収束性向上
- Authors: Minsoo Kim, Kyuhong Shim, Seongmin Park, Wonyong Sung, Jungwook Choi
- Abstract要約: 量子化対応トレーニング(QAT)は、実装コストとエネルギー消費を減らすための有望な方法である。
本研究は,超高精度事前学習型変圧器の高速収束QATのための,TI(Teacher Intervention)と呼ばれる能動的知識蒸留法を提案する。
- 参考スコア(独自算出の注目度): 17.445202457319517
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained Transformer models such as BERT have shown great success in a
wide range of applications, but at the cost of substantial increases in model
complexity. Quantization-aware training (QAT) is a promising method to lower
the implementation cost and energy consumption. However, aggressive
quantization below 2-bit causes considerable accuracy degradation due to
unstable convergence, especially when the downstream dataset is not abundant.
This work proposes a proactive knowledge distillation method called Teacher
Intervention (TI) for fast converging QAT of ultra-low precision pre-trained
Transformers. TI intervenes layer-wise signal propagation with the intact
signal from the teacher to remove the interference of propagated quantization
errors, smoothing loss surface of QAT and expediting the convergence.
Furthermore, we propose a gradual intervention mechanism to stabilize the
recovery of subsections of Transformer layers from quantization. The proposed
schemes enable fast convergence of QAT and improve the model accuracy
regardless of the diverse characteristics of downstream fine-tuning tasks. We
demonstrate that TI consistently achieves superior accuracy with significantly
lower fine-tuning iterations on well-known Transformers of natural language
processing as well as computer vision compared to the state-of-the-art QAT
methods.
- Abstract(参考訳): BERTのような事前訓練されたトランスフォーマーモデルは、幅広いアプリケーションで大きな成功を収めてきたが、モデルの複雑さが大幅に増大した。
量子化対応トレーニング(QAT)は、実装コストとエネルギー消費を減らすための有望な方法である。
しかし、2ビット以下のアグレッシブな量子化は、特に下流データセットが豊富でない場合、不安定な収束による相当な精度の低下を引き起こす。
本研究は,超高精度事前学習型変圧器の高速収束QATのための,TI(Teacher Intervention)と呼ばれる能動的知識蒸留法を提案する。
TIは教師からの無傷信号と階層的信号伝達を介し、伝播量子化誤差の干渉を除去し、QATの損失面を平滑化し、収束を早める。
さらに, 量子化からの変圧器層部分の復元を安定化するための段階的介入機構を提案する。
提案手法は,下流微調整タスクの多様な特性にかかわらず,QATの高速収束とモデル精度の向上を可能にする。
TIは、自然言語処理の精巧な変換とコンピュータビジョンを、最先端のQAT手法と比較して大幅に低減し、優れた精度を実現していることを示す。
関連論文リスト
- Accelerating Error Correction Code Transformers [56.75773430667148]
本稿では,トランスを用いたデコーダの高速化手法を提案する。
最新のハードウェアでは、90%の圧縮比を実現し、算術演算エネルギー消費を少なくとも224倍削減する。
論文 参考訳(メタデータ) (2024-10-08T11:07:55Z) - DiTAS: Quantizing Diffusion Transformers via Enhanced Activation Smoothing [5.174900115018253]
効率的な拡散変換器(DiT)のためのデータフリー後トレーニング量子化(PTQ)法を提案する。
DiTASは、入力アクティベーションにおけるチャネルワイド・アウトレイアの影響を軽減するために、時間的凝集平滑化手法が提案されている。
提案手法により,DiTの4ビット重み付き8ビットアクティベーション(W4A8)量子化が可能であり,全精度モデルとして同等の性能を維持した。
論文 参考訳(メタデータ) (2024-09-12T05:18:57Z) - Adaptive variational quantum dynamics simulations with compressed circuits and fewer measurements [4.2643127089535104]
AVQDS(T)と呼ばれる適応変分量子力学シミュレーション(AVQDS)法の改良版を示す。
このアルゴリズムは、変分力学の精度の尺度であるマクラクラン距離を一定しきい値以下に保つために、アンザッツ回路に不連結なユニタリゲートの層を適応的に加算する。
また、雑音耐性を増強した変動パラメータに対する線形運動方程式を解くために、固有値トランケーションに基づく手法を示す。
論文 参考訳(メタデータ) (2024-08-13T02:56:43Z) - DopQ-ViT: Towards Distribution-Friendly and Outlier-Aware Post-Training Quantization for Vision Transformers [2.0862654518798034]
本稿では,視覚変換器のための分散親和性・外乱性を考慮したポストトレーニング量子化手法を提案する。
DopQ-ViTは、現在の量子化器の非効率性を分析し、TanQと呼ばれる分布に優しいタン量子化器を導入する。
DopQ-ViTは広範囲に検証され、量子化モデルの性能が大幅に向上した。
論文 参考訳(メタデータ) (2024-08-06T16:40:04Z) - Towards Accurate Post-Training Quantization for Vision Transformer [48.779346466374406]
既存のトレーニング後の量子化手法は依然として深刻な性能低下を引き起こしている。
APQ-ViTは、既存のトレーニング後の量子化手法を証明マージンによって超越している。
論文 参考訳(メタデータ) (2023-03-25T03:05:26Z) - HEAT: Hardware-Efficient Automatic Tensor Decomposition for Transformer
Compression [69.36555801766762]
本稿では,分解可能な指数空間を効率的に探索できるハードウェア対応テンソル分解フレームワークHEATを提案する。
ハードウェア対応のBERT変異体は, エネルギー遅延を5.7倍に低減し, 精度が1.1%以下であることを示す。
論文 参考訳(メタデータ) (2022-11-30T05:31:45Z) - Neural Networks with Quantization Constraints [111.42313650830248]
量子化学習における制約付き学習手法を提案する。
結果の問題は強い双対であり、勾配推定は不要であることを示す。
提案手法は画像分類タスクにおける競合性能を示す。
論文 参考訳(メタデータ) (2022-10-27T17:12:48Z) - BiT: Robustly Binarized Multi-distilled Transformer [36.06192421902272]
実測精度の高いバイナライズトランスフォーマーモデルを開発し,5.9%の精度で完全精度のBERTベースラインにアプローチする。
これらのアプローチにより、事実上の精度で完全に双対化されたトランスフォーマーモデルが5.9%の精度で完全精度のBERTベースラインに近づいた。
論文 参考訳(メタデータ) (2022-05-25T19:01:54Z) - Mixed Precision of Quantization of Transformer Language Models for
Speech Recognition [67.95996816744251]
トランスフォーマーが表現する最先端のニューラルネットワークモデルは、実用アプリケーションにとってますます複雑で高価なものになりつつある。
現在の低ビット量子化法は、均一な精度に基づいており、量子化エラーに対するシステムの異なる部分での様々な性能感度を考慮できない。
最適局所精度設定は2つの手法を用いて自動的に学習される。
Penn Treebank (PTB)とSwitchboard corpusによるLF-MMI TDNNシステムの試験を行った。
論文 参考訳(メタデータ) (2021-11-29T09:57:00Z) - TernaryBERT: Distillation-aware Ultra-low Bit BERT [53.06741585060951]
本稿では,細調整されたBERTモデルの重みを3元化するternaryBERTを提案する。
GLUEベンチマークとSQuADの実験により,提案した TernaryBERT が他のBERT量子化法より優れていることが示された。
論文 参考訳(メタデータ) (2020-09-27T10:17:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。