論文の概要: Understanding and Improving Knowledge Distillation for
Quantization-Aware Training of Large Transformer Encoders
- arxiv url: http://arxiv.org/abs/2211.11014v1
- Date: Sun, 20 Nov 2022 16:23:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 17:45:39.054560
- Title: Understanding and Improving Knowledge Distillation for
Quantization-Aware Training of Large Transformer Encoders
- Title(参考訳): 大規模変圧器エンコーダの量子化学習における知識蒸留の理解と改善
- Authors: Minsoo Kim, Sihwa Lee, Sukjin Hong, Du-Seong Chang, Jungwook Choi
- Abstract要約: 量子化された大形変圧器の注意回復におけるKDのメカニズムを詳細に解析する。
注意マップと注意出力損失の2つのKD手法を提案する。
様々なトランスフォーマーエンコーダモデルによる実験結果から,提案手法はQATにおける2ビット以下の重み量子化による最先端の精度を実現することが示された。
- 参考スコア(独自算出の注目度): 5.396898627891066
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge distillation (KD) has been a ubiquitous method for model
compression to strengthen the capability of a lightweight model with the
transferred knowledge from the teacher. In particular, KD has been employed in
quantization-aware training (QAT) of Transformer encoders like BERT to improve
the accuracy of the student model with the reduced-precision weight parameters.
However, little is understood about which of the various KD approaches best
fits the QAT of Transformers. In this work, we provide an in-depth analysis of
the mechanism of KD on attention recovery of quantized large Transformers. In
particular, we reveal that the previously adopted MSE loss on the attention
score is insufficient for recovering the self-attention information. Therefore,
we propose two KD methods; attention-map and attention-output losses.
Furthermore, we explore the unification of both losses to address
task-dependent preference between attention-map and output losses. The
experimental results on various Transformer encoder models demonstrate that the
proposed KD methods achieve state-of-the-art accuracy for QAT with sub-2-bit
weight quantization.
- Abstract(参考訳): 知識蒸留(KD)は,教師の知識を伝達した軽量モデルの能力を高めるために,モデル圧縮のためのユビキタスな手法である。
特に、KDはBERTのようなトランスフォーマーエンコーダの量子化対応トレーニング(QAT)に採用され、精度の低下した重みパラメータで生徒モデルの精度を向上させる。
しかしながら、どのようなkdアプローチがトランスフォーマーのqatに最も適しているかは、ほとんど分かっていない。
本研究では,量子化大変換器の注意回復におけるKDのメカニズムを詳細に解析する。
特に注意点におけるMSE損失が自己注意情報の回復に不十分であることを明らかにする。
そこで本研究では,注目マップと注目出力損失の2つのKD手法を提案する。
さらに,注視マップと出力損失のタスク依存的嗜好に対処するために,両損失の統合を検討する。
様々なトランスフォーマーエンコーダモデルによる実験結果から,提案手法は2ビット以下の重み量子化によるQATの最先端精度を実現する。
関連論文リスト
- 2DQuant: Low-bit Post-Training Quantization for Image Super-Resolution [83.09117439860607]
低ビット量子化は、エッジ展開のための画像超解像(SR)モデルを圧縮するために広く普及している。
低ビット量子化は、フル精度(FP)と比較してSRモデルの精度を低下させることが知られている。
本稿では2DQuantという画像超解像のための2段階の低ビット後量子化(PTQ)法を提案する。
論文 参考訳(メタデータ) (2024-06-10T06:06:11Z) - Oh! We Freeze: Improving Quantized Knowledge Distillation via Signal Propagation Analysis for Large Language Models [5.69541128149828]
大規模言語モデル(LLM)や拡散モデルといった大規模な生成モデルは、それぞれNLPとコンピュータビジョンの分野に革命をもたらした。
本研究では, 知識蒸留(KD-QAT)を用いた軽量量子化対応微調整技術を提案し, 4ビット量化LDMの性能向上を図る。
我々は, ovフリーズがほぼ浮動小数点精度, すなわちCommonsense Reasoningベンチマークにおいて0.7%未満の精度で精度を低下させることを示す。
論文 参考訳(メタデータ) (2024-03-26T23:51:44Z) - Knowledge Distillation Performs Partial Variance Reduction [93.6365393721122]
知識蒸留は'学生'モデルの性能を高めるための一般的な手法である。
知識蒸留(KD)の背後にある力学は、まだ完全には理解されていない。
我々は,KDを新しいタイプの分散還元機構として解釈できることを示す。
論文 参考訳(メタデータ) (2023-05-27T21:25:55Z) - Sequence-Level Knowledge Distillation for Class-Incremental End-to-End
Spoken Language Understanding [10.187334662184314]
継続学習環境に適用した音声言語理解の課題に対処する。
本稿では,シーケンス・ツー・シーケンス・トランスモデルの忘れを軽減するための3つの知識蒸留手法を提案する。
論文 参考訳(メタデータ) (2023-05-23T10:24:07Z) - Quick Dense Retrievers Consume KALE: Post Training Kullback Leibler
Alignment of Embeddings for Asymmetrical dual encoders [89.29256833403169]
我々は,高密度検索手法の推論効率を高めるための効率的かつ正確な手法であるKulback Leibler Alignment of Embeddings (KALE)を紹介した。
KALEは、バイエンコーダトレーニング後の従来の知識蒸留を拡張し、完全なリトレーニングやインデックス生成なしに効率的なクエリエンコーダ圧縮を可能にする。
KALEと非対称トレーニングを用いることで、3倍高速な推論を持つにもかかわらず、DistilBERTの性能を超えるモデルを生成することができる。
論文 参考訳(メタデータ) (2023-03-31T15:44:13Z) - Teacher Intervention: Improving Convergence of Quantization Aware
Training for Ultra-Low Precision Transformers [17.445202457319517]
量子化対応トレーニング(QAT)は、実装コストとエネルギー消費を減らすための有望な方法である。
本研究は,超高精度事前学習型変圧器の高速収束QATのための,TI(Teacher Intervention)と呼ばれる能動的知識蒸留法を提案する。
論文 参考訳(メタデータ) (2023-02-23T06:48:24Z) - Mixed Precision of Quantization of Transformer Language Models for
Speech Recognition [67.95996816744251]
トランスフォーマーが表現する最先端のニューラルネットワークモデルは、実用アプリケーションにとってますます複雑で高価なものになりつつある。
現在の低ビット量子化法は、均一な精度に基づいており、量子化エラーに対するシステムの異なる部分での様々な性能感度を考慮できない。
最適局所精度設定は2つの手法を用いて自動的に学習される。
Penn Treebank (PTB)とSwitchboard corpusによるLF-MMI TDNNシステムの試験を行った。
論文 参考訳(メタデータ) (2021-11-29T09:57:00Z) - Post-Training Quantization for Vision Transformer [85.57953732941101]
本稿では,視覚変換器のメモリ記憶量と計算コストを削減するための学習後量子化アルゴリズムを提案する。
約8ビット量子化を用いて、ImageNetデータセット上でDeiT-Bモデルを用いて81.29%のトップ-1の精度を得ることができる。
論文 参考訳(メタデータ) (2021-06-27T06:27:22Z) - DAQ: Distribution-Aware Quantization for Deep Image Super-Resolution
Networks [49.191062785007006]
画像超解像のための深い畳み込みニューラルネットワークの定量化は、計算コストを大幅に削減する。
既存の作業は、4ビット以下の超低精度の厳しい性能低下に苦しむか、または性能を回復するために重い微調整プロセスを必要とします。
高精度なトレーニングフリー量子化を実現する新しい分散認識量子化方式(DAQ)を提案する。
論文 参考訳(メタデータ) (2020-12-21T10:19:42Z) - Quantum key distribution over quantum repeaters with encoding: Using
Error Detection as an Effective Post-Selection Tool [0.9176056742068812]
エラー検出では,エラー訂正よりもエラー検出の方が効率がよいこと,エラーが検出されたケースを回避できること,などが示される。
本手法は,システムの重要なコンポーネントに異なるエラー源をモデル化することにより,3ビット繰り返し符号に対して実装する。
論文 参考訳(メタデータ) (2020-07-13T13:37:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。