論文の概要: Self-Supervised Quantization-Aware Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2403.11106v1
- Date: Sun, 17 Mar 2024 06:20:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 18:35:30.771021
- Title: Self-Supervised Quantization-Aware Knowledge Distillation
- Title(参考訳): 自己監督型量子化-知識蒸留
- Authors: Kaiqi Zhao, Ming Zhao,
- Abstract要約: 本稿では,SQAKD(Self-Supervised Quantization-Aware Knowledge Distillation)フレームワークを提案する。
SQAKDは、様々な量子化関数の前方と後方のダイナミクスを統一し、様々なQAT処理を組み込むのに柔軟である。
包括的な評価では、SQAKDは最先端のQATやKDよりも大幅に優れており、様々なモデルアーキテクチャで機能している。
- 参考スコア(独自算出の注目度): 5.4714555711042
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Quantization-aware training (QAT) and Knowledge Distillation (KD) are combined to achieve competitive performance in creating low-bit deep learning models. However, existing works applying KD to QAT require tedious hyper-parameter tuning to balance the weights of different loss terms, assume the availability of labeled training data, and require complex, computationally intensive training procedures for good performance. To address these limitations, this paper proposes a novel Self-Supervised Quantization-Aware Knowledge Distillation (SQAKD) framework. SQAKD first unifies the forward and backward dynamics of various quantization functions, making it flexible for incorporating various QAT works. Then it formulates QAT as a co-optimization problem that simultaneously minimizes the KL-Loss between the full-precision and low-bit models for KD and the discretization error for quantization, without supervision from labels. A comprehensive evaluation shows that SQAKD substantially outperforms the state-of-the-art QAT and KD works for a variety of model architectures. Our code is at: https://github.com/kaiqi123/SQAKD.git.
- Abstract(参考訳): QAT(Quantization-Aware Training)とKD(Knowledge Distillation)を組み合わせることで、低ビット深層学習モデルを作成する上での競争的なパフォーマンスを実現する。
しかしながら、KDをQATに適用する既存の研究は、異なる損失項の重みのバランスをとるために退屈なハイパーパラメータチューニングを必要とし、ラベル付きトレーニングデータの可用性を仮定し、優れたパフォーマンスのために複雑で計算集約的なトレーニング手順を必要とする。
これらの制約に対処するため,本稿では,SQAKD(Self-Supervised Quantization-Aware Knowledge Distillation)フレームワークを提案する。
SQAKDはまず、様々な量子化関数の前方と後方のダイナミクスを統一し、様々なQAT処理を組み込むのに柔軟である。
次に、QATを共最適化問題として定式化し、KDの完全精度と低ビットモデルのKL-ロスと量子化の離散化誤差をラベルの監督なしに同時に最小化する。
包括的な評価では、SQAKDは最先端のQATやKDよりも大幅に優れており、様々なモデルアーキテクチャで機能している。
私たちのコードは以下の通りです。
関連論文リスト
- QSpec: Speculative Decoding with Complementary Quantization Schemes [37.007621357142725]
量子化は、推論を加速し、大きな言語モデルのメモリ消費を減らすために、実質的に採用されている。
本稿では、投機的復号化のための2つの相補的量子化スキームをシームレスに統合するQSPECと呼ばれる新しい量子化パラダイムを提案する。
QSPECは、品質上の妥協なしにトークン生成スループットを最大1.80倍向上させる。
論文 参考訳(メタデータ) (2024-10-15T05:57:51Z) - Boosting CLIP Adaptation for Image Quality Assessment via Meta-Prompt Learning and Gradient Regularization [55.09893295671917]
本稿では,Gdient-Regulated Meta-Prompt IQA Framework (GRMP-IQA)を紹介する。
GRMP-IQAはMeta-Prompt事前学習モジュールとQuality-Aware Gradient Regularizationの2つの主要なモジュールから構成されている。
5つの標準BIQAデータセットの実験は、限られたデータ設定下での最先端BIQA手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-09-09T07:26:21Z) - QADYNAMICS: Training Dynamics-Driven Synthetic QA Diagnostic for
Zero-Shot Commonsense Question Answering [48.25449258017601]
State-of-the-artはCommonSense Knowledge Basesから構築されたQAペア上での微調整言語モデルにアプローチする。
本稿では,QA診断と改善のためのトレーニング動的フレームワークQADYNAMICSを提案する。
論文 参考訳(メタデータ) (2023-10-17T14:27:34Z) - Poster: Self-Supervised Quantization-Aware Knowledge Distillation [6.463799944811755]
量子化対応トレーニング(QAT)は、事前トレーニングされた完全精度モデルから始まり、再トレーニング中に量子化を実行する。
既存のQATの作業にはラベルの監督が必要であり、精度の低下による精度の低下に悩まされている。
本稿では,SQAKD(Self-Supervised Quantization-Aware Knowledge Distillation framework)を提案する。
論文 参考訳(メタデータ) (2023-09-22T23:52:58Z) - Unifying Synergies between Self-supervised Learning and Dynamic
Computation [53.66628188936682]
SSLとDCのパラダイム間の相互作用に関する新しい視点を提示する。
SSL設定において、スクラッチから高密度かつゲートされたサブネットワークを同時に学習することは可能であることを示す。
密集エンコーダとゲートエンコーダの事前学習における共進化は、良好な精度と効率のトレードオフをもたらす。
論文 参考訳(メタデータ) (2023-01-22T17:12:58Z) - KDExplainer: A Task-oriented Attention Model for Explaining Knowledge
Distillation [59.061835562314066]
KDExplainerと呼ばれる新しいタスク指向の注意モデルを導入し、バニラKDの基礎となる作業メカニズムを明らかにします。
また、仮想注意モジュール(VAM)と呼ばれるポータブルツールを導入し、さまざまなディープニューラルネットワーク(DNN)とシームレスに統合し、KDの下でのパフォーマンスを向上させることができます。
論文 参考訳(メタデータ) (2021-05-10T08:15:26Z) - Learning to Perturb Word Embeddings for Out-of-distribution QA [55.103586220757464]
本論文では,入力問題と文脈の単語埋め込みを意味論を変化させることなく学習するノイズ発生器に基づく簡便かつ効果的なDA法を提案する。
ひとつのソースデータセットに,5つの異なるターゲットドメインに埋め込むことで,トレーニングされたQAモデルのパフォーマンスを検証する。
特に、私たちのトレーニングを受けたモデルは、240K以上の人工的なQAペアでトレーニングされたモデルよりも優れています。
論文 参考訳(メタデータ) (2021-05-06T14:12:26Z) - KDLSQ-BERT: A Quantized Bert Combining Knowledge Distillation with
Learned Step Size Quantization [1.9786767260073905]
BERTのようなトランスフォーマーベースの言語モデルでは、さまざまな自然言語処理タスクのパフォーマンスが大幅に向上している。
言語モデル量子化のための知識蒸留(KD)と学習ステップサイズ量子化(LSQ)を組み合わせた新しい量子化手法KDLSQ-BERTを提案する。
論文 参考訳(メタデータ) (2021-01-15T02:21:28Z) - Once Quantization-Aware Training: High Performance Extremely Low-bit
Architecture Search [112.05977301976613]
本稿では,ネットワークアーキテクチャ検索手法と量子化手法を組み合わせることで,両者のメリットを享受することを提案する。
まず、多数の量子化モデルを取得するために、共有ステップサイズでアーキテクチャと量子化の合同トレーニングを提案する。
次に、量子化されたモデルを低ビットに転送するためにビット継承方式を導入し、さらに時間コストを削減し、量子化精度を向上させる。
論文 参考訳(メタデータ) (2020-10-09T03:52:16Z) - Stochastic Precision Ensemble: Self-Knowledge Distillation for Quantized
Deep Neural Networks [27.533162215182422]
エッジデバイスへの展開のために、ディープニューラルネットワーク(QDNN)の量子化が活発に研究されている。
近年の研究では、量子化されたネットワークの性能を向上させるために知識蒸留(KD)法が採用されている。
本研究では,QDNN(SPEQ)のためのアンサンブルトレーニングを提案する。
論文 参考訳(メタデータ) (2020-09-30T08:38:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。