論文の概要: Self-Supervised Quantization-Aware Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2403.11106v1
- Date: Sun, 17 Mar 2024 06:20:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 18:35:30.771021
- Title: Self-Supervised Quantization-Aware Knowledge Distillation
- Title(参考訳): 自己監督型量子化-知識蒸留
- Authors: Kaiqi Zhao, Ming Zhao,
- Abstract要約: 本稿では,SQAKD(Self-Supervised Quantization-Aware Knowledge Distillation)フレームワークを提案する。
SQAKDは、様々な量子化関数の前方と後方のダイナミクスを統一し、様々なQAT処理を組み込むのに柔軟である。
包括的な評価では、SQAKDは最先端のQATやKDよりも大幅に優れており、様々なモデルアーキテクチャで機能している。
- 参考スコア(独自算出の注目度): 5.4714555711042
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Quantization-aware training (QAT) and Knowledge Distillation (KD) are combined to achieve competitive performance in creating low-bit deep learning models. However, existing works applying KD to QAT require tedious hyper-parameter tuning to balance the weights of different loss terms, assume the availability of labeled training data, and require complex, computationally intensive training procedures for good performance. To address these limitations, this paper proposes a novel Self-Supervised Quantization-Aware Knowledge Distillation (SQAKD) framework. SQAKD first unifies the forward and backward dynamics of various quantization functions, making it flexible for incorporating various QAT works. Then it formulates QAT as a co-optimization problem that simultaneously minimizes the KL-Loss between the full-precision and low-bit models for KD and the discretization error for quantization, without supervision from labels. A comprehensive evaluation shows that SQAKD substantially outperforms the state-of-the-art QAT and KD works for a variety of model architectures. Our code is at: https://github.com/kaiqi123/SQAKD.git.
- Abstract(参考訳): QAT(Quantization-Aware Training)とKD(Knowledge Distillation)を組み合わせることで、低ビット深層学習モデルを作成する上での競争的なパフォーマンスを実現する。
しかしながら、KDをQATに適用する既存の研究は、異なる損失項の重みのバランスをとるために退屈なハイパーパラメータチューニングを必要とし、ラベル付きトレーニングデータの可用性を仮定し、優れたパフォーマンスのために複雑で計算集約的なトレーニング手順を必要とする。
これらの制約に対処するため,本稿では,SQAKD(Self-Supervised Quantization-Aware Knowledge Distillation)フレームワークを提案する。
SQAKDはまず、様々な量子化関数の前方と後方のダイナミクスを統一し、様々なQAT処理を組み込むのに柔軟である。
次に、QATを共最適化問題として定式化し、KDの完全精度と低ビットモデルのKL-ロスと量子化の離散化誤差をラベルの監督なしに同時に最小化する。
包括的な評価では、SQAKDは最先端のQATやKDよりも大幅に優れており、様々なモデルアーキテクチャで機能している。
私たちのコードは以下の通りです。
関連論文リスト
- High-Fidelity Coherent-One-Way QKD Simulation Framework for 6G Networks: Bridging Theory and Reality [105.73011353120471]
量子鍵分布(QKD)は情報理論のセキュリティを保証するための有望なソリューションとして浮上している。
かなり高価なQKD機器のため、QKD通信システム設計ツールの欠如は困難である。
本稿ではQKD通信システム設計ツールを紹介する。
論文 参考訳(メタデータ) (2025-01-21T11:03:59Z) - Active Data Curation Effectively Distills Large-Scale Multimodal Models [66.23057263509027]
知識蒸留(KD)は、大規模モデルをより小さなものに圧縮するデファクトスタンダードである。
本研究では, 対照的なマルチモーダル事前学習のための効果的な蒸留法として, 能動的データキュレーションの代替として, 簡単なアプローチを探求する。
我々の単純なオンラインバッチ選択方法であるACIDは、さまざまなモデル、データ、計算構成において、強力なKDベースラインよりも優れています。
論文 参考訳(メタデータ) (2024-11-27T18:50:15Z) - Boosting CLIP Adaptation for Image Quality Assessment via Meta-Prompt Learning and Gradient Regularization [55.09893295671917]
本稿では,Gdient-Regulated Meta-Prompt IQA Framework (GRMP-IQA)を紹介する。
GRMP-IQAはMeta-Prompt事前学習モジュールとQuality-Aware Gradient Regularizationの2つの主要なモジュールから構成されている。
5つの標準BIQAデータセットの実験は、限られたデータ設定下での最先端BIQA手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-09-09T07:26:21Z) - QADYNAMICS: Training Dynamics-Driven Synthetic QA Diagnostic for
Zero-Shot Commonsense Question Answering [48.25449258017601]
State-of-the-artはCommonSense Knowledge Basesから構築されたQAペア上での微調整言語モデルにアプローチする。
本稿では,QA診断と改善のためのトレーニング動的フレームワークQADYNAMICSを提案する。
論文 参考訳(メタデータ) (2023-10-17T14:27:34Z) - Poster: Self-Supervised Quantization-Aware Knowledge Distillation [6.463799944811755]
量子化対応トレーニング(QAT)は、事前トレーニングされた完全精度モデルから始まり、再トレーニング中に量子化を実行する。
既存のQATの作業にはラベルの監督が必要であり、精度の低下による精度の低下に悩まされている。
本稿では,SQAKD(Self-Supervised Quantization-Aware Knowledge Distillation framework)を提案する。
論文 参考訳(メタデータ) (2023-09-22T23:52:58Z) - KDExplainer: A Task-oriented Attention Model for Explaining Knowledge
Distillation [59.061835562314066]
KDExplainerと呼ばれる新しいタスク指向の注意モデルを導入し、バニラKDの基礎となる作業メカニズムを明らかにします。
また、仮想注意モジュール(VAM)と呼ばれるポータブルツールを導入し、さまざまなディープニューラルネットワーク(DNN)とシームレスに統合し、KDの下でのパフォーマンスを向上させることができます。
論文 参考訳(メタデータ) (2021-05-10T08:15:26Z) - KDLSQ-BERT: A Quantized Bert Combining Knowledge Distillation with
Learned Step Size Quantization [1.9786767260073905]
BERTのようなトランスフォーマーベースの言語モデルでは、さまざまな自然言語処理タスクのパフォーマンスが大幅に向上している。
言語モデル量子化のための知識蒸留(KD)と学習ステップサイズ量子化(LSQ)を組み合わせた新しい量子化手法KDLSQ-BERTを提案する。
論文 参考訳(メタデータ) (2021-01-15T02:21:28Z) - Once Quantization-Aware Training: High Performance Extremely Low-bit
Architecture Search [112.05977301976613]
本稿では,ネットワークアーキテクチャ検索手法と量子化手法を組み合わせることで,両者のメリットを享受することを提案する。
まず、多数の量子化モデルを取得するために、共有ステップサイズでアーキテクチャと量子化の合同トレーニングを提案する。
次に、量子化されたモデルを低ビットに転送するためにビット継承方式を導入し、さらに時間コストを削減し、量子化精度を向上させる。
論文 参考訳(メタデータ) (2020-10-09T03:52:16Z) - Stochastic Precision Ensemble: Self-Knowledge Distillation for Quantized
Deep Neural Networks [27.533162215182422]
エッジデバイスへの展開のために、ディープニューラルネットワーク(QDNN)の量子化が活発に研究されている。
近年の研究では、量子化されたネットワークの性能を向上させるために知識蒸留(KD)法が採用されている。
本研究では,QDNN(SPEQ)のためのアンサンブルトレーニングを提案する。
論文 参考訳(メタデータ) (2020-09-30T08:38:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。