論文の概要: Data-Augmented Quantization-Aware Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2509.03850v1
- Date: Thu, 04 Sep 2025 03:24:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:10.037732
- Title: Data-Augmented Quantization-Aware Knowledge Distillation
- Title(参考訳): データ強化量子化-知識蒸留
- Authors: Justin Kur, Kaiqi Zhao,
- Abstract要約: QAT(Quantization-Aware Training)とKD(Knowledge Distillation)を組み合わせることで、低ビット深層学習モデルを作成する上での競争的なパフォーマンスを実現する。
量子化対応KDとデータ拡張(DA)の関係は未解明のままである。
本研究では,DAをその能力に応じて評価し,コンテキスト相互情報を最大化する手法を提案する。
- 参考スコア(独自算出の注目度): 1.8126132932201138
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Quantization-aware training (QAT) and Knowledge Distillation (KD) are combined to achieve competitive performance in creating low-bit deep learning models. Existing KD and QAT works focus on improving the accuracy of quantized models from the network output perspective by designing better KD loss functions or optimizing QAT's forward and backward propagation. However, limited attention has been given to understanding the impact of input transformations, such as data augmentation (DA). The relationship between quantization-aware KD and DA remains unexplored. In this paper, we address the question: how to select a good DA in quantization-aware KD, especially for the models with low precisions? We propose a novel metric which evaluates DAs according to their capacity to maximize the Contextual Mutual Information--the information not directly related to an image's label--while also ensuring the predictions for each class are close to the ground truth labels on average. The proposed method automatically ranks and selects DAs, requiring minimal training overhead, and it is compatible with any KD or QAT algorithm. Extensive evaluations demonstrate that selecting DA strategies using our metric significantly improves state-of-the-art QAT and KD works across various model architectures and datasets.
- Abstract(参考訳): QAT(Quantization-Aware Training)とKD(Knowledge Distillation)を組み合わせることで、低ビット深層学習モデルを作成する上での競争的なパフォーマンスを実現する。
既存のKDとQATは、より優れたKD損失関数を設計したり、QATの前方および後方伝播を最適化することで、ネットワーク出力の観点から量子化モデルの精度を向上させることに重点を置いている。
しかし、データ拡張(DA)のような入力変換の影響を理解するには、限られた注意が払われている。
量子化を意識したKDとDAの関係は未解明のままである。
本稿では,量子化対応KDにおける優れたDAを,特に精度の低いモデルに対してどのように選択するか,という問題に対処する。
画像のラベルに直接関連しない情報を最大化するために,DAをその能力に応じて評価する新しい指標を提案する。
提案手法は,任意のKDアルゴリズムやQATアルゴリズムと互換性があり,訓練のオーバーヘッドを最小限に抑えながら,DAを自動的にランク付けして選択する。
我々の測定値を用いたDA戦略の選択は、最先端のQATとKDが様々なモデルアーキテクチャやデータセットで機能することを示す。
関連論文リスト
- Active Data Curation Effectively Distills Large-Scale Multimodal Models [66.23057263509027]
知識蒸留(KD)は、大規模モデルをより小さなものに圧縮するデファクトスタンダードである。
本研究では, 対照的なマルチモーダル事前学習のための効果的な蒸留法として, 能動的データキュレーションの代替として, 簡単なアプローチを探求する。
我々の単純なオンラインバッチ選択方法であるACIDは、さまざまなモデル、データ、計算構成において、強力なKDベースラインよりも優れています。
論文 参考訳(メタデータ) (2024-11-27T18:50:15Z) - Self-Supervised Quantization-Aware Knowledge Distillation [5.4714555711042]
本稿では,SQAKD(Self-Supervised Quantization-Aware Knowledge Distillation)フレームワークを提案する。
SQAKDは、様々な量子化関数の前方と後方のダイナミクスを統一し、様々なQAT処理を組み込むのに柔軟である。
包括的な評価では、SQAKDは最先端のQATやKDよりも大幅に優れており、様々なモデルアーキテクチャで機能している。
論文 参考訳(メタデータ) (2024-03-17T06:20:28Z) - Practical Insights into Knowledge Distillation for Pre-Trained Models [7.248285042377168]
本研究では,事前学習モデルにおける知識蒸留(KD)プロセスの強化について検討する。
事前訓練されたモデル間で知識を伝達するための多くのKDアプローチが採用されているにもかかわらず、KDの応用に関する包括的な理解は欠如している。
本研究は,標準KD,調整KD(最適化温度および重みパラメータ),深層相互学習,データ分割KDなど,複数のKD技術の比較を行った。
論文 参考訳(メタデータ) (2024-02-22T19:07:08Z) - ShiftKD: Benchmarking Knowledge Distillation under Distribution Shift [7.256448072529497]
知識蒸留(KD)は、大きなモデルから小さなモデルに知識を伝達し、近年顕著な成功を収めている。
しかし、実世界のアプリケーションにおける既存のKD手法の信頼性は、特に分布シフト下では、未解明のままである。
KDを2つの分散シフトに対してベンチマークするために,統一的かつ体系的なフレームワークtextscShiftKDを提案する。
論文 参考訳(メタデータ) (2023-12-25T10:43:31Z) - Understanding and Improving Knowledge Distillation for
Quantization-Aware Training of Large Transformer Encoders [5.396898627891066]
量子化された大形変圧器の注意回復におけるKDのメカニズムを詳細に解析する。
注意マップと注意出力損失の2つのKD手法を提案する。
様々なトランスフォーマーエンコーダモデルによる実験結果から,提案手法はQATにおける2ビット以下の重み量子化による最先端の精度を実現することが示された。
論文 参考訳(メタデータ) (2022-11-20T16:23:23Z) - Efficient training of lightweight neural networks using Online
Self-Acquired Knowledge Distillation [51.66271681532262]
オンライン自己獲得知識蒸留(OSAKD)は、ディープニューラルネットワークの性能をオンライン的に向上することを目的としている。
出力特徴空間におけるデータサンプルの未知確率分布を推定するために、k-nnノンパラメトリック密度推定手法を用いる。
論文 参考訳(メタデータ) (2021-08-26T14:01:04Z) - KDExplainer: A Task-oriented Attention Model for Explaining Knowledge
Distillation [59.061835562314066]
KDExplainerと呼ばれる新しいタスク指向の注意モデルを導入し、バニラKDの基礎となる作業メカニズムを明らかにします。
また、仮想注意モジュール(VAM)と呼ばれるポータブルツールを導入し、さまざまなディープニューラルネットワーク(DNN)とシームレスに統合し、KDの下でのパフォーマンスを向上させることができます。
論文 参考訳(メタデータ) (2021-05-10T08:15:26Z) - Knowledge Distillation Thrives on Data Augmentation [65.58705111863814]
知識蒸留(KD)は、教師モデルを用いて学生モデルをガイドする一般的なディープニューラルネットワークトレーニングフレームワークである。
多くの研究がその成功の根拠を探っているが、データ強化(DA)との相互作用は未だよく認識されていない。
本稿では,KD損失は,クロスエントロピー損失を伴わないが,拡張トレーニングイテレーションの恩恵を受けることができることを示す。
KD損失は、DAがもたらす異なる入力ビューから余分な情報をタップすることができる。
論文 参考訳(メタデータ) (2020-12-05T00:32:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。