論文の概要: Punching Above Precision: Small Quantized Model Distillation with Learnable Regularizer
- arxiv url: http://arxiv.org/abs/2509.20854v1
- Date: Thu, 25 Sep 2025 07:43:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.763035
- Title: Punching Above Precision: Small Quantized Model Distillation with Learnable Regularizer
- Title(参考訳): Punching Above Precision:学習可能な正規化器を用いた小型量子化モデル蒸留
- Authors: Abdur Rehman, S M A Sharif, Md Abdur Rahaman, Mohamed Jismy Aashik Rasool, Seongwan Kim, Jaeho Lee,
- Abstract要約: Game of Regularizer (GoR) は、タスク固有性(TS)と蒸留損失を適応的にバランスをとる学習可能な正規化手法である。
GoRは、最先端のQAT-KD法を低消費電力エッジデバイスで一貫して上回っている。
また,多種多様な教師モデルを用いたアンサンブル蒸留フレームワークQAT-EKD-GoRについても紹介する。
- 参考スコア(独自算出の注目度): 9.85847764731154
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Quantization-aware training (QAT) combined with knowledge distillation (KD) is a promising strategy for compressing Artificial Intelligence (AI) models for deployment on resource-constrained hardware. However, existing QAT-KD methods often struggle to balance task-specific (TS) and distillation losses due to heterogeneous gradient magnitudes, especially under low-bit quantization. We propose Game of Regularizer (GoR), a novel learnable regularization method that adaptively balances TS and KD objectives using only two trainable parameters for dynamic loss weighting. GoR reduces conflict between supervision signals, improves convergence, and boosts the performance of small quantized models (SQMs). Experiments on image classification, object detection (OD), and large language model (LLM) compression show that GoR consistently outperforms state-of-the-art QAT-KD methods. On low-power edge devices, it delivers faster inference while maintaining full-precision accuracy. We also introduce QAT-EKD-GoR, an ensemble distillation framework that uses multiple heterogeneous teacher models. Under optimal conditions, the proposed EKD-GoR can outperform full-precision models, providing a robust solution for real-world deployment.
- Abstract(参考訳): 知識蒸留(KD)と組み合わせたQAT(Quantization-Aware Training)は、リソース制約のあるハードウェアにデプロイするための人工知能(AI)モデルを圧縮するための有望な戦略である。
しかし、既存のQAT-KD法は、特に低ビット量子化の下で、不均一な勾配のマグニチュードによるタスク特異的(TS)と蒸留損失のバランスをとるのに苦労することが多い。
動的損失重み付けのための2つのトレーニング可能なパラメータのみを用いて、TSとKDの目標を適応的にバランスさせる新しい学習可能な正規化手法であるGame of Regularizer (GoR)を提案する。
GoRは、監視信号間の競合を低減し、収束を改善し、小さな量子化モデル(SQM)の性能を高める。
画像分類、オブジェクト検出(OD)、大規模言語モデル(LLM)圧縮の実験により、GoRは最先端のQAT-KD法より一貫して優れていることが示された。
低消費電力エッジデバイスでは、完全精度を維持しながら高速な推論を提供する。
また,多種多様な教師モデルを用いたアンサンブル蒸留フレームワークQAT-EKD-GoRについても紹介する。
最適条件下では、提案されたEKD-GoRは完全精度モデルよりも優れ、実世界の展開に堅牢なソリューションを提供する。
関連論文リスト
- Progressive Element-wise Gradient Estimation for Neural Network Quantization [2.1413624861650358]
量子化アウェアトレーニング(QAT)法は、離散化関数の非微分可能性に対処するためにSTE(Straight-Through Estimator)に依存する。
本稿では,連続値と量子化値の離散化誤差に対処するため,PEGE(Progressive Element-wise Gradient Estimation)を提案する。
PEGEは、既存のバックプロパゲーション手法を一貫して上回り、低精度のモデルが彼らの完全精度の精度にマッチしたり、さらに上回ったりすることを可能にしている。
論文 参考訳(メタデータ) (2025-08-27T15:59:36Z) - QuantVSR: Low-Bit Post-Training Quantization for Real-World Video Super-Resolution [53.13952833016505]
実世界のビデオ超解像(VSR)のための低ビット量子化モデルを提案する。
キャリブレーションデータセットを用いて各レイヤの空間的および時間的複雑さを計測する。
我々はFPおよび低ビット分岐を改良し、同時最適化を実現する。
論文 参考訳(メタデータ) (2025-08-06T14:35:59Z) - PQCAD-DM: Progressive Quantization and Calibration-Assisted Distillation for Extremely Efficient Diffusion Model [8.195126516665914]
拡散モデルは画像生成において優れているが、計算と資源集約である。
PQ(Progressive Quantization)とCAD補助蒸留(CAD)を組み合わせた新しいハイブリッド圧縮フレームワークであるPQCAD-DMを提案する。
PQは、運動量に基づくメカニズムで導かれる適応ビット幅遷移を持つ2段階の量子化を採用し、低精度での過剰な重みの摂動を低減する。
論文 参考訳(メタデータ) (2025-06-20T06:43:27Z) - Lightweight Task-Oriented Semantic Communication Empowered by Large-Scale AI Models [66.57755931421285]
大規模人工知能(LAI)モデルは、リアルタイム通信シナリオにおいて重大な課題を提起する。
本稿では,LAIモデルから知識を抽出・凝縮するために知識蒸留(KD)技術を活用することを提案する。
本稿では,反復推論の必要性を排除したプレストア圧縮機構を備えた高速蒸留法を提案する。
論文 参考訳(メタデータ) (2025-06-16T08:42:16Z) - Self-Supervised Quantization-Aware Knowledge Distillation [5.4714555711042]
本稿では,SQAKD(Self-Supervised Quantization-Aware Knowledge Distillation)フレームワークを提案する。
SQAKDは、様々な量子化関数の前方と後方のダイナミクスを統一し、様々なQAT処理を組み込むのに柔軟である。
包括的な評価では、SQAKDは最先端のQATやKDよりも大幅に優れており、様々なモデルアーキテクチャで機能している。
論文 参考訳(メタデータ) (2024-03-17T06:20:28Z) - Knowledge Distillation Performs Partial Variance Reduction [93.6365393721122]
知識蒸留は'学生'モデルの性能を高めるための一般的な手法である。
知識蒸留(KD)の背後にある力学は、まだ完全には理解されていない。
我々は,KDを新しいタイプの分散還元機構として解釈できることを示す。
論文 参考訳(メタデータ) (2023-05-27T21:25:55Z) - Unifying Synergies between Self-supervised Learning and Dynamic
Computation [53.66628188936682]
SSLとDCのパラダイム間の相互作用に関する新しい視点を提示する。
SSL設定において、スクラッチから高密度かつゲートされたサブネットワークを同時に学習することは可能であることを示す。
密集エンコーダとゲートエンコーダの事前学習における共進化は、良好な精度と効率のトレードオフをもたらす。
論文 参考訳(メタデータ) (2023-01-22T17:12:58Z) - BD-KD: Balancing the Divergences for Online Knowledge Distillation [11.874952582465601]
我々は、ロジットベースのオンラインKDのためのフレームワークであるBD-KD(Balanced Divergence Knowledge Distillation)を紹介する。
BD-KDは精度とモデルのキャリブレーションを同時に強化し、ポストホックリカレーション技術の必要性を排除している。
本手法は,従来のオンライン蒸留の損失を学生と教員の両方の損失に適応させることで,学生中心のトレーニングを促進する。
論文 参考訳(メタデータ) (2022-12-25T22:27:32Z) - Self-Distillation from the Last Mini-Batch for Consistency
Regularization [14.388479145440636]
我々は、Last Mini-Batch (DLB) からの自己蒸留という、効率的で信頼性の高い自己蒸留フレームワークを提案する。
提案手法はトレーニングの安定性と一貫性を導出し,ノイズのラベル付けに堅牢性をもたらす。
3つの分類ベンチマークによる実験結果から、我々の手法は最先端の自己蒸留手法より一貫して優れていることが示された。
論文 参考訳(メタデータ) (2022-03-30T09:50:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。