論文の概要: Model compression using knowledge distillation with integrated gradients
- arxiv url: http://arxiv.org/abs/2506.14440v1
- Date: Tue, 17 Jun 2025 12:00:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.456528
- Title: Model compression using knowledge distillation with integrated gradients
- Title(参考訳): 積分勾配を用いた知識蒸留によるモデル圧縮
- Authors: David E. Hernandez, Jose Chang, Torbjörn E. M. Nordling,
- Abstract要約: 統合勾配(IG)を用いた知識蒸留の高度化手法を提案する。
提案手法では,IGマップを学習中の入力画像にオーバーレイし,教師モデルの意思決定プロセスに関するより深い洞察を学生モデルに提供する。
本手法はトレーニング前にIGマップを事前計算し,実行時コストを1回の事前処理ステップに変換する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model compression is critical for deploying deep learning models on resource-constrained devices. We introduce a novel method enhancing knowledge distillation with integrated gradients (IG) as a data augmentation strategy. Our approach overlays IG maps onto input images during training, providing student models with deeper insights into teacher models' decision-making processes. Extensive evaluation on CIFAR-10 demonstrates that our IG-augmented knowledge distillation achieves 92.6% testing accuracy with a 4.1x compression factor-a significant 1.1 percentage point improvement ($p<0.001$) over non-distilled models (91.5%). This compression reduces inference time from 140 ms to 13 ms. Our method precomputes IG maps before training, transforming substantial runtime costs into a one-time preprocessing step. Our comprehensive experiments include: (1) comparisons with attention transfer, revealing complementary benefits when combined with our approach; (2) Monte Carlo simulations confirming statistical robustness; (3) systematic evaluation of compression factor versus accuracy trade-offs across a wide range (2.2x-1122x); and (4) validation on an ImageNet subset aligned with CIFAR-10 classes, demonstrating generalisability beyond the initial dataset. These extensive ablation studies confirm that IG-based knowledge distillation consistently outperforms conventional approaches across varied architectures and compression ratios. Our results establish this framework as a viable compression technique for real-world deployment on edge devices while maintaining competitive accuracy.
- Abstract(参考訳): モデル圧縮は、リソース制約のあるデバイスにディープラーニングモデルをデプロイするために重要である。
本稿では,データ拡張戦略として,統合勾配(IG)を用いた知識蒸留の高度化手法を提案する。
提案手法では,IGマップを学習中の入力画像にオーバーレイし,教師モデルの意思決定プロセスに関するより深い洞察を学生モデルに提供する。
CIFAR-10の総合的な評価は、IG増量された知識蒸留は4.1倍の圧縮率で92.6%の精度で、非蒸留モデル(91.5%)に対して1.1ポイントの改善(p<0.001$)を達成していることを示している。
提案手法では,トレーニング前にIGマップをプリ計算し,実際の実行コストを1回前処理ステップに変換する。
総合的な実験としては,(1)注意伝達との比較,(2)統計的堅牢性を確認するモンテカルロシミュレーション,(3)広範囲(2.2x-1122x)にわたる圧縮係数と精度トレードオフの体系的評価,(4)CIFAR-10クラスに適合したImageNetサブセットの検証などがあり,その一般性を示す。
これらの広範囲にわたるアブレーション研究により、IGベースの知識蒸留は、様々なアーキテクチャや圧縮比の従来の手法よりも一貫して優れていることが確認された。
本研究は,エッジデバイス上での実環境展開のための圧縮技術として,競争精度を維持しながら実現可能なフレームワークとして,本フレームワークを確立した。
関連論文リスト
- Knowledge Distillation: Enhancing Neural Network Compression with Integrated Gradients [0.0]
本稿では,知識蒸留(KD)と統合勾配(IG)を併用した機械学習フレームワークを提案する。
本稿では,教師モデルから事前計算されたIGマップを訓練画像上にオーバーレイして,コンパクトな学生モデルを重要な特徴表現へ導く,新たなデータ拡張戦略を提案する。
CIFAR-10の実験は,本手法の有効性を実証している: MobileNet-V2 教師の4.1倍圧縮した学生モデルでは,標準の 91.4% と従来の KD アプローチを上回り,分類精度92.5% を達成し,推論遅延を 140 ms から 13 ms-a 10fold に低減した。
論文 参考訳(メタデータ) (2025-03-17T10:07:50Z) - Compression-Aware One-Step Diffusion Model for JPEG Artifact Removal [56.307484956135355]
CODiffはJPEGアーティファクト削除のための圧縮対応ワンステップ拡散モデルである。
明示的な学習と暗黙的な学習を組み合わせた二重学習戦略を提案する。
その結果,CODiffは定量的および視覚的品質指標の両方において,最近の先行手法を超越していることがわかった。
論文 参考訳(メタデータ) (2025-02-14T02:46:27Z) - Language Models as Zero-shot Lossless Gradient Compressors: Towards General Neural Parameter Prior Models [56.00251589760559]
大型言語モデル(LLM)はゼロショット設定でグラデーション先行として振る舞うことができる。
本稿では,LSMと算術符号を統合する新しい手法であるLM-GCを紹介する。
実験により、LM-GCは既存の最先端のロスレス圧縮手法を超越していることが示された。
論文 参考訳(メタデータ) (2024-09-26T13:38:33Z) - Approximating Human-Like Few-shot Learning with GPT-based Compression [55.699707962017975]
我々は、推論中にデータ圧縮を可能にする、人間のような学習能力を備えた生成事前学習モデルを提案する。
本稿では,GPT(Generative Pre-trained Transformer)を用いてコルモゴロフ複雑性を近似する手法を提案する。
論文 参考訳(メタデータ) (2023-08-14T05:22:33Z) - Enabling Deep Learning on Edge Devices through Filter Pruning and
Knowledge Transfer [5.239675888749389]
本稿では,クラウドで訓練された大規模モデルから軽量なトレーニング可能なモデルを作成するための,フィルタプルーニングに基づく新しいモデル圧縮手法を提案する。
第二に、オンデバイスモデルがリアルタイムであるいはほぼリアルタイムで漸進的に更新できるように、新しい知識伝達手法を提案する。
その結果, モデル圧縮法は最大99.36%のWRN-28-10パラメータを除去できる一方で, CIFAR-10ではトップ1の精度を90%以上保持できることがわかった。
論文 参考訳(メタデータ) (2022-01-22T00:27:21Z) - Online Ensemble Model Compression using Knowledge Distillation [51.59021417947258]
本稿では,学生アンサンブルからなる知識蒸留に基づくモデル圧縮フレームワークを提案する。
圧縮された各学生モデルに対して同時に学習したアンサンブル知識の蒸留を可能にする。
フレームワークの有効性を検証するために,最先端の分類モデルを用いた総合的な実験を行った。
論文 参考訳(メタデータ) (2020-11-15T04:46:29Z) - Extracurricular Learning: Knowledge Transfer Beyond Empirical
Distribution [17.996541285382463]
本稿では,圧縮された学生モデルと教師とのギャップを埋めるために,課外学習を提案する。
回帰と分類のタスクについて厳密な評価を行い、標準的な知識蒸留と比較すると、課外学習はギャップを46%減らして68%減らすことを示した。
これは、最近のニューラルネットワークアーキテクチャに対する経験的リスク最小化に基づくトレーニングと比較して、大幅な精度向上につながる。
論文 参考訳(メタデータ) (2020-06-30T18:21:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。