論文の概要: Knowledge Distillation: Enhancing Neural Network Compression with Integrated Gradients
- arxiv url: http://arxiv.org/abs/2503.13008v1
- Date: Mon, 17 Mar 2025 10:07:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:33:45.782688
- Title: Knowledge Distillation: Enhancing Neural Network Compression with Integrated Gradients
- Title(参考訳): 知識蒸留:統合グラディエントによるニューラルネットワーク圧縮の強化
- Authors: David E. Hernandez, Jose Ramon Chang, Torbjörn E. M. Nordling,
- Abstract要約: 本稿では,知識蒸留(KD)と統合勾配(IG)を併用した機械学習フレームワークを提案する。
本稿では,教師モデルから事前計算されたIGマップを訓練画像上にオーバーレイして,コンパクトな学生モデルを重要な特徴表現へ導く,新たなデータ拡張戦略を提案する。
CIFAR-10の実験は,本手法の有効性を実証している: MobileNet-V2 教師の4.1倍圧縮した学生モデルでは,標準の 91.4% と従来の KD アプローチを上回り,分類精度92.5% を達成し,推論遅延を 140 ms から 13 ms-a 10fold に低減した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Efficient deployment of deep neural networks on resource-constrained devices demands advanced compression techniques that preserve accuracy and interoperability. This paper proposes a machine learning framework that augments Knowledge Distillation (KD) with Integrated Gradients (IG), an attribution method, to optimise the compression of convolutional neural networks. We introduce a novel data augmentation strategy where IG maps, precomputed from a teacher model, are overlaid onto training images to guide a compact student model toward critical feature representations. This approach leverages the teacher's decision-making insights, enhancing the student's ability to replicate complex patterns with reduced parameters. Experiments on CIFAR-10 demonstrate the efficacy of our method: a student model, compressed 4.1-fold from the MobileNet-V2 teacher, achieves 92.5% classification accuracy, surpassing the baseline student's 91.4% and traditional KD approaches, while reducing inference latency from 140 ms to 13 ms--a tenfold speedup. We perform hyperparameter optimisation for efficient learning. Comprehensive ablation studies dissect the contributions of KD and IG, revealing synergistic effects that boost both performance and model explainability. Our method's emphasis on feature-level guidance via IG distinguishes it from conventional KD, offering a data-driven solution for mining transferable knowledge in neural architectures. This work contributes to machine learning by providing a scalable, interpretable compression technique, ideal for edge computing applications where efficiency and transparency are paramount.
- Abstract(参考訳): リソース制約のあるデバイスへのディープニューラルネットワークの効率的なデプロイには、正確性と相互運用性を維持するための高度な圧縮技術が必要である。
本稿では,畳み込みニューラルネットワークの圧縮を最適化するために,AI(Integrated Gradients)による知識蒸留(KD)を強化する機械学習フレームワークを提案する。
本稿では,教師モデルから事前計算されたIGマップを訓練画像上にオーバーレイして,コンパクトな学生モデルを重要な特徴表現へ導く,新たなデータ拡張戦略を提案する。
このアプローチは教師の意思決定の洞察を活用し、パラメータを減らした複雑なパターンを再現する生徒の能力を高める。
CIFAR-10の実験では,MobileNet-V2教師の4.1倍圧縮した学生モデルが92.5%の分類精度を達成し,標準学生の91.4%と従来のKDアプローチを上回り,推論遅延を140msから13msに短縮した。
効率的な学習のためのハイパーパラメータ最適化を行う。
包括的アブレーション研究は、KDとIGの貢献を識別し、性能とモデル説明可能性の両方を高める相乗効果を明らかにする。
提案手法は,ニューラルアーキテクチャにおける伝達可能な知識をマイニングするためのデータ駆動型ソリューションを提供することで,従来のKDと区別する。
この研究は、効率性と透明性が最重要であるエッジコンピューティングアプリケーションに理想的な、スケーラブルで解釈可能な圧縮技術を提供することで、機械学習に寄与する。
関連論文リスト
- Over-parameterized Student Model via Tensor Decomposition Boosted Knowledge Distillation [10.48108719012248]
我々は、より大規模な教師モデルを模倣するために、コンパクトな学生モデルを訓練する知識蒸留(KD)に焦点を当てる。
これまでの作業の多くとは対照的に、トレーニング中の学生モデルのパラメータをスケールアップする。
論文 参考訳(メタデータ) (2024-11-10T12:40:59Z) - Robustness-Reinforced Knowledge Distillation with Correlation Distance
and Network Pruning [3.1423836318272773]
知識蒸留(KD)は、効率的で軽量なモデルの性能を向上させる。
既存のKD技術のほとんどは、Kulback-Leibler(KL)の発散に依存している。
相関距離とネットワークプルーニングを利用したロバストネス強化知識蒸留(R2KD)を提案する。
論文 参考訳(メタデータ) (2023-11-23T11:34:48Z) - Knowledge Distillation for Adaptive MRI Prostate Segmentation Based on
Limit-Trained Multi-Teacher Models [4.711401719735324]
圧縮法と加速技術として知識蒸留(KD)が提案されている。
KDは、負担の多いモデルから軽量モデルに知識を移行できる効率的な学習戦略である。
本研究では,KDに基づく前立腺MRIセグメンテーションの深部モデルを構築し,Kellback-Leiblerの発散,Lovasz,Diceの損失と特徴量に基づく蒸留を組み合わせる。
論文 参考訳(メタデータ) (2023-03-16T17:15:08Z) - Directed Acyclic Graph Factorization Machines for CTR Prediction via
Knowledge Distillation [65.62538699160085]
本稿では,既存の複雑な相互作用モデルから,知識蒸留によるCTR予測のための高次特徴相互作用を学習するための非巡回グラフファクトリゼーションマシン(KD-DAGFM)を提案する。
KD-DAGFMは、オンラインとオフラインの両方の実験において、最先端のFLOPの21.5%未満で最高の性能を達成する。
論文 参考訳(メタデータ) (2022-11-21T03:09:42Z) - Knowledge Distillation with Representative Teacher Keys Based on
Attention Mechanism for Image Classification Model Compression [1.503974529275767]
知識蒸留(KD)はモデルパラメータを減らすためのモデル圧縮の効果的な方法の1つとして認識されている。
注意機構にヒントを得て,代表教師キー(RTK)と呼ばれる新しいKD手法を提案する。
提案するRTKは,最先端の注意に基づくKD手法の分類精度を効果的に向上させることができる。
論文 参考訳(メタデータ) (2022-06-26T05:08:50Z) - FOSTER: Feature Boosting and Compression for Class-Incremental Learning [52.603520403933985]
ディープニューラルネットワークは、新しいカテゴリーを学ぶ際に破滅的な忘れ方に悩まされる。
本稿では,新たなカテゴリを適応的に学習するためのモデルとして,新しい2段階学習パラダイムFOSTERを提案する。
論文 参考訳(メタデータ) (2022-04-10T11:38:33Z) - Powerpropagation: A sparsity inducing weight reparameterisation [65.85142037667065]
我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。
この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。
ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-10-01T10:03:57Z) - Efficient training of lightweight neural networks using Online
Self-Acquired Knowledge Distillation [51.66271681532262]
オンライン自己獲得知識蒸留(OSAKD)は、ディープニューラルネットワークの性能をオンライン的に向上することを目的としている。
出力特徴空間におけるデータサンプルの未知確率分布を推定するために、k-nnノンパラメトリック密度推定手法を用いる。
論文 参考訳(メタデータ) (2021-08-26T14:01:04Z) - Spirit Distillation: Precise Real-time Prediction with Insufficient Data [4.6247655021017655]
スピリット蒸留(SD)という新しいトレーニングフレームワークを提案します。
微細チューニングに基づく伝達学習(FTT)と特徴に基づく知識蒸留の考え方を拡張している。
その結果, セグメンテーション(mIOU)において, 精度が1.4%, 精度が8.2%向上した。
論文 参考訳(メタデータ) (2021-03-25T10:23:30Z) - Efficient Crowd Counting via Structured Knowledge Transfer [122.30417437707759]
クラウドカウントはアプリケーション指向のタスクであり、その推論効率は現実世界のアプリケーションにとって不可欠である。
本稿では,学生ネットワークを軽量かつ高効率に構築する構造的知識伝達フレームワークを提案する。
我々のモデルはNvidia 1080 GPUで最低6.5$times$のスピードアップを取得し、最先端のパフォーマンスも達成しています。
論文 参考訳(メタデータ) (2020-03-23T08:05:41Z) - End-to-End Facial Deep Learning Feature Compression with Teacher-Student
Enhancement [57.18801093608717]
本稿では,ディープニューラルネットワークの表現と学習能力を活用することで,エンドツーエンドの特徴圧縮手法を提案する。
特に、抽出した特徴量を、レート歪みコストを最適化することにより、エンドツーエンドでコンパクトに符号化する。
提案モデルの有効性を顔の特徴で検証し, 圧縮性能を高いレート精度で評価した。
論文 参考訳(メタデータ) (2020-02-10T10:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。