論文の概要: Teacher-Guided One-Shot Pruning via Context-Aware Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2511.16653v1
- Date: Thu, 20 Nov 2025 18:56:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.79962
- Title: Teacher-Guided One-Shot Pruning via Context-Aware Knowledge Distillation
- Title(参考訳): 教師が意識した知識蒸留によるワンショットプルーニング
- Authors: Md. Samiul Alim, Sharjil Khan, Amrijit Biswas, Fuad Rahman, Shafin Rahman, Nabeel Mohammed,
- Abstract要約: 非構造化プルーニングは、ディープニューラルネットワークを圧縮するための強力な戦略である。
本稿では,KD(Knowledge Distillation)と重要スコア推定を密に統合した,教師指導型プルーニングフレームワークを提案する。
本手法は,本態的な表現を保ちながら,冗長な重みを効率的に除去するワンショットグローバルプルーニング戦略を促進する。
- 参考スコア(独自算出の注目度): 7.870062030206608
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unstructured pruning remains a powerful strategy for compressing deep neural networks, yet it often demands iterative train-prune-retrain cycles, resulting in significant computational overhead. To address this challenge, we introduce a novel teacher-guided pruning framework that tightly integrates Knowledge Distillation (KD) with importance score estimation. Unlike prior approaches that apply KD as a post-pruning recovery step, our method leverages gradient signals informed by the teacher during importance score calculation to identify and retain parameters most critical for both task performance and knowledge transfer. Our method facilitates a one-shot global pruning strategy that efficiently eliminates redundant weights while preserving essential representations. After pruning, we employ sparsity-aware retraining with and without KD to recover accuracy without reactivating pruned connections. Comprehensive experiments across multiple image classification benchmarks, including CIFAR-10, CIFAR-100, and TinyImageNet, demonstrate that our method consistently achieves high sparsity levels with minimal performance degradation. Notably, our approach outperforms state-of-the-art baselines such as EPG and EPSD at high sparsity levels, while offering a more computationally efficient alternative to iterative pruning schemes like COLT. The proposed framework offers a computation-efficient, performance-preserving solution well suited for deployment in resource-constrained environments.
- Abstract(参考訳): 非構造化プルーニングは、ディープニューラルネットワークを圧縮するための強力な戦略であり続けているが、しばしば反復的なトレイン・プルー・リトラクションサイクルを必要とし、計算オーバーヘッドが大幅に増加する。
そこで本研究では,KD(Knowledge Distillation)を重要点推定と密接に統合した,教師誘導型プルーニングフレームワークを提案する。
提案手法は,KDを時間経過後回復ステップとして適用する従来の手法とは異なり,重要スコア計算中に教師から通知される勾配信号を利用して,タスク性能と知識伝達の両方に最も重要なパラメータを特定し,保持する。
本手法は,本態的な表現を保ちながら,冗長な重みを効率的に除去するワンショットグローバルプルーニング戦略を促進する。
刈り込み後,KDの有無を意識したスペーサネス・アウェア・リトレーニングを用いて,刈り込み接続を再活性化させることなく精度を回復する。
CIFAR-10、CIFAR-100、TinyImageNetを含む複数の画像分類ベンチマークの総合的な実験により、本手法は性能劣化を最小限に抑えながら常に高い空間レベルを達成できることを示した。
特に,本手法は,ECGやEPSDといった最先端のベースラインを高い疎度で上回り,COLTのような反復型プルーニング方式の計算効率の良い代替手段を提供する。
提案するフレームワークは、リソース制約のある環境でのデプロイメントに適した、計算効率の良い、パフォーマンスの保存ソリューションを提供する。
関連論文リスト
- ERDE: Entropy-Regularized Distillation for Early-exit [1.3403105494381726]
ディープニューラルネットワークは、比較的高い効率で画像分類における最先端のパフォーマンスを実証している。
ディープニューラルネットワークは計算コストが高く、しばしばリアルタイムやエッジアプリケーションでは実用的ではない。
提案手法は, 早期出口と知識蒸留という, 確立された2つの最適化手法を統合する。
論文 参考訳(メタデータ) (2025-10-06T14:45:41Z) - CurES: From Gradient Analysis to Efficient Curriculum Learning for Reasoning LLMs [53.749193998004166]
カリキュラム学習は,大規模言語モデルの学習効率を高める上で重要な役割を担っている。
収束を加速し,計算オーバーヘッドを最小限に抑えるためにベイズ後続推定を用いた効率的な学習法であるCurESを提案する。
論文 参考訳(メタデータ) (2025-10-01T15:41:27Z) - Local Dense Logit Relations for Enhanced Knowledge Distillation [12.350115738581223]
Local Logit Distillationはクラス間の関係をキャプチャし、Logit情報を再結合する。
臨界カテゴリー対の重みを動的に調整できる適応型デカイウェイト(ADW)戦略を導入する。
本手法は, きめ細かい知識を伝達し, もっとも重要な関係性を強調することによって, 生徒のパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2025-07-21T16:25:38Z) - EKPC: Elastic Knowledge Preservation and Compensation for Class-Incremental Learning [53.88000987041739]
クラスインクリメンタルラーニング(Class-Incremental Learning, CIL)は、AIモデルを、時間とともに異なるクラスのシーケンシャルに到着したデータから継続的に学習可能にすることを目的としている。
本稿では, 重要度を考慮した重要度正規化 (IPR) と CIL のためのトレーニング可能なセマンティックドリフト補償 (TSDC) を統合したElastic Knowledge Preservation and Compensation (EKPC) 法を提案する。
論文 参考訳(メタデータ) (2025-06-14T05:19:58Z) - Efficient Diffusion as Low Light Enhancer [63.789138528062225]
RATR(Reflectance-Aware Trajectory Refinement)は、イメージの反射成分を用いて教師の軌跡を洗練するための、シンプルで効果的なモジュールである。
textbfReDDiT (textbfDistilled textbfTrajectory) は低照度画像強調(LLIE)に適した効率的で柔軟な蒸留フレームワークである。
論文 参考訳(メタデータ) (2024-10-16T08:07:18Z) - SLCA++: Unleash the Power of Sequential Fine-tuning for Continual Learning with Pre-training [68.7896349660824]
本稿では,Seq FTのレンズからの進行オーバーフィッティング問題を詳細に解析する。
過度に高速な表現学習と偏りのある分類層がこの問題を構成することを考慮し、先進的なSlow Learner with Alignment(S++)フレームワークを導入する。
提案手法は,バックボーンパラメータの学習率を選択的に減少させるスローラーナーと,ポストホック方式で不規則な分類層を整列させるアライメントを含む。
論文 参考訳(メタデータ) (2024-08-15T17:50:07Z) - Learning a Consensus Sub-Network with Polarization Regularization and One Pass Training [2.895034191799291]
プルーニングスキームは、静的プルーニングのための反復的なトレーニングと微調整、動的プルーニンググラフの繰り返し計算によって、余分なオーバーヘッドを生み出す。
本稿では,より軽量なサブネットワークを学習するためのパラメータ解析手法を提案する。
CIFAR-10, CIFAR-100, Tiny Imagenet で得られた結果から, ディープネットワークにおける接続の50%を, 1%の分類精度で除去できることが示唆された。
論文 参考訳(メタデータ) (2023-02-17T09:37:17Z) - Back to Basics: Efficient Network Compression via IMP [22.586474627159287]
イテレーティブ・マグニチュード・プルーニング(IMP)は、ネットワーク・プルーニングにおける最も確立されたアプローチの1つである。
IMPは、トレーニングフェーズにスパーシフィケーションを組み込まないことで、最適以下の状態に達するとしばしば主張される。
再学習のためのSLRを用いたIMPは、最先端のプルーニング訓練手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-11-01T11:23:44Z) - Always Be Dreaming: A New Approach for Data-Free Class-Incremental
Learning [73.24988226158497]
データフリークラスインクリメンタルラーニング(DFCIL)における高インパクト問題について考察する。
そこで本研究では, 改良型クロスエントロピートレーニングと重要重み付き特徴蒸留に寄与するDFCILの新たなインクリメンタル蒸留戦略を提案する。
本手法は,共通クラスインクリメンタルベンチマークにおけるSOTA DFCIL法と比較して,最終タスク精度(絶対差)が25.1%向上する。
論文 参考訳(メタデータ) (2021-06-17T17:56:08Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。