論文の概要: HPM-KD: Hierarchical Progressive Multi-Teacher Framework for Knowledge Distillation and Efficient Model Compression
- arxiv url: http://arxiv.org/abs/2512.09886v1
- Date: Wed, 10 Dec 2025 18:15:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.629129
- Title: HPM-KD: Hierarchical Progressive Multi-Teacher Framework for Knowledge Distillation and Efficient Model Compression
- Title(参考訳): HPM-KD:知識蒸留と効率的なモデル圧縮のための階層的プログレッシブマルチ教師フレームワーク
- Authors: Gustavo Coelho Haase, Paulo Henrique Dourado da Silva,
- Abstract要約: HPM-KD: 85%の精度保持を維持しながら10x-15x圧縮を実現する。
並列化によってトレーニング時間を30~40%短縮する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Knowledge Distillation (KD) has emerged as a promising technique for model compression but faces critical limitations: (1) sensitivity to hyperparameters requiring extensive manual tuning, (2) capacity gap when distilling from very large teachers to small students, (3) suboptimal coordination in multi-teacher scenarios, and (4) inefficient use of computational resources. We present \textbf{HPM-KD}, a framework that integrates six synergistic components: (i) Adaptive Configuration Manager via meta-learning that eliminates manual hyperparameter tuning, (ii) Progressive Distillation Chain with automatically determined intermediate models, (iii) Attention-Weighted Multi-Teacher Ensemble that learns dynamic per-sample weights, (iv) Meta-Learned Temperature Scheduler that adapts temperature throughout training, (v) Parallel Processing Pipeline with intelligent load balancing, and (vi) Shared Optimization Memory for cross-experiment reuse. Experiments on CIFAR-10, CIFAR-100, and tabular datasets demonstrate that HPM-KD: achieves 10x-15x compression while maintaining 85% accuracy retention, eliminates the need for manual tuning, and reduces training time by 30-40% via parallelization. Ablation studies confirm independent contribution of each component (0.10-0.98 pp). HPM-KD is available as part of the open-source DeepBridge library.
- Abstract(参考訳): 知識蒸留(KD)はモデル圧縮の有望な手法として登場したが,(1)手動チューニングを必要とするハイパーパラメータに対する感度,(2)大規模教師から小学生への蒸留におけるキャパシティギャップ,(3)マルチ教師シナリオにおける準最適調整,(4)計算資源の非効率利用,といった限界に直面している。
6つの相乗的コンポーネントを統合するフレームワークである \textbf{HPM-KD} を提示する。
(i)手動ハイパーパラメータチューニングを排除したメタラーニングによる適応型設定マネージャ。
(II) 自動決定中間モデルによる進行蒸留鎖
三 標本ごとの動的重みを学習する注意重み付きマルチ教師アンサンブル
四 トレーニングを通して温度に適応するメタラーニング温度スケジューリング装置
五 インテリジェントな負荷分散を伴う並列処理パイプライン、及び
(vi)クロスエクスペリエンスの再利用のための共有最適化メモリ。
CIFAR-10、CIFAR-100、および表形式のデータセットの実験では、HPM-KDは85%の精度保持を維持しながら10x-15x圧縮を実現し、手動チューニングの必要性を排除し、並列化によるトレーニング時間を30~40%削減している。
アブレーション研究は各成分の独立な寄与(0.10-0.98 pp)を確認している。
HPM-KDはオープンソースのDeepBridgeライブラリの一部として利用できる。
関連論文リスト
- Dynamic Expert Quantization for Scalable Mixture-of-Experts Inference [2.649774320778185]
我々は、専門家の精度を第一級、動的に管理されるリソースとして扱うランタイムシステムDynaExqを提案する。
我々は,DynaExqが5090とA6000のGPU上で大きなLLMをデプロイし,静的な低精度ベースラインに対して最大4.03ポイントの精度向上を実現していることを示す。
論文 参考訳(メタデータ) (2025-11-19T01:27:54Z) - MC#: Mixture Compressor for Mixture-of-Experts Large Models [86.64315380917827]
Mixture-of-Experts (MoE)は、大きな言語モデル(LLM)と視覚言語モデル(VLM)をスパースアクティベーションによって拡張することで効果的にスケールする。
静的量子化と動的エキスパートプルーニングを組み合わせたフレームワークであるMC#(Mixture-Compressor-sharp)を提案する。
論文 参考訳(メタデータ) (2025-10-13T03:12:46Z) - Adacc: An Adaptive Framework Unifying Compression and Activation Recomputation for LLM Training [40.371351103295765]
大きな言語モデル(LLM)のトレーニングは、GPUメモリの制限によって制限されることが多い。
Adaccはアクティベーション再計算とデータ圧縮を統合する最初の適応型メモリ最適化フレームワークである。
Adaccは、最先端のフレームワークと比較して、トレーニングのスループットを1.01倍から1.37倍改善している。
論文 参考訳(メタデータ) (2025-08-01T17:39:25Z) - EfficientLLM: Efficiency in Large Language Models [64.3537131208038]
大規模言語モデル(LLM)は大きな進歩を導いてきたが、その増加とコンテキストウィンドウは計算、エネルギー、金銭的コストを禁止している。
本稿では,新しいベンチマークであるEfficientLLMを紹介する。
論文 参考訳(メタデータ) (2025-05-20T02:27:08Z) - Mixture Compressor for Mixture-of-Experts LLMs Gains More [71.0473038084673]
我々は、Mixture-of-Experts Large Language Model (MoE-LLMs) のためのトレーニング不要なMixture-Compressorを提案する。
我々のMCは静的量子化と動的プルーニングを統合し、より少ない精度でMoE-LLMの極端な圧縮を実現する。
例えば、2.54ビットでは、MCは76.6%を圧縮し、平均精度損失は3.8%である。
論文 参考訳(メタデータ) (2024-10-08T18:09:38Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - Tangent Model Composition for Ensembling and Continual Fine-tuning [69.92177580782929]
タンジェントモデル合成(Tangent Model composition, TMC)は、事前訓練された点を中心に微調整されたコンポーネントモデルを独立に結合する手法である。
TMCの精度は4.2%向上し、非線形微調整モデルの精度は4.2%向上した。
論文 参考訳(メタデータ) (2023-07-16T17:45:33Z) - Compression-aware Continual Learning using Singular Value Decomposition [2.4283778735260686]
本稿では,ニューラルネットワークを動的に成長させる圧縮型連続タスク学習手法を提案する。
近年のモデル圧縮技術にインスパイアされた我々は、圧縮認識トレーニングを採用し、低ランク重量近似を行う。
本手法は,コストのかかる微調整を必要とせず,最小性能の圧縮表現を実現する。
論文 参考訳(メタデータ) (2020-09-03T23:29:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。