論文の概要: EGAD: Entropy-Guided Adaptive Distillation for Token-Level Knowledge Transfer
- arxiv url: http://arxiv.org/abs/2605.01732v1
- Date: Sun, 03 May 2026 06:05:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.911036
- Title: EGAD: Entropy-Guided Adaptive Distillation for Token-Level Knowledge Transfer
- Title(参考訳): EGAD(Entropy-Guided Adaptive Distillation for Token-Level Knowledge Transfer)
- Authors: Hao Zhang, Zhibin Zhang, Guangxin Wu, Wanyi Ning, Jiafeng Guo, Xueqi Cheng,
- Abstract要約: 大規模言語モデル(LLM)は、様々な領域で顕著なパフォーマンスを実現している。
知識蒸留は、大きな教師モデルからより小さな学生モデルに知識を移すことによって、有望な解決策を提供する。
本稿では,トークンレベルでのトレーニングプロセスを動的に調整する,エントロピーに基づく適応蒸留方式を提案する。
- 参考スコア(独自算出の注目度): 72.31900638260758
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have achieved remarkable performance across diverse domains, yet their enormous computational and memory requirements hinder deployment in resource-constrained environments. Knowledge distillation offers a promising solution by transferring knowledge from a large teacher model to a smaller student model. However, existing distillation methods typically treat all tokens equally, ignoring the fact that different tokens contribute unequally to model decisions. This can lead to inefficient knowledge transfer and reduced learning effectiveness. To address this limitation, we propose an entropy-based adaptive distillation strategy that dynamically adjusts the training process at the token level. Our method leverages the teacher's output entropy to guide three aspects of distillation. Specifically, we introduce a token-level curriculum by dynamically shifting focus from low- to high-entropy tokens during training. We further adjust the distillation temperature based on token entropy to better capture teacher confidence patterns. Moreover, we employ a dual-branch architecture for efficient logits-only distillation on easy tokens and deeper feature-based distillation on difficult tokens. Extensive experiments validate the soundness and effectiveness of our method.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な領域で顕著なパフォーマンスを実現しているが、その膨大な計算およびメモリ要求は、リソース制約のある環境への展開を妨げる。
知識蒸留は、大きな教師モデルからより小さな学生モデルに知識を移すことによって、有望な解決策を提供する。
しかし、既存の蒸留法は一般に全てのトークンを等しく扱い、異なるトークンがモデル決定に不平等に寄与するという事実を無視している。
これは非効率な知識伝達と学習効率の低下につながる。
この制限に対処するため,トークンレベルでのトレーニングプロセスを動的に調整するエントロピー型適応蒸留法を提案する。
本手法は,教師の出力エントロピーを利用して蒸留の3つの側面を導出する。
具体的には、トレーニング中に低エントロピートークンから高エントロピートークンへ動的に焦点をシフトすることでトークンレベルのカリキュラムを導入する。
さらに,トークンエントロピーに基づく蒸留温度の調整を行い,教師の信頼性パターンをよりよく把握する。
さらに、簡単なトークン上での効率的なロジットのみの蒸留と、難しいトークン上でのより深い特徴に基づく蒸留に、デュアルブランチアーキテクチャを用いる。
大規模な実験により,本手法の健全性と有効性について検証した。
関連論文リスト
- Towards Distillation-Resistant Large Language Models: An Information-Theoretic Perspective [52.25797439810419]
既存の防衛はテキストベースの蒸留のみに重点を置いており、重要なロジットベースの蒸留はほとんど探索されていない。
我々は,教師のロジットと接地木ラベルに条件付けされた入力クエリ間の条件付き相互情報(CMI)を用いて,教師出力の蒸留関連情報を特徴付ける。
我々は,CMIにインスパイアされた抗蒸留目標を導出し,この変換を最適化し,出力ユーティリティを保ちながら蒸留関連情報を効果的に除去する。
論文 参考訳(メタデータ) (2026-02-03T11:16:59Z) - LLM-Oriented Token-Adaptive Knowledge Distillation [64.08412563818662]
本稿では,各トークンのリアルタイム学習状態に蒸留プロセスを適用する新しいフレームワークを提案する。
AdaKDは、2つの相乗的加群からなる。
プラグアンドプレイフレームワークとして、AdaKDは複数のモデルアーキテクチャやベンチマーク上で様々な蒸留方法の性能を一貫して向上させることができる。
論文 参考訳(メタデータ) (2025-10-13T16:55:07Z) - Learning from Stochastic Teacher Representations Using Student-Guided Knowledge Distillation [64.15918654558816]
教師表現のフィルタリングと重み付けのための自己蒸留(SSD)訓練戦略を導入し,タスク関連表現のみから抽出する。
UCR Archiveのウェアラブル/バイオサインデータセット、HARデータセット、画像分類データセットなどの実世界の感情コンピューティングに関する実験結果は、提案したSSD手法が最先端の手法より優れていることを示している。
論文 参考訳(メタデータ) (2025-04-19T14:08:56Z) - AdaKD: Dynamic Knowledge Distillation of ASR models using Adaptive Loss Weighting [5.818420448447701]
適応的知識蒸留(Adaptive Knowledge Distillation, Adaptive Knowledge Distillation)は, カリキュラム学習にインスパイアされた新しい手法であり, 事例レベルでの損失を適応的に評価する。
提案手法は,任意のタスク固有および蒸留目的に対して適用可能なプラグアンドプレイパラダイムに従っている。
論文 参考訳(メタデータ) (2024-05-11T15:06:24Z) - Sentence-Level or Token-Level? A Comprehensive Study on Knowledge Distillation [25.58020699235669]
知識蒸留は、教師モデルから学生モデルに知識を伝達するものであり、ニューラルネットワーク翻訳において強力な技術として現れている。
本研究では,より複雑な目的(すなわち分布)を持つトークンレベルの蒸留が,単純なシナリオに適していると主張している。
本稿では,ゲーティング機構によるトークンレベルの蒸留と文レベルの蒸留を組み合わせた新しいハイブリッド手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T08:29:56Z) - HomoDistil: Homotopic Task-Agnostic Distillation of Pre-trained
Transformers [49.79405257763856]
本稿では,タスク非依存蒸留に焦点をあてる。
これは、計算コストとメモリフットプリントを小さくして、様々なタスクで簡単に微調整できるコンパクトな事前訓練モデルを生成する。
本稿では, 反復刈り込みによる新規なタスク非依存蒸留法であるHomotopic Distillation (HomoDistil)を提案する。
論文 参考訳(メタデータ) (2023-02-19T17:37:24Z) - Normalized Feature Distillation for Semantic Segmentation [6.882655287146012]
正規化特徴蒸留(NFD)と呼ばれる簡易かつ効果的な特徴蒸留法を提案する。
提案手法は,都市景観,VOC 2012,ADE20Kデータセットのセマンティックセマンティックセマンティックセグメンテーションのための,最先端の蒸留結果を実現する。
論文 参考訳(メタデータ) (2022-07-12T01:54:25Z) - Annealing Knowledge Distillation [5.396407687999048]
教師のソフトターゲットから得られる豊富な情報を段階的かつ効率的にフィードバックし、知識蒸留法(アニーリングKD)の改善を提案します。
本稿では,Anaaling-KD法の有効性を裏付ける理論的および実証的な証拠と実用的実験を含む。
論文 参考訳(メタデータ) (2021-04-14T23:45:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。