論文の概要: LLM-Oriented Token-Adaptive Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2510.11615v1
- Date: Mon, 13 Oct 2025 16:55:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.467854
- Title: LLM-Oriented Token-Adaptive Knowledge Distillation
- Title(参考訳): LLM-Oriented Token-Adaptive Knowledge Distillation
- Authors: Xurong Xie, Zhucun Xue, Jiafu Wu, Jian Li, Yabiao Wang, Xiaobin Hu, Yong Liu, Jiangning Zhang,
- Abstract要約: 本稿では,各トークンのリアルタイム学習状態に蒸留プロセスを適用する新しいフレームワークを提案する。
AdaKDは、2つの相乗的加群からなる。
プラグアンドプレイフレームワークとして、AdaKDは複数のモデルアーキテクチャやベンチマーク上で様々な蒸留方法の性能を一貫して向上させることができる。
- 参考スコア(独自算出の注目度): 64.08412563818662
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge distillation (KD) is a key technique for compressing large-scale language models (LLMs), yet prevailing logit-based methods typically employ static strategies that are misaligned with the dynamic learning process of student models. These methods typically treat all tokens indiscriminately and apply a single, fixed temperature, resulting in suboptimal knowledge transfer. To address these limitations, we propose LLM-Oriented Token-Adaptive Knowledge Distillation (AdaKD), a novel framework that adapts the distillation process to the real-time learning state of each token. AdaKD consists of two synergistic modules driven by a unified token difficulty metric. First, our Loss-Driven Adaptive Token Focusing (LATF) module dynamically adjusts the distillation focus by monitoring the student's learning stability, concentrating computational resources on the most valuable tokens at each training phase. Second, we introduce Inverse Difficulty Temperature Scaling (IDTS), a counterintuitive yet effective token-level temperature strategy. It employs low temperatures for difficult tokens for targeted error correction, and high temperatures for easy tokens to encourage students to learn from the teacher's complete and smooth output distribution, thereby enhancing generalization. As a plug-and-play framework, AdaKD can consistently improve the performance of various distillation methods on multiple model architectures and benchmarks.
- Abstract(参考訳): 知識蒸留(KD)は、大規模言語モデル(LLM)を圧縮する鍵となる手法であるが、一般的なロジットベースの手法では、学生モデルの動的学習プロセスと不一致な静的戦略を用いる。
これらの方法は通常、全てのトークンを無差別に扱い、1つの一定の温度を適用し、結果として準最適知識伝達をもたらす。
これらの制約に対処するために, 各トークンのリアルタイム学習状態に蒸留プロセスを適用する新しいフレームワークであるLLM-Oriented Token-Adaptive Knowledge Distillation (AdaKD)を提案する。
AdaKDは、2つの相乗的加群からなる。
まず,ロス駆動型適応トークン集中(LATF)モジュールは,学習者の学習安定性を監視し,各学習段階において最も価値のあるトークンに計算資源を集中させることにより,蒸留焦点を動的に調整する。
Inverse Difficulty Temperature Scaling (IDTS)を導入する。
目標とする誤り訂正のための難解なトークンには低温を使用し、簡単なトークンには高温を使用し、教師の完全かつ円滑な出力分布から生徒に学ぶことを奨励し、一般化を促進する。
プラグアンドプレイフレームワークとして、AdaKDは複数のモデルアーキテクチャやベンチマーク上で様々な蒸留方法の性能を一貫して向上させることができる。
関連論文リスト
- Being Strong Progressively! Enhancing Knowledge Distillation of Large Language Models through a Curriculum Learning Framework [0.0]
知識蒸留(KD)は、教師モデルの能力をより小さな学生モデルに転送することで、大きな言語モデル(LLM)を圧縮する。
LLMの既存のKD法は、訓練中に学生モデルの分布が大きく変化することを防ぐのに失敗することが多い。
我々は,「プログレッシブ・オーバーロード」の強度トレーニング原理に着想を得た,新しいプラグインカリキュラム学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-06T02:48:38Z) - PATS: Process-Level Adaptive Thinking Mode Switching [53.53401063490537]
現在の大言語モデル(LLM)は、通常、難易度に関わらず、すべての質問に対して、単純または複雑に固定された推論戦略を採用する。
このようなタスクと推論プロセスの複雑さの変化の無視は、パフォーマンスと効率のバランスを損なう。
既存の手法では, 難易度が異なる問題に対処するために, 学習不要な高速スロー思考システムを導入しようとするが, 厳密な解レベルの戦略調整によって制限される。
プロセスレベル適応思考モードスイッチング(PATS)という新しい推論パラダイムを提案し,各ステップの難易度に基づいてLLMが推論戦略を動的に調整し,そのバランスを最適化する。
論文 参考訳(メタデータ) (2025-05-25T17:58:50Z) - Learning from Stochastic Teacher Representations Using Student-Guided Knowledge Distillation [64.15918654558816]
教師表現のフィルタリングと重み付けのための自己蒸留(SSD)訓練戦略を導入し,タスク関連表現のみから抽出する。
UCR Archiveのウェアラブル/バイオサインデータセット、HARデータセット、画像分類データセットなどの実世界の感情コンピューティングに関する実験結果は、提案したSSD手法が最先端の手法より優れていることを示している。
論文 参考訳(メタデータ) (2025-04-19T14:08:56Z) - Multi-Level Optimal Transport for Universal Cross-Tokenizer Knowledge Distillation on Language Models [81.74999702045339]
マルチレベル最適輸送(MultiLevelOT)は、普遍的なクロストケナイザー知識蒸留のための最適な輸送を促進する新しいアプローチである。
本手法は,教師と生徒のロジット分布をトークンレベルとシーケンスレベルの両方で整列する。
トークンレベルでは、MultiLevelOTはグローバルとローカルの両方の情報を統合する。
論文 参考訳(メタデータ) (2024-12-19T04:51:06Z) - Instance Temperature Knowledge Distillation [15.095465128404161]
既存の学習方法は、学生ネットワークが様々な学習困難に適応できるように、動的に温度調整を行う。
本稿では,温度調整を逐次意思決定タスクとして定式化し,強化学習に基づく手法を提案する。
我々のフレームワークは、様々なKDメソッドに簡単に挿入できるプラグイン・アンド・プレイ技術として機能する。
論文 参考訳(メタデータ) (2024-06-27T14:00:05Z) - Temperature Balancing, Layer-wise Weight Analysis, and Neural Network
Training [58.20089993899729]
本稿では,直感的で効果的な階層学習手法であるTempBalanceを提案する。
我々は、TempBalanceが通常のSGDと注意深く調整されたスペクトルノルム正規化より著しく優れていることを示す。
また、TempBalanceは最先端のメトリクスやスケジューラよりも優れています。
論文 参考訳(メタデータ) (2023-12-01T05:38:17Z) - Self-Knowledge Distillation with Progressive Refinement of Targets [1.1470070927586016]
プログレッシブ自己知識蒸留(PS-KD)という,単純で効果的な正則化法を提案する。
PS-KDは、訓練中にハードターゲットを柔らかくするために、モデルの知識を徐々に蒸留する。
分析の結果,PS-KDは,試料の分類の難しさに応じて勾配を再スケーリングすることで,硬い試料採掘の効果を示すことがわかった。
論文 参考訳(メタデータ) (2020-06-22T04:06:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。