論文の概要: ToDi: Token-wise Distillation via Fine-Grained Divergence Control
- arxiv url: http://arxiv.org/abs/2505.16297v1
- Date: Thu, 22 May 2025 06:51:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.095737
- Title: ToDi: Token-wise Distillation via Fine-Grained Divergence Control
- Title(参考訳): ToDi:微細粒分散制御によるトークンワイド蒸留
- Authors: Seongryong Jung, Suwan Yoon, DongGeon Kim, Hwanhee Lee,
- Abstract要約: Token-wise Distillation (ToDi) は、Sigmoid-based weighting function を用いてトークンごとのフォワードKLとリバースKLを適応的に結合する新しい方法である。
ToDiは、均一またはより粒度の低い戦略を用いて、最近の蒸留ベースラインを一貫して上回っている。
- 参考スコア(独自算出の注目度): 3.6152232645741025
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) offer impressive performance but are impractical for resource-constrained deployment due to high latency and energy consumption. Knowledge distillation (KD) addresses this by transferring knowledge from a large teacher to a smaller student model. However, conventional KD, notably approaches like Forward KL (FKL) and Reverse KL (RKL), apply uniform divergence loss across the entire vocabulary, neglecting token-level prediction discrepancies. By investigating these representative divergences via gradient analysis, we reveal that FKL boosts underestimated tokens, while RKL suppresses overestimated ones, showing their complementary roles. Based on this observation, we propose Token-wise Distillation (ToDi), a novel method that adaptively combines FKL and RKL per token using a sigmoid-based weighting function derived from the teacher-student probability log-ratio. ToDi dynamically emphasizes the appropriate divergence for each token, enabling precise distribution alignment. We demonstrate that ToDi consistently outperforms recent distillation baselines using uniform or less granular strategies across instruction-following benchmarks. Extensive ablation studies and efficiency analysis further validate ToDi's effectiveness and practicality.
- Abstract(参考訳): 大規模言語モデル(LLM)は、優れたパフォーマンスを提供するが、高いレイテンシとエネルギー消費のため、リソース制限されたデプロイメントには実用的ではない。
知識蒸留(KD)は、大きな教師からより小さな学生モデルに知識を移すことによってこの問題に対処する。
しかしながら、従来のKD、特にフォワードKL (FKL) やリバースKL (RKL) のようなアプローチは、トークンレベルの予測の不一致を無視して、語彙全体の均一な分散損失を適用している。
FKLは過小評価トークンを増強する一方、RKLは過小評価トークンを抑制し、相補的な役割を示す。
そこで本研究では,Sigmoid-based weighting function を用いてトークン単位の FKL と RKL を適応的に組み合わせた Token-wise Distillation (ToDi) を提案する。
ToDiはトークンごとに適切な分散を動的に強調し、正確な分散アライメントを可能にする。
ToDiは命令追従ベンチマークにおける一様または小粒度の戦略を用いて,最近の蒸留ベースラインを一貫して上回っていることを実証した。
広範囲にわたるアブレーション研究と効率分析により、ToDiの有効性と実用性をさらに検証した。
関連論文リスト
- Kendall's $τ$ Coefficient for Logits Distillation [33.77389987117822]
ランクケンドール知識蒸留(RKKD)と呼ばれるKendallの$tau$係数に基づくランキング損失を提案する。
RKKDは、学生ロジットのチャネル値の順序を制約することにより、より小さな評価チャネルへの注意のバランスをとる。
我々のRKKDは, 多様な知識蒸留ベースラインの性能を向上し, 複数の教師と学生のアーキテクチャの組み合わせで幅広い改善が期待できることを示す。
論文 参考訳(メタデータ) (2024-09-26T13:21:02Z) - Multi-Granularity Semantic Revision for Large Language Model Distillation [66.03746866578274]
LLM蒸留における多粒性セマンティックリビジョン法を提案する。
シーケンスレベルでは、シーケンス修正と再生戦略を提案する。
トークンレベルでは、蒸留目的関数として、Kulback-Leibler損失を補正する分布適応クリッピングを設計する。
スパンレベルでは、シーケンスのスパン前処理を利用して、スパン内の確率相関を計算し、教師と学生の確率相関を一貫性に制約する。
論文 参考訳(メタデータ) (2024-07-14T03:51:49Z) - Direct Preference Knowledge Distillation for Large Language Models [73.50849692633953]
大規模言語モデル(LLM)のためのDPKD(Direct Preference Knowledge Distillation)を提案する。
我々はLLMのKDを、暗黙の報酬と逆のKL分岐からなる最適化と目的の2段階に再構成する。
実験と理論的解析により,KDにおける暗黙の報酬と出力選好の価値と効果を証明した。
論文 参考訳(メタデータ) (2024-06-28T09:23:40Z) - Sinkhorn Distance Minimization for Knowledge Distillation [97.64216712016571]
知識蒸留(KD)は大規模言語モデル(LLM)の圧縮に広く採用されている。
本稿では,上述のKL,RKL,JSの発散が,それぞれモード緩和,モード崩壊,モード下推定といった問題に悩まされていることを示す。
本研究では,Sinkhorn 距離を利用した Sinkhorn Knowledge Distillation (SinKD) を提案する。
論文 参考訳(メタデータ) (2024-02-27T01:13:58Z) - Robustness-Reinforced Knowledge Distillation with Correlation Distance and Network Pruning [3.1423836318272773]
知識蒸留(KD)は、効率的で軽量なモデルの性能を向上させる。
既存のKD技術のほとんどは、Kulback-Leibler(KL)の発散に依存している。
相関距離とネットワークプルーニングを利用したロバストネス強化知識蒸留(R2KD)を提案する。
論文 参考訳(メタデータ) (2023-11-23T11:34:48Z) - On-Policy Distillation of Language Models: Learning from Self-Generated
Mistakes [44.97759066341107]
一般知識蒸留(GKD)は、教師からのフィードバックを活用して、学生を自己生成出力シーケンスで訓練する。
本稿では,自動回帰言語モデルの要約,翻訳,算術的推論におけるGKDの有効性を示す。
論文 参考訳(メタデータ) (2023-06-23T17:56:26Z) - Knowledge Distillation Performs Partial Variance Reduction [93.6365393721122]
知識蒸留は'学生'モデルの性能を高めるための一般的な手法である。
知識蒸留(KD)の背後にある力学は、まだ完全には理解されていない。
我々は,KDを新しいタイプの分散還元機構として解釈できることを示す。
論文 参考訳(メタデータ) (2023-05-27T21:25:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。