論文の概要: Don't Ignore the Tail: Decoupling top-K Probabilities for Efficient Language Model Distillation
- arxiv url: http://arxiv.org/abs/2602.20816v1
- Date: Tue, 24 Feb 2026 11:54:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.737583
- Title: Don't Ignore the Tail: Decoupling top-K Probabilities for Efficient Language Model Distillation
- Title(参考訳): テイルを無視しない:効率的な言語モデル蒸留のためのトップK確率の分離
- Authors: Sayantan Dasgupta, Trevor Cohn, Timothy Baldwin,
- Abstract要約: 教師モデルのトップK予測確率と低確率予測確率の寄与を分離する新しいテールアウェア分岐を提案する。
実験により, 改良蒸留法は, デコーダモデルの事前学習と教師付き蒸留の両方において, 競争性能を発揮することが示された。
- 参考スコア(独自算出の注目度): 50.19746127327559
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The core learning signal used in language model distillation is the standard Kullback-Leibler (KL) divergence between the student and teacher distributions. Traditional KL divergence tends to be dominated by the next tokens with the highest probabilities, i.e., the teacher's modes, thereby diminishing the influence of less probable yet potentially informative components of the output distribution. We propose a new tail-aware divergence that decouples the contribution of the teacher model's top-K predicted probabilities from that of lower-probability predictions, while maintaining the same computational profile as the KL Divergence. Our decoupled approach reduces the impact of the teacher modes and, consequently, increases the contribution of the tail of the distribution. Experimental results demonstrate that our modified distillation method yields competitive performance in both pre-training and supervised distillation of decoder models across various datasets. Furthermore, the distillation process is efficient and can be performed with a modest academic budget for large datasets, eliminating the need for industry-scale computing.
- Abstract(参考訳): 言語モデルの蒸留に使用される中核的な学習信号は、学生と教師の分布の標準KL(Kullback-Leibler)ばらつきである。
伝統的なKLの発散は、最も確率が高い次のトークン、すなわち教師のモードによって支配される傾向にあり、その結果、出力分布の確率が低く、潜在的に有意な要素の影響を減少させる。
我々は,教師モデルのトップK予測確率と低確率予測の確率の寄与を分離し,KLディバージェンスと同じ計算プロファイルを維持しながら,新しいテールアウェア・ダイバージェンスを提案する。
我々の分離したアプローチは、教師モードの影響を減らし、その結果、分布の尾の寄与を増大させる。
実験結果から, 改良蒸留法は, 各種データセットにおけるデコーダモデルの事前学習および教師付き蒸留において, 競争力を発揮することが示された。
さらに, 蒸留プロセスは効率が良く, 大規模データセットの学術予算も緩やかであり, 産業規模の計算の必要性を排除できる。
関連論文リスト
- ToDi: Token-wise Distillation via Fine-Grained Divergence Control [9.958797874295355]
Token-wise Distillation (ToDi) は、Sigmoid-based weighting function を用いてトークンごとのフォワードKLとリバースKLを適応的に結合する新しい方法である。
ToDiは、均一またはより粒度の低い戦略を用いて、最近の蒸留ベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2025-05-22T06:51:16Z) - Enhancing Knowledge Distillation of Large Language Models through Efficient Multi-Modal Distribution Alignment [10.104085497265004]
本稿では,教師モデルと学生モデルとのピーク予測の整合性を促進するために,ランキング損失に基づく知識蒸留(RLKD)を提案する。
提案手法は,教師モデルのマルチモーダル分布をよりよく学習し,様々な下流タスクにおいて顕著な性能向上をもたらす。
論文 参考訳(メタデータ) (2024-09-19T08:06:42Z) - Multi-Granularity Semantic Revision for Large Language Model Distillation [66.03746866578274]
LLM蒸留における多粒性セマンティックリビジョン法を提案する。
シーケンスレベルでは、シーケンス修正と再生戦略を提案する。
トークンレベルでは、蒸留目的関数として、Kulback-Leibler損失を補正する分布適応クリッピングを設計する。
スパンレベルでは、シーケンスのスパン前処理を利用して、スパン内の確率相関を計算し、教師と学生の確率相関を一貫性に制約する。
論文 参考訳(メタデータ) (2024-07-14T03:51:49Z) - Knowledge Distillation Performs Partial Variance Reduction [93.6365393721122]
知識蒸留は'学生'モデルの性能を高めるための一般的な手法である。
知識蒸留(KD)の背後にある力学は、まだ完全には理解されていない。
我々は,KDを新しいタイプの分散還元機構として解釈できることを示す。
論文 参考訳(メタデータ) (2023-05-27T21:25:55Z) - Churn Reduction via Distillation [54.5952282395487]
本研究は, 基礎モデルを教師として用いた蒸留によるトレーニングと, 予測的チャーンに対する明示的な制約によるトレーニングとの等価性を示す。
次に, 蒸留が近年の多くのベースラインに対する低チャーン訓練に有効であることを示す。
論文 参考訳(メタデータ) (2021-06-04T18:03:31Z) - MixKD: Towards Efficient Distillation of Large-scale Language Models [129.73786264834894]
データに依存しない蒸留フレームワークであるMixKDを提案する。
妥当な条件下では、MixKDは誤差と経験的誤差の間のギャップを小さくする。
限定的なデータ設定とアブレーションによる実験は、提案手法の利点をさらに証明している。
論文 参考訳(メタデータ) (2020-11-01T18:47:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。