論文の概要: Don't Ignore the Tail: Decoupling top-K Probabilities for Efficient Language Model Distillation
- arxiv url: http://arxiv.org/abs/2602.20816v1
- Date: Tue, 24 Feb 2026 11:54:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.737583
- Title: Don't Ignore the Tail: Decoupling top-K Probabilities for Efficient Language Model Distillation
- Title(参考訳): テイルを無視しない:効率的な言語モデル蒸留のためのトップK確率の分離
- Authors: Sayantan Dasgupta, Trevor Cohn, Timothy Baldwin,
- Abstract要約: 教師モデルのトップK予測確率と低確率予測確率の寄与を分離する新しいテールアウェア分岐を提案する。
実験により, 改良蒸留法は, デコーダモデルの事前学習と教師付き蒸留の両方において, 競争性能を発揮することが示された。
- 参考スコア(独自算出の注目度): 50.19746127327559
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The core learning signal used in language model distillation is the standard Kullback-Leibler (KL) divergence between the student and teacher distributions. Traditional KL divergence tends to be dominated by the next tokens with the highest probabilities, i.e., the teacher's modes, thereby diminishing the influence of less probable yet potentially informative components of the output distribution. We propose a new tail-aware divergence that decouples the contribution of the teacher model's top-K predicted probabilities from that of lower-probability predictions, while maintaining the same computational profile as the KL Divergence. Our decoupled approach reduces the impact of the teacher modes and, consequently, increases the contribution of the tail of the distribution. Experimental results demonstrate that our modified distillation method yields competitive performance in both pre-training and supervised distillation of decoder models across various datasets. Furthermore, the distillation process is efficient and can be performed with a modest academic budget for large datasets, eliminating the need for industry-scale computing.
- Abstract(参考訳): 言語モデルの蒸留に使用される中核的な学習信号は、学生と教師の分布の標準KL(Kullback-Leibler)ばらつきである。
伝統的なKLの発散は、最も確率が高い次のトークン、すなわち教師のモードによって支配される傾向にあり、その結果、出力分布の確率が低く、潜在的に有意な要素の影響を減少させる。
我々は,教師モデルのトップK予測確率と低確率予測の確率の寄与を分離し,KLディバージェンスと同じ計算プロファイルを維持しながら,新しいテールアウェア・ダイバージェンスを提案する。
我々の分離したアプローチは、教師モードの影響を減らし、その結果、分布の尾の寄与を増大させる。
実験結果から, 改良蒸留法は, 各種データセットにおけるデコーダモデルの事前学習および教師付き蒸留において, 競争力を発揮することが示された。
さらに, 蒸留プロセスは効率が良く, 大規模データセットの学術予算も緩やかであり, 産業規模の計算の必要性を排除できる。
関連論文リスト
- Knowledge Distillation of Uncertainty using Deep Latent Factor Model [10.148306002388196]
ガウス蒸留と呼ばれる新しい流通蒸留法を導入する。
これは、Dep Latent Factor Model (DLF)と呼ばれる特殊なガウス過程による教師のアンサンブルの分布を推定する。
複数のベンチマークデータセットを用いて,提案したガウス蒸留が既存のベースラインより優れていることを示す。
論文 参考訳(メタデータ) (2025-10-22T06:46:59Z) - ToDi: Token-wise Distillation via Fine-Grained Divergence Control [9.958797874295355]
Token-wise Distillation (ToDi) は、Sigmoid-based weighting function を用いてトークンごとのフォワードKLとリバースKLを適応的に結合する新しい方法である。
ToDiは、均一またはより粒度の低い戦略を用いて、最近の蒸留ベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2025-05-22T06:51:16Z) - A Generative Framework for Causal Estimation via Importance-Weighted Diffusion Distillation [55.53426007439564]
観察データから個別化された治療効果を推定することは因果推論における中心的な課題である。
逆確率重み付け(IPW)は、この問題に対するよく確立された解決策であるが、現代のディープラーニングフレームワークへの統合は依然として限られている。
本稿では,拡散モデルの事前学習と重み付きスコア蒸留を組み合わせた新しい生成フレームワークであるIWDDを提案する。
論文 参考訳(メタデータ) (2025-05-16T17:00:52Z) - Enhancing Knowledge Distillation of Large Language Models through Efficient Multi-Modal Distribution Alignment [10.104085497265004]
本稿では,教師モデルと学生モデルとのピーク予測の整合性を促進するために,ランキング損失に基づく知識蒸留(RLKD)を提案する。
提案手法は,教師モデルのマルチモーダル分布をよりよく学習し,様々な下流タスクにおいて顕著な性能向上をもたらす。
論文 参考訳(メタデータ) (2024-09-19T08:06:42Z) - Multi-Granularity Semantic Revision for Large Language Model Distillation [66.03746866578274]
LLM蒸留における多粒性セマンティックリビジョン法を提案する。
シーケンスレベルでは、シーケンス修正と再生戦略を提案する。
トークンレベルでは、蒸留目的関数として、Kulback-Leibler損失を補正する分布適応クリッピングを設計する。
スパンレベルでは、シーケンスのスパン前処理を利用して、スパン内の確率相関を計算し、教師と学生の確率相関を一貫性に制約する。
論文 参考訳(メタデータ) (2024-07-14T03:51:49Z) - Knowledge Distillation Performs Partial Variance Reduction [93.6365393721122]
知識蒸留は'学生'モデルの性能を高めるための一般的な手法である。
知識蒸留(KD)の背後にある力学は、まだ完全には理解されていない。
我々は,KDを新しいタイプの分散還元機構として解釈できることを示す。
論文 参考訳(メタデータ) (2023-05-27T21:25:55Z) - Churn Reduction via Distillation [54.5952282395487]
本研究は, 基礎モデルを教師として用いた蒸留によるトレーニングと, 予測的チャーンに対する明示的な制約によるトレーニングとの等価性を示す。
次に, 蒸留が近年の多くのベースラインに対する低チャーン訓練に有効であることを示す。
論文 参考訳(メタデータ) (2021-06-04T18:03:31Z) - Scaling Ensemble Distribution Distillation to Many Classes with Proxy
Targets [12.461503242570643]
emphEnsemble Distribution Distillationは、単一のモデルが、アンサンブルの予測性能と不確実性の両方を効率的にキャプチャできるアプローチである。
分類では、最大確率基準を通じてアンサンブルメンバーの出力分布の上のディリクレ分布を訓練することで達成される。
理論的には、この基準はクラス数が非常に高い大規模タスクに適用される場合の収束性に乏しい。
論文 参考訳(メタデータ) (2021-05-14T17:50:14Z) - MixKD: Towards Efficient Distillation of Large-scale Language Models [129.73786264834894]
データに依存しない蒸留フレームワークであるMixKDを提案する。
妥当な条件下では、MixKDは誤差と経験的誤差の間のギャップを小さくする。
限定的なデータ設定とアブレーションによる実験は、提案手法の利点をさらに証明している。
論文 参考訳(メタデータ) (2020-11-01T18:47:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。