論文の概要: DWA-KD: Dual-Space Weighting and Time-Warped Alignment for Cross-Tokenizer Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2602.21669v1
- Date: Wed, 25 Feb 2026 08:04:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.751326
- Title: DWA-KD: Dual-Space Weighting and Time-Warped Alignment for Cross-Tokenizer Knowledge Distillation
- Title(参考訳): DWA-KD:クロストケナイザーの知識蒸留のための二重空間重み付けと時分割アライメント
- Authors: Duc Trung Vu, Pham Khanh Chi, Dat Phi Van, Linh Ngo Van, Sang Dinh, Trung Le,
- Abstract要約: 本稿では,新しいクロストケナイザー蒸留フレームワークであるDWA-KDについて紹介する。
トークンレベルでは、DWA-KDは教師表現を学生空間にマッピングし、その逆をKL(Kullback-Leibler divergence)を通して二重空間KDを実行する。
シーケンスレベルでは、DWA-KDは、埋め込み層と最終隠れ状態層の両方にソフト・ダイナミック・タイム・ウォーピング(Soft Dynamic Time Warping、ソフト・DTW)を適用し、教師と学生のシーケンス間の語彙的および文脈的意味論の堅牢なアライメントを可能にする。
- 参考スコア(独自算出の注目度): 13.129087612229176
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge Distillation (KD) has emerged as a crucial technique for compressing Large Language Models (LLMs). Although existing cross-tokenizer KD methods have made notable progress, their effectiveness remains constrained by suboptimal alignment across sequence and vocabulary levels. To address these limitations, we introduce Dual-Space Weighting and Time-Warped Alignment (DWA-KD), a novel cross-tokenizer distillation framework that enhances token-wise distillation through dual-space entropy-based weighting and achieves precise sequence-level alignment by leveraging both lexical and semantic information. At the token level, DWA-KD maps teacher representations into the student space and vice versa, performing dual-space KD via Kullback-Leibler divergence (KL). The process is modulated by dual-space weights that up-weight tokens where the student is uncertain and the teacher is confident, thereby focusing learning on informative tokens rather than treating all positions equally. At the sequence level, DWA-KD applies Soft Dynamic Time Warping (Soft-DTW) to both the embedding and final hidden-state layers, enabling robust alignment of lexical and contextual semantics between teacher and student sequences. Extensive experiments across diverse NLP benchmarks demonstrate that DWA-KD outperforms state-of-the-art KD baselines, while ablation studies confirm the complementary contributions of entropy-based token weighting and embedding and final hidden state layer Soft-DTW alignment.
- Abstract(参考訳): 知識蒸留(KD)は,Large Language Models (LLMs) を圧縮するための重要な手法である。
既存のクロストケナイザーKD法は顕著な進歩を遂げているが、その効果は、配列と語彙レベルをまたいだ最適以下のアライメントによって制限されている。
両空間エントロピーに基づく重み付けによるトークンワイズ蒸留を強化し,語彙情報と意味情報の両方を活用することで,高精度なシーケンスレベルのアライメントを実現する,新しいクロストケナイザ蒸留フレームワークであるDual-Space Weighting and Time-Warped Alignment (DWA-KD)を導入する。
トークンレベルでは、DWA-KDは教師表現を学生空間にマッピングし、その逆をKL(Kullback-Leibler divergence)を通して二重空間KDを実行する。
このプロセスは、生徒が不確実で教師が自信を持つような重み付けによって変調され、全てのポジションを平等に扱うのではなく、情報的トークンに学習を集中させる。
シーケンスレベルでは、DWA-KDは、埋め込み層と最終隠れ状態層の両方にソフト・ダイナミック・タイム・ウォーピング(Soft Dynamic Time Warping、ソフト・DTW)を適用し、教師と学生のシーケンス間の語彙的および文脈的意味論の堅牢なアライメントを可能にする。
多様なNLPベンチマークによる大規模な実験により、DWA-KDは最先端のKDベースラインよりも優れており、アブレーション研究はエントロピーベースのトークン重み付けと埋め込みおよび最終隠れ状態層Soft-DTWアライメントの相補的寄与を裏付けている。
関連論文リスト
- SpecKD: Speculative Decoding for Effective Knowledge Distillation of LLMs [7.838632409628936]
Speculative Knowledge Distillation (SpecKD)は、動的でトークンレベルのゲーティング機構を導入した、新しいプラグアンドプレイフレームワークである。
SpecKDは、強い知識蒸留ベースラインを一貫して大幅に上回る。
論文 参考訳(メタデータ) (2025-10-28T03:02:22Z) - A Dual-Space Framework for General Knowledge Distillation of Large Language Models [98.73585104789217]
知識蒸留(KD)は、より小さなモデルに知識を移すことによって、大きな言語モデル(LLM)を圧縮する有望なソリューションである。
現在のWhite-box KDフレームワークには2つの制限がある。
我々は,教師の予測ヘッドとKDの学生モデルを統合する,二空間知識蒸留(DSKD)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-15T17:38:47Z) - CoT2Align: Cross-Chain of Thought Distillation via Optimal Transport Alignment for Language Models with Different Tokenizers [45.59157559718677]
大規模言語モデル(LLM)は、様々なNLPタスクにまたがる最先端のパフォーマンスを実現するが、高い計算コストとメモリ制約のためにデプロイメントの課題に直面している。
知識蒸留(KD)は、大きな教師モデルからより小さな学生モデルに知識を伝達する、有望なソリューションである。
CoT2Alignは,Chain-of-Thought(CoT)拡張を統合した普遍的なKDフレームワークであり,Cross-CoTアライメントを導入して推論伝達を強化する。
論文 参考訳(メタデータ) (2025-02-24T03:30:29Z) - Enhancing Cross-Tokenizer Knowledge Distillation with Contextual Dynamical Mapping [85.48043537327258]
コンテキスト動的マッピング(CDM)は、新しいクロストケナイザー蒸留フレームワークである。
文脈情報を用いてシーケンスアライメントの精度を高め、語彙マッピングを動的に改善する。
本手法は, 種々のベンチマークにおいて, 既存のクロストケナイザー蒸留ベースラインに対して有意な優位性を示す。
論文 参考訳(メタデータ) (2025-02-16T12:46:07Z) - Quick Dense Retrievers Consume KALE: Post Training Kullback Leibler
Alignment of Embeddings for Asymmetrical dual encoders [89.29256833403169]
我々は,高密度検索手法の推論効率を高めるための効率的かつ正確な手法であるKulback Leibler Alignment of Embeddings (KALE)を紹介した。
KALEは、バイエンコーダトレーニング後の従来の知識蒸留を拡張し、完全なリトレーニングやインデックス生成なしに効率的なクエリエンコーダ圧縮を可能にする。
KALEと非対称トレーニングを用いることで、3倍高速な推論を持つにもかかわらず、DistilBERTの性能を超えるモデルを生成することができる。
論文 参考訳(メタデータ) (2023-03-31T15:44:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。