論文の概要: Dual-Space Knowledge Distillation with Key-Query Matching for Large Language Models with Vocabulary Mismatch
- arxiv url: http://arxiv.org/abs/2603.22056v1
- Date: Mon, 23 Mar 2026 14:53:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.734952
- Title: Dual-Space Knowledge Distillation with Key-Query Matching for Large Language Models with Vocabulary Mismatch
- Title(参考訳): 語彙ミスマッチを持つ大言語モデルに対するキークエリマッチングを用いた二重空間知識蒸留
- Authors: Stella Eva Tsiapali, Cong-Thanh Do, Kate Knill,
- Abstract要約: 大規模言語モデル(LLM)は、言語タスク全体にわたって最先端(SOTA)のパフォーマンスを達成するが、そのサイズとリソース要求のため、デプロイにはコストがかかる。
知識蒸留(KD)は、より小さな学生モデルを訓練して、より大きな教師モデルを模倣し、大きなパフォーマンス損失を伴わずに効率を向上することで、この問題に対処する。
- 参考スコア(独自算出の注目度): 2.752817022620644
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) achieve state-of-the-art (SOTA) performance across language tasks, but are costly to deploy due to their size and resource demands. Knowledge Distillation (KD) addresses this by training smaller Student models to mimic larger Teacher models, improving efficiency without significant performance loss. Dual-Space Knowledge Distillation with Cross-Model Attention (DSKD-CMA) has emerged as a SOTA method for KD between LLMs with distinct tokenizers, yet its internal workings remain largely opaque. In this work, we systematically analyse the attention mechanism of DSKD-CMA through manual token alignment probing and heatmap visualisations, revealing both strengths and limitations. Building on this, we introduce a novel method, DSKD-CMA-GA, based on Generative Adversarial (GA) learning, to address the mismatched distributions between the keys and queries computed from distinct models. Experiments show modest but consistent ROUGE-L gains in text generation quality, particularly on out-of-distribution data (+0.37 on average), narrowing the gap between cross- and same-tokenizer KD.
- Abstract(参考訳): 大規模言語モデル(LLM)は、言語タスク全体にわたって最先端(SOTA)のパフォーマンスを達成するが、そのサイズとリソース要求のため、デプロイにはコストがかかる。
知識蒸留(KD)は、より小さな学生モデルを訓練して、より大きな教師モデルを模倣し、大きなパフォーマンス損失を伴わずに効率を向上することで、この問題に対処する。
クロスモデル注意による二重空間知識蒸留(DSKD-CMA)は、異なるトークン化剤を持つLLM間でのKDのためのSOTA法として登場したが、内部構造はほとんど不透明である。
本研究では,DSKD-CMAの注意機構を手動のトークンアライメントとヒートマップの可視化によって体系的に解析し,強度と限界を明らかにした。
そこで我々は,GA学習に基づくDSKD-CMA-GAという新しい手法を導入し,異なるモデルから計算したキーとクエリ間の不一致分布に対処する。
実験では、テキスト生成の品質、特に配布外データ(平均0.37)では、穏やかだが一貫性のあるROUGE-Lが向上し、クロストケナイザKDと同一トケナイザKDのギャップを狭める。
関連論文リスト
- A Dual-Space Framework for General Knowledge Distillation of Large Language Models [98.73585104789217]
知識蒸留(KD)は、より小さなモデルに知識を移すことによって、大きな言語モデル(LLM)を圧縮する有望なソリューションである。
現在のWhite-box KDフレームワークには2つの制限がある。
我々は,教師の予測ヘッドとKDの学生モデルを統合する,二空間知識蒸留(DSKD)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-15T17:38:47Z) - CoT2Align: Cross-Chain of Thought Distillation via Optimal Transport Alignment for Language Models with Different Tokenizers [45.59157559718677]
大規模言語モデル(LLM)は、様々なNLPタスクにまたがる最先端のパフォーマンスを実現するが、高い計算コストとメモリ制約のためにデプロイメントの課題に直面している。
知識蒸留(KD)は、大きな教師モデルからより小さな学生モデルに知識を伝達する、有望なソリューションである。
CoT2Alignは,Chain-of-Thought(CoT)拡張を統合した普遍的なKDフレームワークであり,Cross-CoTアライメントを導入して推論伝達を強化する。
論文 参考訳(メタデータ) (2025-02-24T03:30:29Z) - Multi-Level Optimal Transport for Universal Cross-Tokenizer Knowledge Distillation on Language Models [81.74999702045339]
マルチレベル最適輸送(MultiLevelOT)は、普遍的なクロストケナイザー知識蒸留のための最適な輸送を促進する新しいアプローチである。
本手法は,教師と生徒のロジット分布をトークンレベルとシーケンスレベルの両方で整列する。
トークンレベルでは、MultiLevelOTはグローバルとローカルの両方の情報を統合する。
論文 参考訳(メタデータ) (2024-12-19T04:51:06Z) - Dual-Space Knowledge Distillation for Large Language Models [39.798007795604676]
KDのための2つのモデルの出力空間を統一する二空間知識蒸留(DSKD)フレームワークを提案する。
我々のフレームワークは、現在のフレームワークのようなKDの様々な距離関数と互換性があるだけでなく、語彙に関係なく、任意の2つのLLM間のKDもサポートしています。
論文 参考訳(メタデータ) (2024-06-25T07:25:15Z) - DistiLLM: Towards Streamlined Distillation for Large Language Models [53.46759297929675]
DistiLLMは自動回帰言語モデルのためのより効率的で効率的なKDフレームワークである。
DisiLLMは,(1)新しいスキューKulback-Leibler分散損失,(2)学生生成出力の効率向上を目的とした適応型オフ政治アプローチの2つのコンポーネントから構成される。
論文 参考訳(メタデータ) (2024-02-06T11:10:35Z) - Distilling Privileged Multimodal Information for Expression Recognition using Optimal Transport [46.91791643660991]
マルチモーダル表現認識のための深層学習モデルは, 制御された実験室環境において顕著な性能を示した。
これらのモデルは、トレーニングに使用されるモダリティの可用性と品質のために、荒野で苦労する。
実際には、テスト時に利用できるのはトレーニング時モダリティのサブセットのみである。
特権情報による学習により、モデルはトレーニング中にのみ利用できる追加のモダリティからデータを利用することができる。
論文 参考訳(メタデータ) (2024-01-27T19:44:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。