論文の概要: X-Token: Projection-Guided Cross-Tokenizer Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2605.21699v1
- Date: Wed, 20 May 2026 19:59:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:41.98142
- Title: X-Token: Projection-Guided Cross-Tokenizer Knowledge Distillation
- Title(参考訳): X-Token: プロジェクションガイドを用いたクロストケナイザーの知識蒸留
- Authors: Sharath Turuvekere Sreenivas, Adithyakrishna Venkatesh Hanasoge, Mingyu Yang, Ali Taghibakhshi, Saurav Muralidharan, Ashwath Aithal, Pavlo Molchanov,
- Abstract要約: クロストケナイザーの知識蒸留により、学生モデルは語彙を持つ教師から学ぶことができる。
ログベースの手法は正しい確率のみを使用し、教師の分布に完全な「暗黒の知識」を欠いている。
本稿では,これらの問題を対象とした2つの相補的損失定式化手法であるX-Tokenを提案する。
- 参考スコア(独自算出の注目度): 19.064775527374618
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cross-tokenizer knowledge distillation allows a student model to learn from teachers with incompatible vocabularies. Prior work operates on hidden states or logits; the latter is preferred as a drop-in replacement requiring no auxiliary components. Logit-based methods either use only the correct-token probability, missing the full 'dark knowledge' in the teacher's distribution, or operate on the full output distribution, relying on strict token partitioning and/or unprincipled heuristic ranking. We identify two key shortcomings of full-distribution, logit-based methods: (i) an uncommon-token failure, where critical tokens fall into the unmatched subset (e.g., Llama's 1100 multi-digit numerals under digit-splitting Qwen supervision) and are suppressed during training, reducing GSM8k from 12.89 to 2.56 compared to same-tokenizer KD from a weaker teacher; and (ii) over-conservative matching, where strict 1-to-1 matching excludes near-equivalent tokens across surface forms. These failures require distinct remedies: eliminating the partition when critical tokens are misaligned, and refining it when alignment is reliable. We propose X-Token, an approach with two complementary loss formulations targeting these issues. P-KL removes partitioning and aligns the student's distribution with the teacher's via a sparse projection matrix W (initialized from tokenizer-level string rules) to address the uncommon-token failure. H-KL retains the hybrid form while relaxing matching to align each student token with its top-ranked teacher mapping under W. Both objectives share W and extend naturally to multiple teachers. Empirically, on Llama-3.2-1B, X-Token outperforms the current state of the art GOLD by +3.82 average points with a Qwen3-4B teacher and by +0.5 with a Phi-4-Mini teacher. Further, a two-teacher setup (Phi-4-mini + Llama-3B) improves over single-teacher distillation by +1.3 points.
- Abstract(参考訳): クロストケナイザーの知識蒸留により、学生モデルは互換性のない語彙を持つ教師から学ぶことができる。
以前の作業は隠された状態やロジットで動作するが、後者は補助的なコンポーネントを必要としないドロップイン代替として好まれる。
ログベースの手法では、正しい確率のみを使用するか、教師の分布に完全な「暗黒知識」を欠くか、厳密なトークンパーティショニングや/または予想外のヒューリスティックランキングに依存する完全な出力分布を操作するかのいずれかである。
フルディストリビューション、ロジットベースの方法の2つの重要な欠点を特定します。
i) 臨界トークンが未整合部分集合(例えば、ラマの1100桁のQwenの監督下)に落下し、訓練中に抑制され、GSM8kがより弱い教師の同一トークンKDと比較して12.89から2.56に減少する非共通トークン故障。
(ii) 過保守なマッチングでは、1-to-1の厳密なマッチングは表面形状のほぼ等価なトークンを除外する。
これらの障害には、クリティカルトークンのアライメントが間違っていた場合にパーティションを削除し、アライメントが信頼できるときにそれを精査する、という、明確な修正が必要である。
本稿では,これらの問題を対象とした2つの相補的損失定式化手法であるX-Tokenを提案する。
P-KLは分割を除去し、スパースプロジェクションマトリクスW(トークンエーサレベルの文字列ルールから初期化)を介して生徒の分布を教師のものと整合させ、一般的でない障害に対処する。
H-KLは、Wの下で各学生トークンをトップランクの教師マッピングに合わせるために、マッチングを緩和しながらハイブリッド形式で保持する。
Llama-3.2-1Bでは、X-Tokenは現在の最先端のGOLDをQwen3-4Bの教師で+3.82、Phi-4-Miniの教師で+0.5で上回る。
さらに、2人の教師(Phi-4-mini + Llama-3B)が1人の教師の蒸留を+1.3ポイント改善する。
関連論文リスト
- The Extrapolation Cliff in On-Policy Distillation of Near-Deterministic Structured Outputs [52.709361620508595]
ListOPDは、パラメータの5分の1で8B-SFTベースラインで、学生をドメイン内に持ち込む。
Amazon Fashionでは、3つの事前登録テスト — 細粒度崖間隔テスト、小さなクリップのクロス予測 — がロックされた予測ウィンドウ内に落下し、グリッド解像度以下のクローズドフォーム予測に一致する小さなクリップ値が設定されている。
論文 参考訳(メタデータ) (2026-05-09T06:48:00Z) - SimCT: Recovering Lost Supervision for Cross-Tokenizer On-Policy Distillation [39.59759394378816]
オンライン蒸留は、教師と学生の予測がトークン単位で同等のトークンであると仮定する。
監視空間を拡大してこの信号を復元するSimCTを提案する。
SimCT は共有語彙 OPD と代表的クロストケナイザベースラインに対して一貫した利得を示す。
論文 参考訳(メタデータ) (2026-05-08T13:16:17Z) - Revisiting On-Policy Distillation: Empirical Failure Modes and Simple Fixes [31.95045602299568]
オンライン蒸留(OPD)は,教師の学習履歴ではなく,学生が生み出すロールアウトに対するフィードバックを評価するため,大規模言語モデル(LLM)のポストトレーニングにアピールしている。
推定器と実装側からOPDを再検討する。
不均衡な1-token信号、学生が生成した接頭辞に対する教師の信頼できない指導、トークン化器や特殊-tokenミスマッチによる歪みの3つの失敗モードを同定する。
論文 参考訳(メタデータ) (2026-03-26T15:35:59Z) - A Token is Worth over 1,000 Tokens: Efficient Knowledge Distillation through Low-Rank Clone [41.9829555690118]
低ランククローン(Lol-Rank Clone、LRC)は、強力な教師モデルによる行動等価性を目指すSLMを構築するための効率的な事前学習手法である。
LRCは、20Bトークンしか使用せず、1000倍以上のトレーニング効率を達成しながら、何十兆ものトークンでトレーニングされた最先端のモデルと一致または超えている。
論文 参考訳(メタデータ) (2025-05-19T07:10:42Z) - Universal Cross-Tokenizer Distillation via Approximate Likelihood Matching [16.385782508179364]
蒸留は、Large Language Model (LLM) の教師から学生のLLMに知識を移すことで顕著な成功を収めた。
現在の蒸留法では、教師と学生の間で同様のトークン化剤が必要であり、その適用性は教師と学生のペアのごく一部に限られている。
そこで本研究では, クロストケナイザー蒸留法を開発した。
本手法は, 従来手法よりも高い性能を示しつつ, 基本的に異なるトークン化剤間で有効蒸留を可能にする最初の方法である。
論文 参考訳(メタデータ) (2025-03-25T21:44:10Z) - Enhancing Cross-Tokenizer Knowledge Distillation with Contextual Dynamical Mapping [85.48043537327258]
コンテキスト動的マッピング(CDM)は、新しいクロストケナイザー蒸留フレームワークである。
文脈情報を用いてシーケンスアライメントの精度を高め、語彙マッピングを動的に改善する。
本手法は, 種々のベンチマークにおいて, 既存のクロストケナイザー蒸留ベースラインに対して有意な優位性を示す。
論文 参考訳(メタデータ) (2025-02-16T12:46:07Z) - Rho-1: Not All Tokens Are What You Need [132.31428897792114]
以前の言語モデル事前学習手法は、すべてのトレーニングトークンに次トーケン予測損失を均一に適用した。
Rho-1 は選択言語モデリング (SLM) を採用しており、所望の分布に合わせて有用なトークンを選択的に訓練する。
15B OpenWebMathコーパスで継続事前トレーニングを行うと、Rho-1は9つの数学タスクで最大30%のショット精度で絶対的に改善する。
論文 参考訳(メタデータ) (2024-04-11T17:52:01Z) - JointMatch: A Unified Approach for Diverse and Collaborative
Pseudo-Labeling to Semi-Supervised Text Classification [65.268245109828]
半教師付きテキスト分類(SSTC)は、ラベルのないデータを活用する能力によって注目を集めている。
擬似ラベルに基づく既存のアプローチは、擬似ラベルバイアスと誤り蓄積の問題に悩まされる。
我々は、最近の半教師付き学習からアイデアを統一することでこれらの課題に対処する、SSTCの総合的なアプローチであるJointMatchを提案する。
論文 参考訳(メタデータ) (2023-10-23T05:43:35Z) - Shrinking Class Space for Enhanced Certainty in Semi-Supervised Learning [59.44422468242455]
そこで我々はShrinkMatchと呼ばれる新しい手法を提案し、不確実なサンプルを学習する。
それぞれの不確実なサンプルに対して、元の Top-1 クラスを単に含むスランク類空間を適応的に求める。
次に、スランク空間における強と弱に強化された2つのサンプル間の整合正則化を課し、識別的表現を試みます。
論文 参考訳(メタデータ) (2023-08-13T14:05:24Z) - Fair and skill-diverse student group formation via constrained k-way
graph partitioning [65.29889537564455]
本研究は、公正かつ多様な学生グループ形成のための教師なしアルゴリズムを導入する。
学生のスキルセットは、ラプラシア固有写像を用いて、コースマークデータの教師なし次元削減を用いて決定される。
この問題は制約付きグラフ分割問題として定式化され、各グループのスキルセットの多様性が最大化される。
論文 参考訳(メタデータ) (2023-01-12T14:02:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。