論文の概要: Cross-Tokenizer LLM Distillation through a Byte-Level Interface
- arxiv url: http://arxiv.org/abs/2604.07466v1
- Date: Wed, 08 Apr 2026 18:05:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.492841
- Title: Cross-Tokenizer LLM Distillation through a Byte-Level Interface
- Title(参考訳): マイクロレベルインタフェースによるクロスTokenizer LLM蒸留
- Authors: Avyav Kumar Singh, Yen-Chen Wu, Alexandru Cioba, Alberto Bernacchia, Davide Buffelli,
- Abstract要約: クロストケナイザー蒸留(Cross-tokenizer distillation、CTD)とは、教師が異なるトークンを用いた場合の知識を学生言語モデルに伝達することである。
本稿では,トークン化器間の共通インターフェース(バイトレベル)でCTDを動作させる,Byte-Level Distillation (BLD) と呼ばれるシンプルだが効果的なベースラインを提案する。
- 参考スコア(独自算出の注目度): 47.989175659742294
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-tokenizer distillation (CTD), the transfer of knowledge from a teacher to a student language model when the two use different tokenizers, remains a largely unsolved problem. Existing approaches rely on heuristic strategies to align mismatched vocabularies, introducing considerable complexity. In this paper, we propose a simple but effective baseline called Byte-Level Distillation (BLD) which enables CTD by operating at a common interface across tokenizers: the byte level. In more detail, we convert the teacher's output distribution to byte-level probabilities, attach a lightweight byte-level decoder head to the student, and distill through this shared byte-level interface. Despite its simplicity, BLD performs competitively with--and on several benchmarks surpasses--significantly more sophisticated CTD methods, across a range of distillation tasks with models from 1B to 8B parameters. Our results suggest that the byte level is a natural common ground for cross-tokenizer knowledge transfer, while also highlighting that consistent improvements across all tasks and benchmarks remain elusive, underscoring that CTD is still an open problem.
- Abstract(参考訳): クロストケナイザー蒸留(CTD, Cross-tokenizer distillation)とは、教師が異なるトークンを用いた場合の知識を学生言語モデルに伝達することである。
既存のアプローチは、ミスマッチした語彙を調整するためのヒューリスティックな戦略に依存しており、かなりの複雑さをもたらしている。
本稿では,トークン化器間の共通インターフェース(バイトレベル)でCTDを動作させる,Byte-Level Distillation (BLD) と呼ばれるシンプルだが効果的なベースラインを提案する。
より詳しくは、教師の出力分布をバイトレベルの確率に変換し、軽量のバイトレベルのデコーダヘッドを学生に取り付け、この共有バイトレベルのインタフェースを精算する。
その単純さにもかかわらず、BLDはいくつかのベンチマークを上回り、より洗練されたCTD法、特に1Bから8Bパラメータのモデルを含む様々な蒸留タスクを競合的に実行している。
以上の結果から,バイトレベルはクロストケナイザの知識伝達の自然な共通基盤であると同時に,すべてのタスクやベンチマークにおける一貫した改善が引き続き解決可能であり,CTDが依然としてオープンな問題であることを示す。
関連論文リスト
- Distilling Token-Trained Models into Byte-Level Models [16.418597104895245]
バイトコード言語モデル(BLM)は、トークン化を超えて言語モデルをスケールするための有望な方向として登場した。
既存のBLMは1兆バイトのバイトをゼロからトレーニングする必要があるため、非常に高価である。
本稿では,既存のトークン学習型LCMをBLMに変換しつつ,同等の機能を維持しながら効率よく蒸留法を提案する。
論文 参考訳(メタデータ) (2026-02-01T04:16:49Z) - Bolmo: Byteifying the Next Generation of Language Models [115.32940292418463]
競合する完全オープンなバイトレベル言語モデル(LM)の最初のファミリーであるBolmoを紹介します。
バイト化はサブワードトークン化の限界を克服する。
我々はBolmoがサブワードレベルのLMと競合する推論速度を実現できることを示す。
論文 参考訳(メタデータ) (2025-12-17T16:46:11Z) - Learning what to say and how precisely: Efficient Communication via Differentiable Discrete Communication Learning [14.221641613518633]
離散メッセージのエンドツーエンド最適化のためのフレームワークを開発する。
タスク性能の整合や超過を図りながら、帯域幅を桁違いに減らすことを示す。
論文 参考訳(メタデータ) (2025-11-03T13:16:57Z) - Multi-Level Optimal Transport for Universal Cross-Tokenizer Knowledge Distillation on Language Models [81.74999702045339]
マルチレベル最適輸送(MultiLevelOT)は、普遍的なクロストケナイザー知識蒸留のための最適な輸送を促進する新しいアプローチである。
本手法は,教師と生徒のロジット分布をトークンレベルとシーケンスレベルの両方で整列する。
トークンレベルでは、MultiLevelOTはグローバルとローカルの両方の情報を統合する。
論文 参考訳(メタデータ) (2024-12-19T04:51:06Z) - From LLMs to Actions: Latent Codes as Bridges in Hierarchical Robot Control [58.72492647570062]
我々は,制限を克服する代替アーキテクチャとして,Learningable Latent Codes as Bridges (LCB)を導入した。
methodoutperforms baselines that leverage pure language as the interface layer on tasks that requires reasoning and multi-step behaviors。
論文 参考訳(メタデータ) (2024-05-08T04:14:06Z) - One Train for Two Tasks: An Encrypted Traffic Classification Framework
Using Supervised Contrastive Learning [18.63871240173137]
CLE-TFE(Contrastive Learning Enhanced Temporal Fusion)と呼ばれる効果的なモデルを提案する。
特に、教師付きコントラスト学習を利用して、パケットレベルおよびフローレベル表現を強化する。
また、パケットレベルとフローレベルの分類タスクを1つのトレーニングで同時に行うクロスレベルマルチタスク学習を提案する。
論文 参考訳(メタデータ) (2024-02-12T09:10:09Z) - Cross-Modal Multi-Tasking for Speech-to-Text Translation via Hard
Parameter Sharing [72.56219471145232]
ハードパラメータ共有を伴うST/MTマルチタスクフレームワークを提案する。
本手法は,事前処理による音声文のモダリティギャップを低減する。
我々は,注意エンコーダ・デコーダ,コネクショニスト時間分類(CTC),トランスデューサ,共同CTC/アテンションモデルを平均+0.5BLEUで改善することを示す。
論文 参考訳(メタデータ) (2023-09-27T17:48:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。