論文の概要: Universal Cross-Tokenizer Distillation via Approximate Likelihood Matching
- arxiv url: http://arxiv.org/abs/2503.20083v3
- Date: Thu, 22 May 2025 09:46:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:47.75366
- Title: Universal Cross-Tokenizer Distillation via Approximate Likelihood Matching
- Title(参考訳): 近似類似マッチングによるユニバーサルクロストケナイザー蒸留
- Authors: Benjamin Minixhofer, Ivan Vulić, Edoardo Maria Ponti,
- Abstract要約: 蒸留は、Large Language Model (LLM) の教師から学生のLLMに知識を移すことで顕著な成功を収めた。
現在の蒸留法では、教師と学生の間で同様のトークン化剤が必要であり、その適用性は教師と学生のペアのごく一部に限られている。
そこで本研究では, クロストケナイザー蒸留法を開発した。
本手法は, 従来手法よりも高い性能を示しつつ, 基本的に異なるトークン化剤間で有効蒸留を可能にする最初の方法である。
- 参考スコア(独自算出の注目度): 17.597293085255075
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Distillation has shown remarkable success in transferring knowledge from a Large Language Model (LLM) teacher to a student LLM. However, current distillation methods require similar tokenizers between the teacher and the student, restricting their applicability to only a small subset of teacher-student pairs. In this work, we develop a principled cross-tokenizer distillation method to solve this crucial deficiency. Our method is the first to enable effective distillation across fundamentally different tokenizers, while also substantially outperforming prior methods in all other cases. We verify the efficacy of our method on three distinct use cases. First, we show that viewing tokenizer transfer as self-distillation enables unprecedentedly effective transfer across tokenizers, including rapid transfer of subword models to the byte-level. Transferring different models to the same tokenizer also enables ensembling to boost performance. Secondly, we distil a large maths-specialised LLM into a small general-purpose model with a different tokenizer, achieving competitive maths problem-solving performance. Thirdly, we use our method to train state-of-the-art embedding prediction hypernetworks for training-free tokenizer transfer. Our results unlock an expanded range of teacher-student pairs for distillation, enabling new ways to adapt and enhance interaction between LLMs.
- Abstract(参考訳): 蒸留は、Large Language Model (LLM) の教師から学生のLLMに知識を移すことで顕著な成功を収めた。
しかし、現在の蒸留法では、教師と学生の間で同様のトークン化剤が必要であり、その適用性は教師と学生のペアのごく一部に限られている。
本研究は, 本課題を解決するために, クロストケナイザー蒸留法を開発した。
本手法は, 従来手法よりも高い性能を示しつつ, 基本的に異なるトークン化剤間で有効蒸留を可能にする最初の方法である。
3つの異なる症例に対して本法の有効性を検証した。
まず,自己蒸留としてのトークン化器の移動は,サブワードモデルからバイトレベルへの高速な転送を含む,トークン化器間の移動を前例のないほど効果的に行うことができることを示す。
異なるモデルを同じトークン化器に転送することで、アンサンブルによってパフォーマンスが向上する。
第二に、大きな数学を専門とするLLMを異なるトークン化器を持つ小さな汎用モデルに分解し、競争力のある数学の問題解決性能を実現する。
第3に,我々の手法を用いて,最先端の埋込み予測ハイパーネットワークをトレーニングフリーなトークン化器転送に適用する。
以上の結果から,LLM間の相互作用に適応し,促進する新たな方法が得られた。
関連論文リスト
- Swapped Logit Distillation via Bi-level Teacher Alignment [32.746586492281104]
知識蒸留(KD)は、大きな(教師)ネットワークからより小さな(学生)ネットワークへ知識を伝達することで、ネットワーク容量を圧縮する
スワップロジット蒸留(SLD)によるロジット蒸留を提案する。
従来の最先端手法では,SLDが常に最良であることがわかった。
論文 参考訳(メタデータ) (2025-04-27T15:52:07Z) - Warmup-Distill: Bridge the Distribution Mismatch between Teacher and Student before Knowledge Distillation [84.38105530043741]
本稿では, 学生の蒸留を教員の蒸留と整合させて, 蒸留に先立って行うワームアップ蒸留法を提案する。
7つのベンチマークの実験は、ウォームアップ・ディスティルが蒸留に適したウォームアップの学生を提供することを示した。
論文 参考訳(メタデータ) (2025-02-17T12:58:12Z) - Enhancing Cross-Tokenizer Knowledge Distillation with Contextual Dynamical Mapping [85.48043537327258]
コンテキスト動的マッピング(CDM)は、新しいクロストケナイザー蒸留フレームワークである。
文脈情報を用いてシーケンスアライメントの精度を高め、語彙マッピングを動的に改善する。
本手法は, 種々のベンチマークにおいて, 既存のクロストケナイザー蒸留ベースラインに対して有意な優位性を示す。
論文 参考訳(メタデータ) (2025-02-16T12:46:07Z) - Multi-Granularity Semantic Revision for Large Language Model Distillation [66.03746866578274]
LLM蒸留における多粒性セマンティックリビジョン法を提案する。
シーケンスレベルでは、シーケンス修正と再生戦略を提案する。
トークンレベルでは、蒸留目的関数として、Kulback-Leibler損失を補正する分布適応クリッピングを設計する。
スパンレベルでは、シーケンスのスパン前処理を利用して、スパン内の確率相関を計算し、教師と学生の確率相関を一貫性に制約する。
論文 参考訳(メタデータ) (2024-07-14T03:51:49Z) - Enhancing In-Context Learning via Implicit Demonstration Augmentation [26.78252788538567]
In-context Learning (ICL) は、事前訓練された言語モデルがパラメータを更新せずに未確認入力の予測を行うことを可能にする。
その可能性にもかかわらず、ICLの有効性はデモの質、量、置換に大きく依存している。
本稿では,この課題に初めて挑戦する。
論文 参考訳(メタデータ) (2024-06-27T05:25:46Z) - Hybrid Distillation: Connecting Masked Autoencoders with Contrastive
Learners [102.20090188997301]
コントラスト学習(CL)とマスクド画像モデリング(MIM)の強みを組み合わせたモデルを得る方法について検討する。
識別と多様性の両立を図るため, 単純かつ効果的なハイブリッド蒸留戦略を提案する。
実験の結果、Hybrid Distillは異なるベンチマークで優れた性能が得られることが証明された。
論文 参考訳(メタデータ) (2023-06-28T02:19:35Z) - HomoDistil: Homotopic Task-Agnostic Distillation of Pre-trained
Transformers [49.79405257763856]
本稿では,タスク非依存蒸留に焦点をあてる。
これは、計算コストとメモリフットプリントを小さくして、様々なタスクで簡単に微調整できるコンパクトな事前訓練モデルを生成する。
本稿では, 反復刈り込みによる新規なタスク非依存蒸留法であるHomotopic Distillation (HomoDistil)を提案する。
論文 参考訳(メタデータ) (2023-02-19T17:37:24Z) - It's All in the Head: Representation Knowledge Distillation through
Classifier Sharing [0.29360071145551075]
教師と学生間の分類器共有による表現蒸留の促進のための2つのアプローチを提案する。
提案手法は, 画像分類, きめ細かい分類, 顔認証など, 様々なデータセットやタスクに対して有効であることを示す。
論文 参考訳(メタデータ) (2022-01-18T13:10:36Z) - Deep Semi-supervised Knowledge Distillation for Overlapping Cervical
Cell Instance Segmentation [54.49894381464853]
本稿では, ラベル付きデータとラベルなしデータの両方を, 知識蒸留による精度向上に活用することを提案する。
摂動に敏感なサンプルマイニングを用いたマスク誘導型平均教師フレームワークを提案する。
実験の結果,ラベル付きデータのみから学習した教師付き手法と比較して,提案手法は性能を著しく向上することがわかった。
論文 参考訳(メタデータ) (2020-07-21T13:27:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。