論文の概要: Cross-Tokenizer Distillation via Approximate Likelihood Matching
- arxiv url: http://arxiv.org/abs/2503.20083v1
- Date: Tue, 25 Mar 2025 21:44:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-27 13:21:04.114004
- Title: Cross-Tokenizer Distillation via Approximate Likelihood Matching
- Title(参考訳): 近似類似マッチングによるクロストケナイザー蒸留
- Authors: Benjamin Minixhofer, Edoardo Maria Ponti, Ivan Vulić,
- Abstract要約: 我々はこの欠乏を解消するためのクロストケナイザー蒸留法を開発した。
本手法は,次回の予測損失を伴わずにクロストケナイザー蒸留を可能にする最初の方法である。
本研究は,LLMの適応性向上と,LLM間の相互作用の強化に大きく貢献する。
- 参考スコア(独自算出の注目度): 17.597293085255075
- License:
- Abstract: Distillation has shown remarkable success in transferring knowledge from a Large Language Model (LLM) teacher to a student LLM. However, current distillation methods predominantly require the same tokenizer between the teacher and the student, restricting their applicability to only a small subset of teacher-student pairs. In this work, we develop a cross-tokenizer distillation method to solve this crucial deficiency. Our method is the first to enable cross-tokenizer distillation without a next-token prediction loss as the main objective, instead purely maximizing the student predictions' similarity to the teacher's predictions (known as pure distillation), while also being robust to large mismatches between the teacher and the student tokenizer function and vocabulary. Empirically, our method enables substantially improved performance as tested on two use cases. First, we show that viewing tokenizer transfer as self-distillation enables unprecedently effective transfer across tokenizers. We transfer (subword-level) Llama and Gemma models to byte-level tokenization more effectively than prior methods transfer to a similar subword tokenizer under a comparable training budget. Transferring different base models to the same tokenizer also enables ensembling them (e.g., via averaging their predicted probabilities) which boosts performance. Second, we use our cross-tokenizer distillation method to distil a large maths-specialized LLM into a smaller model, achieving competitive maths problem-solving performance. Overall, our results make substantial strides toward better adaptability and enhanced interaction between different LLMs.
- Abstract(参考訳): 蒸留は、Large Language Model (LLM) の教師から学生のLLMに知識を移すことで顕著な成功を収めた。
しかし、現在の蒸留法は、主に教師と学生の間で同じトークン化剤を必要としており、その適用性は教師と学生のペアのごく一部に限られている。
本研究では,この重要な欠陥を解決するため,クロストケナイザー蒸留法を開発した。
本手法は, 学生の予測と教師の予測(純粋蒸留)との類似性を純粋に最大化しつつ, 教師と学生のトークン化機能と語彙とのミスマッチが強く, 次点の予測損失を主目的とせずに, クロストケナイザーの蒸留を可能にする最初の方法である。
実験により,本手法は2つのユースケースでテストした結果,大幅な性能向上を実現した。
まず, トークン化器を自己蒸留として見ることで, トークン化器間の非効率な転送が可能となることを示す。
我々は(サブワードレベルの)LlamaとGemmaモデルを、同等のトレーニング予算の下で類似のサブワードトークン化器に転送する以前の方法よりも、バイトレベルのトークン化に効果的に転送する。
異なるベースモデルを同じトークンライザに転送することで、パフォーマンスを高めることができる(例えば、予測される確率を平均化することで)。
第2に, クロストケナイザー蒸留法を用いて, 大規模数学専門のLLMをより小さなモデルに分解し, 競争力のある数学の問題解決性能を実現する。
本研究の結果は, 適応性の向上と, 異なるLLM間の相互作用の強化に大きく貢献している。
関連論文リスト
- Warmup-Distill: Bridge the Distribution Mismatch between Teacher and Student before Knowledge Distillation [84.38105530043741]
本稿では, 学生の蒸留を教員の蒸留と整合させて, 蒸留に先立って行うワームアップ蒸留法を提案する。
7つのベンチマークの実験は、ウォームアップ・ディスティルが蒸留に適したウォームアップの学生を提供することを示した。
論文 参考訳(メタデータ) (2025-02-17T12:58:12Z) - Enhancing Cross-Tokenizer Knowledge Distillation with Contextual Dynamical Mapping [85.48043537327258]
コンテキスト動的マッピング(CDM)は、新しいクロストケナイザー蒸留フレームワークである。
文脈情報を用いてシーケンスアライメントの精度を高め、語彙マッピングを動的に改善する。
本手法は, 種々のベンチマークにおいて, 既存のクロストケナイザー蒸留ベースラインに対して有意な優位性を示す。
論文 参考訳(メタデータ) (2025-02-16T12:46:07Z) - Multi-Granularity Semantic Revision for Large Language Model Distillation [66.03746866578274]
LLM蒸留における多粒性セマンティックリビジョン法を提案する。
シーケンスレベルでは、シーケンス修正と再生戦略を提案する。
トークンレベルでは、蒸留目的関数として、Kulback-Leibler損失を補正する分布適応クリッピングを設計する。
スパンレベルでは、シーケンスのスパン前処理を利用して、スパン内の確率相関を計算し、教師と学生の確率相関を一貫性に制約する。
論文 参考訳(メタデータ) (2024-07-14T03:51:49Z) - Enhancing In-Context Learning via Implicit Demonstration Augmentation [26.78252788538567]
In-context Learning (ICL) は、事前訓練された言語モデルがパラメータを更新せずに未確認入力の予測を行うことを可能にする。
その可能性にもかかわらず、ICLの有効性はデモの質、量、置換に大きく依存している。
本稿では,この課題に初めて挑戦する。
論文 参考訳(メタデータ) (2024-06-27T05:25:46Z) - Hybrid Distillation: Connecting Masked Autoencoders with Contrastive
Learners [102.20090188997301]
コントラスト学習(CL)とマスクド画像モデリング(MIM)の強みを組み合わせたモデルを得る方法について検討する。
識別と多様性の両立を図るため, 単純かつ効果的なハイブリッド蒸留戦略を提案する。
実験の結果、Hybrid Distillは異なるベンチマークで優れた性能が得られることが証明された。
論文 参考訳(メタデータ) (2023-06-28T02:19:35Z) - HomoDistil: Homotopic Task-Agnostic Distillation of Pre-trained
Transformers [49.79405257763856]
本稿では,タスク非依存蒸留に焦点をあてる。
これは、計算コストとメモリフットプリントを小さくして、様々なタスクで簡単に微調整できるコンパクトな事前訓練モデルを生成する。
本稿では, 反復刈り込みによる新規なタスク非依存蒸留法であるHomotopic Distillation (HomoDistil)を提案する。
論文 参考訳(メタデータ) (2023-02-19T17:37:24Z) - It's All in the Head: Representation Knowledge Distillation through
Classifier Sharing [0.29360071145551075]
教師と学生間の分類器共有による表現蒸留の促進のための2つのアプローチを提案する。
提案手法は, 画像分類, きめ細かい分類, 顔認証など, 様々なデータセットやタスクに対して有効であることを示す。
論文 参考訳(メタデータ) (2022-01-18T13:10:36Z) - Deep Semi-supervised Knowledge Distillation for Overlapping Cervical
Cell Instance Segmentation [54.49894381464853]
本稿では, ラベル付きデータとラベルなしデータの両方を, 知識蒸留による精度向上に活用することを提案する。
摂動に敏感なサンプルマイニングを用いたマスク誘導型平均教師フレームワークを提案する。
実験の結果,ラベル付きデータのみから学習した教師付き手法と比較して,提案手法は性能を著しく向上することがわかった。
論文 参考訳(メタデータ) (2020-07-21T13:27:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。