論文の概要: Cross-Tokenizer Likelihood Scoring Algorithms for Language Model Distillation
- arxiv url: http://arxiv.org/abs/2512.14954v1
- Date: Tue, 16 Dec 2025 22:49:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:26.802914
- Title: Cross-Tokenizer Likelihood Scoring Algorithms for Language Model Distillation
- Title(参考訳): 言語モデル蒸留のためのクロストケナイザ類似スコーリングアルゴリズム
- Authors: Buu Phan, Ashish Khisti, Karen Ullrich,
- Abstract要約: クロストークン化確率スコアリングのための確率的フレームワークを作成する。
本手法はGSM8Kの精度を現状よりも2%以上向上させる。
- 参考スコア(独自算出の注目度): 19.671138538152213
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Computing next-token likelihood ratios between two language models (LMs) is a standard task in training paradigms such as knowledge distillation. Since this requires both models to share the same probability space, it becomes challenging when the teacher and student LMs use different tokenizers, for instance, when edge-device deployment necessitates a smaller vocabulary size to lower memory overhead. In this work, we address this vocabulary misalignment problem by uncovering an implicit recursive structure in the commonly deployed Byte-Pair Encoding (BPE) algorithm and utilizing it to create a probabilistic framework for cross-tokenizer likelihood scoring. Our method enables sequence likelihood evaluation for vocabularies different from the teacher model native tokenizer, addressing two specific scenarios: when the student vocabulary is a subset of the teacher vocabulary, and the general case where it is arbitrary. In the subset regime, our framework computes exact likelihoods and provides next-token probabilities for sequential sampling with only O(1) model evaluations per token. When used for distillation, this yields up to a 12% reduction in memory footprint for the Qwen2.5-1.5B model while also improving baseline performance up to 4% on the evaluated tasks. For the general case, we introduce a rigorous lossless procedure that leverages BPE recursive structure, complemented by a fast approximation that keeps large-vocabulary settings practical. Applied to distillation for mathematical reasoning, our approach improves GSM8K accuracy by more than 2% over the current state of the art.
- Abstract(参考訳): 2つの言語モデル(LM)間の次の確率比の計算は、知識蒸留のような訓練パラダイムにおける標準課題である。
これは両方のモデルで同じ確率空間を共有する必要があるため、教師と学生のLMが異なるトークンを使用する場合、例えば、エッジデバイスデプロイメントがメモリオーバーヘッドを減らすためにより小さな語彙サイズを必要とする場合など、困難になる。
本研究では、一般に展開されているByte-Pair Encoding (BPE)アルゴリズムにおいて暗黙的な再帰構造を発見し、それを利用して、クロストケナイザの精度評価のための確率的フレームワークを作成することで、このボキャブラリミスアライメント問題に対処する。
本手法は,教師モデルネイティブ・トークンーザとは異なる語彙のシーケンス精度の評価を可能にし,学生語彙が教師語彙のサブセットである場合と,それが任意である場合の一般的な場合の2つのシナリオに対処する。
サブセットシステムでは,トークン単位のO(1)モデル評価のみを用いて,正確な確率を計算し,シーケンシャルサンプリングのための次の確率を提供する。
蒸留に使用する場合、Qwen2.5-1.5Bモデルのメモリフットプリントを最大12%削減すると同時に、評価タスクのベースライン性能を最大4%向上させる。
一般の場合,BPE再帰構造を利用する厳密なロスレス手順を導入し,大語彙設定を実用的に維持する高速近似を補完する。
数学的推論のための蒸留に応用して,現在の最先端技術よりもGSM8Kの精度を2%以上向上させる。
関連論文リスト
- Training-Free Tokenizer Transplantation via Orthogonal Matching Pursuit [45.18582668677648]
大規模言語モデルにおいて,トークン化剤を移植するためのトレーニング不要な手法を提案する。
それぞれの語彙外トークンを,共有トークンの疎線形結合として近似する。
我々は,OMPがベースモデルの性能を最良にゼロショット保存できることを示す。
論文 参考訳(メタデータ) (2025-06-07T00:51:27Z) - Pretraining Language Models to Ponder in Continuous Space [50.52734567589996]
単一のトークン生成ステップ内で,前処理を繰り返し呼び出すことによって,この思考プロセスを言語モデルに導入する。
人間のアノテーションを使わずに、自己教師付き学習を通じて、この方法でモデルを学習できることが示される。
論文 参考訳(メタデータ) (2025-05-27T03:47:33Z) - Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling [90.86991492288487]
トークンの制約を評価するのは 違法にコストがかかる
LCDは文字列上のグローバル分布を歪め、ローカル情報のみに基づいてトークンをサンプリングすることができる。
我々のアプローチは最先端のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-04-07T18:30:18Z) - Enhancing Cross-Tokenizer Knowledge Distillation with Contextual Dynamical Mapping [85.48043537327258]
コンテキスト動的マッピング(CDM)は、新しいクロストケナイザー蒸留フレームワークである。
文脈情報を用いてシーケンスアライメントの精度を高め、語彙マッピングを動的に改善する。
本手法は, 種々のベンチマークにおいて, 既存のクロストケナイザー蒸留ベースラインに対して有意な優位性を示す。
論文 参考訳(メタデータ) (2025-02-16T12:46:07Z) - Exact Byte-Level Probabilities from Tokenized Language Models for FIM-Tasks and Model Ensembles [23.134664392314264]
トークン化は、言語モデル(LM)における多くの未理解の欠点と関連している。
本研究は, トークン化がモデルとバイトレベルのモデルを比較し比較することによって, モデル性能に与える影響について検討する。
本稿では,学習トークン分布と等価バイトレベル分布とのマッピングを確立するフレームワークであるByte-Token Representation Lemmaを紹介する。
論文 参考訳(メタデータ) (2024-10-11T23:30:42Z) - Hierarchical Phrase-based Sequence-to-Sequence Learning [94.10257313923478]
本稿では、学習中の帰納バイアスの源として階層的フレーズを取り入れ、推論中の明示的な制約として、標準的なシーケンス・ツー・シーケンス(seq2seq)モデルの柔軟性を維持するニューラルトランスデューサについて述べる。
本手法では,木が原文と対象句を階層的に整列するブラケット文法に基づく識別的導出法と,整列した句を1対1で翻訳するニューラルネットワークセク2セックモデルという2つのモデルを訓練する。
論文 参考訳(メタデータ) (2022-11-15T05:22:40Z) - VertiBayes: Learning Bayesian network parameters from vertically partitioned data with missing values [2.9707233220536313]
フェデレーション学習は、分散データに基づいて機械学習モデルをトレーニングすることを可能にする。
本稿では,垂直分割データ上でベイズネットワークを学習するためのVertiBayesという新しい手法を提案する。
提案手法は,従来のアルゴリズムを用いて学習したモデルに匹敵するモデルを生成する。
論文 参考訳(メタデータ) (2022-10-31T11:13:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。