論文の概要: Training-Free Tokenizer Transplantation via Orthogonal Matching Pursuit
- arxiv url: http://arxiv.org/abs/2506.06607v1
- Date: Sat, 07 Jun 2025 00:51:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.35976
- Title: Training-Free Tokenizer Transplantation via Orthogonal Matching Pursuit
- Title(参考訳): 整形外科的整形外科的整形外科的整形外科的整形術
- Authors: Charles Goddard, Fernando Fernandes Neto,
- Abstract要約: 大規模言語モデルにおいて,トークン化剤を移植するためのトレーニング不要な手法を提案する。
それぞれの語彙外トークンを,共有トークンの疎線形結合として近似する。
我々は,OMPがベースモデルの性能を最良にゼロショット保存できることを示す。
- 参考スコア(独自算出の注目度): 45.18582668677648
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We present a training-free method to transplant tokenizers in pretrained large language models (LLMs) by reconstructing unseen token embeddings via Orthogonal Matching Pursuit (OMP). Specifically, we approximate each out-of-vocabulary token as a sparse linear combination of shared tokens, in two phases: first, compute each new token's representation in the donor embedding space with a small dictionary of shared anchor tokens, then transfer these same sparse coefficients back into the base model's embedding space. On two challenging cross-tokenizer tasks--Llama$\to$Mistral NeMo (12B) and Qwen$\to$Llama (1B)--we show that OMP achieves best zero-shot preservation of the base model's performance across multiple benchmarks, while other zero-shot approaches degrade significantly. Compared to baselines (zero-init, mean-init, and existing approaches like WECHSEL, FOCUS, ZETT), OMP consistently achieves the best overall performance, effectively bridging large tokenizer discrepancies without gradient updates. Our analysis further identifies mismatched numerical tokenization schemes as a critical challenge for preserving mathematical reasoning capabilities. This technique enables direct reuse of pretrained model weights with new tokenizers, facilitating cross-tokenizer knowledge distillation, speculative decoding, ensembling, merging, and domain-specific vocabulary adaptations. We integrate our method into the open-source mergekit-tokensurgeon tool for post hoc vocabulary realignment.
- Abstract(参考訳): そこで本稿では,Orthogonal Matching Pursuit (OMP) を介して未確認のトークン埋め込みを再構築することにより,事前訓練済みの大規模言語モデル (LLM) におけるトークン化者を移植する訓練自由手法を提案する。
具体的には、各語彙外トークンを共有トークンのスパース線形結合として近似し、まず、ドナー埋め込み空間における各新しいトークンの表現を共有アンカートークンの小さな辞書で計算し、これらのスパース係数をベースモデルの埋め込み空間に戻す。
Llama$\to$Mistral NeMo (12B) と Qwen$\to$Llama (1B) の2つの挑戦的なクロストケナイザタスクにおいて、OMPはベースモデルのパフォーマンスを複数のベンチマークで最高のゼロショット保存を達成する一方で、他のゼロショットアプローチは大幅に低下することを示した。
ベースライン(Zero-init, mean-init,およびWECHSEL, FOCUS, ZETTなど既存のアプローチ)と比較して,OMPは一貫して最高の全体的なパフォーマンスを実現している。
解析により,不一致な数値トークン化方式が数学的推論能力の維持に重要な課題であることが明らかとなった。
この技術は、新しいトークン化剤による事前訓練されたモデルの重量の直接再利用を可能にし、クロストケナイザーの知識蒸留、投機的復号化、アンサンブル、マージング、ドメイン固有の語彙適応を容易にする。
我々は,この手法をオープンソースのmergekit-tokensurgeonツールに統合し,語彙認識後処理を行う。
関連論文リスト
- Achieving Tokenizer Flexibility in Language Models through Heuristic Adaptation and Supertoken Learning [0.0]
事前訓練された言語モデル(LLM)は固定トークン化方式によって制約されることが多い。
Tokenadaptは、モデルに依存しないトークン化剤の移植方法である。
本フレームワークでは, モデルに依存しないトークン化剤の移植法であるTokenadaptと, マルチワードスーパートークンの新規プリトークン化の2つの革新を紹介した。
論文 参考訳(メタデータ) (2025-05-14T19:00:27Z) - Bridging Continuous and Discrete Tokens for Autoregressive Visual Generation [63.89280381800457]
本稿では,離散トークンのモデリングをシンプルに保ちながら,連続トークンの強力な表現能力を維持するTokenBridgeを提案する。
本稿では,各特徴次元を独立に離散化し,軽量な自己回帰予測機構と組み合わせた次元ワイド量子化戦略を提案する。
提案手法は,標準的なカテゴリー予測を用いて,連続的手法と同等に再現および生成品質を実現する。
論文 参考訳(メタデータ) (2025-03-20T17:59:59Z) - Enhancing Cross-Tokenizer Knowledge Distillation with Contextual Dynamical Mapping [85.48043537327258]
コンテキスト動的マッピング(CDM)は、新しいクロストケナイザー蒸留フレームワークである。
文脈情報を用いてシーケンスアライメントの精度を高め、語彙マッピングを動的に改善する。
本手法は, 種々のベンチマークにおいて, 既存のクロストケナイザー蒸留ベースラインに対して有意な優位性を示す。
論文 参考訳(メタデータ) (2025-02-16T12:46:07Z) - Faster Language Models with Better Multi-Token Prediction Using Tensor Decomposition [5.575078692353885]
本稿では, 精度を損なうことなくサンプリング効率を向上させることを目的とした, 変圧器のマルチトークン予測のための新しいモデルを提案する。
階数=r$標準確率分解に一般化することにより、複数のトークンを同時に予測する改良されたモデルを開発する。
論文 参考訳(メタデータ) (2024-10-23T11:06:36Z) - Exact Byte-Level Probabilities from Tokenized Language Models for FIM-Tasks and Model Ensembles [23.134664392314264]
トークン化は、言語モデル(LM)における多くの未理解の欠点と関連している。
本研究は, トークン化がモデルとバイトレベルのモデルを比較し比較することによって, モデル性能に与える影響について検討する。
本稿では,学習トークン分布と等価バイトレベル分布とのマッピングを確立するフレームワークであるByte-Token Representation Lemmaを紹介する。
論文 参考訳(メタデータ) (2024-10-11T23:30:42Z) - TokenUnify: Scalable Autoregressive Visual Pre-training with Mixture Token Prediction [61.295716741720284]
TokenUnifyは、ランダムトークン予測、次のトークン予測、次のトークン予測を統合する新しい事前学習手法である。
TokenUnifyと共同で,超高解像度の大規模電子顕微鏡画像データセットを構築した。
このデータセットには1億2000万以上の注釈付きボクセルが含まれており、これまでで最大のニューロンセグメンテーションデータセットとなっている。
論文 参考訳(メタデータ) (2024-05-27T05:45:51Z) - Token Fusion: Bridging the Gap between Token Pruning and Token Merging [71.84591084401458]
ビジョントランスフォーマー(ViT)はコンピュータビジョンの強力なバックボーンとして登場し、多くの伝統的なCNNを上回っている。
計算オーバーヘッドは、主に自己アテンション機構によるもので、リソース制約のあるエッジデバイスへのデプロイが困難になる。
トークンプルーニングとトークンマージの両方のメリットを両立させる手法であるToken Fusion(ToFu)を紹介する。
論文 参考訳(メタデータ) (2023-12-02T04:29:19Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。