論文の概要: Achieving Tokenizer Flexibility in Language Models through Heuristic Adaptation and Supertoken Learning
- arxiv url: http://arxiv.org/abs/2505.09738v1
- Date: Wed, 14 May 2025 19:00:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-16 22:29:06.081417
- Title: Achieving Tokenizer Flexibility in Language Models through Heuristic Adaptation and Supertoken Learning
- Title(参考訳): ヒューリスティック適応とスーパートケニング学習による言語モデルにおけるトケナイザーの柔軟性獲得
- Authors: Shaurya Sharthak, Vinayak Pahalwan, Adithya Kamath, Adarsh Shirawalmath,
- Abstract要約: 事前訓練された言語モデル(LLM)は固定トークン化方式によって制約されることが多い。
Tokenadaptは、モデルに依存しないトークン化剤の移植方法である。
本フレームワークでは, モデルに依存しないトークン化剤の移植法であるTokenadaptと, マルチワードスーパートークンの新規プリトークン化の2つの革新を紹介した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pretrained language models (LLMs) are often constrained by their fixed tokenization schemes, leading to inefficiencies and performance limitations, particularly for multilingual or specialized applications. This tokenizer lock-in presents significant challenges. standard methods to overcome this often require prohibitive computational resources. Although tokenizer replacement with heuristic initialization aims to reduce this burden, existing methods often require exhaustive residual fine-tuning and still may not fully preserve semantic nuances or adequately address the underlying compression inefficiencies. Our framework introduces two innovations: first, Tokenadapt, a model-agnostic tokenizer transplantation method, and second, novel pre-tokenization learning for multi-word Supertokens to enhance compression and reduce fragmentation. Tokenadapt initializes new unique token embeddings via a hybrid heuristic that combines two methods: a local estimate based on subword decomposition using the old tokenizer, and a global estimate utilizing the top-k semantically similar tokens from the original vocabulary. This methodology aims to preserve semantics while significantly minimizing retraining requirements. Empirical investigations validate both contributions: the transplantation heuristic successfully initializes unique tokens, markedly outperforming conventional baselines and sophisticated methods including Transtokenizer and ReTok, while our Supertokens achieve notable compression gains. Our zero-shot perplexity results demonstrate that the TokenAdapt hybrid initialization consistently yields lower perplexity ratios compared to both ReTok and TransTokenizer baselines across different base models and newly trained target tokenizers. TokenAdapt typically reduced the overall perplexity ratio significantly compared to ReTok, yielding at least a 2-fold improvement in these aggregate scores.
- Abstract(参考訳): 事前訓練された言語モデル(LLM)は、固定トークン化方式によって制約されることが多く、特に多言語や特殊なアプリケーションにおいて、非効率性と性能上の制限をもたらす。
このトークン化器のロックインには、大きな課題がある。
これを克服する標準的な方法は、しばしば禁止的な計算資源を必要とする。
トークン化器をヒューリスティックな初期化に置き換えることは、この負担を軽減することを目的としているが、既存の手法では徹底的な微調整が必要であり、意味的なニュアンスを完全に保存したり、基礎となる圧縮非効率に適切に対処することができない。
本フレームワークでは, モデルに依存しないトークン化手法であるTokenadaptと, 圧縮の強化とフラグメンテーションの削減を目的として, マルチワードスーパートークンに対する新しい事前学習を導入する。
Tokenadaptは、新しいユニークなトークン埋め込みをハイブリッドヒューリスティックを通じて初期化する。これは、古いトークン化子を用いたサブワード分解に基づく局所的な推定と、元の語彙からのトップkのセマンティックに類似したトークンを利用する大域的な推定の2つの方法を組み合わせたものである。
この方法論は、再学習要求を大幅に最小化しつつ、セマンティックスを保存することを目的としている。
移植ヒューリスティックはユニークなトークンの初期化に成功し、トランストケナイザーやReTokといった従来のベースラインや高度な手法を著しく上回りました。
ゼロショットパープレクティリティの結果から,TokenAdaptハイブリッド初期化は,ReTokベースラインとTransTokenizerベースラインが異なるベースモデルと新たにトレーニングされたターゲットトークンライザに比較して,常に低いパープレクティ比が得られることが示された。
TokenAdaptは一般的に、ReTokと比較して全体的なパープレキシティ比を著しく減らし、これらのスコアを少なくとも2倍改善した。
関連論文リスト
- Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling [90.86991492288487]
トークンの制約を評価するのは 違法にコストがかかる
LCDは文字列上のグローバル分布を歪め、ローカル情報のみに基づいてトークンをサンプリングすることができる。
我々のアプローチは最先端のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-04-07T18:30:18Z) - Bridging Continuous and Discrete Tokens for Autoregressive Visual Generation [63.89280381800457]
本稿では,離散トークンのモデリングをシンプルに保ちながら,連続トークンの強力な表現能力を維持するTokenBridgeを提案する。
本稿では,各特徴次元を独立に離散化し,軽量な自己回帰予測機構と組み合わせた次元ワイド量子化戦略を提案する。
提案手法は,標準的なカテゴリー予測を用いて,連続的手法と同等に再現および生成品質を実現する。
論文 参考訳(メタデータ) (2025-03-20T17:59:59Z) - "Principal Components" Enable A New Language of Images [79.45806370905775]
証明可能なPCAのような構造を潜在トークン空間に組み込む新しい視覚トークン化フレームワークを導入する。
提案手法は、最先端の再構築性能を実現し、人間の視覚システムとの整合性を向上する。
論文 参考訳(メタデータ) (2025-03-11T17:59:41Z) - Exact Byte-Level Probabilities from Tokenized Language Models for FIM-Tasks and Model Ensembles [23.134664392314264]
トークン化は、言語モデル(LM)における多くの未理解の欠点と関連している。
本研究は, トークン化がモデルとバイトレベルのモデルを比較し比較することによって, モデル性能に与える影響について検討する。
本稿では,学習トークン分布と等価バイトレベル分布とのマッピングを確立するフレームワークであるByte-Token Representation Lemmaを紹介する。
論文 参考訳(メタデータ) (2024-10-11T23:30:42Z) - Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple
Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。
提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-01T03:27:08Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - CANINE: Pre-training an Efficient Tokenization-Free Encoder for Language
Representation [12.005340904206697]
CANINEは、明示的なトークン化や語彙のない文字シーケンス上で直接動作する神経エンコーダです。
CanINEは、TyDi QAにおいて、比較可能なmBERTモデルを >= 1 F1 で上回っている。
論文 参考訳(メタデータ) (2021-03-11T18:57:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。