論文の概要: TokSuite: Measuring the Impact of Tokenizer Choice on Language Model Behavior
- arxiv url: http://arxiv.org/abs/2512.20757v1
- Date: Tue, 23 Dec 2025 20:43:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 19:43:21.59456
- Title: TokSuite: Measuring the Impact of Tokenizer Choice on Language Model Behavior
- Title(参考訳): TokSuite: トケナイザー選択が言語モデル行動に与える影響を測定する
- Authors: Gül Sena Altıntaş, Malikeh Ehghaghi, Brian Lester, Fengyuan Liu, Wanru Zhao, Marco Ciccone, Colin Raffel,
- Abstract要約: トケナイザーは、テキストが言語モデル(LM)によって表現され、処理される基本的な基盤を提供する。
TokSuiteは、トークン化がLMに与える影響を研究するためのモデルとベンチマークのコレクションである。
- 参考スコア(独自算出の注目度): 30.782240245074433
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tokenizers provide the fundamental basis through which text is represented and processed by language models (LMs). Despite the importance of tokenization, its role in LM performance and behavior is poorly understood due to the challenge of measuring the impact of tokenization in isolation. To address this need, we present TokSuite, a collection of models and a benchmark that supports research into tokenization's influence on LMs. Specifically, we train fourteen models that use different tokenizers but are otherwise identical using the same architecture, dataset, training budget, and initialization. Additionally, we curate and release a new benchmark that specifically measures model performance subject to real-world perturbations that are likely to influence tokenization. Together, TokSuite allows robust decoupling of the influence of a model's tokenizer, supporting a series of novel findings that elucidate the respective benefits and shortcomings of a wide range of popular tokenizers.
- Abstract(参考訳): トケナイザーは、テキストが言語モデル(LM)によって表現され、処理される基本的な基盤を提供する。
トークン化の重要性にもかかわらず、LM性能と振る舞いにおけるその役割は、単独でのトークン化の影響を測ることの難しさから、よく理解されていない。
このニーズに対処するために、トークン化がLMに与える影響を研究するためのモデルとベンチマークであるTokSuiteを紹介します。
具体的には、異なるトークンライザを使用するが、同じアーキテクチャ、データセット、トレーニング予算、初期化を使用して同じでない14のモデルをトレーニングする。
さらに、トークン化に影響を与える可能性のある現実の摂動を対象とする、モデルパフォーマンスを特に測定する新しいベンチマークをキュレートし、リリースする。
TokSuiteは、モデルのトークン化要因の影響をしっかりと分離し、さまざまな一般的なトークン化要因のそれぞれの利点と欠点を解明する一連の新しい発見をサポートする。
関連論文リスト
- How Different Tokenization Algorithms Impact LLMs and Transformer Models for Binary Code Analysis [0.0]
その重要性にもかかわらず、アセンブリコードのコンテキストにおけるトークン化は未探索領域のままである。
我々は、アセンブリコードのユニークな特徴に合わせて、プリプロセスのカスタマイズオプションとプリトークン化ルールについて検討する。
我々は,トークン化効率,語彙圧縮,組立符号の表現忠実度に基づくトークン化器の比較を行った。
論文 参考訳(メタデータ) (2025-11-05T19:45:26Z) - ssToken: Self-modulated and Semantic-aware Token Selection for LLM Fine-tuning [51.133569963553576]
ssTokenは自己変調されたセマンティックなToken Selectionアプローチである。
自己変調の選択とセマンティック・アウェアの選択の両方が、フルデータの微調整よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-10-21T03:21:04Z) - Broken Tokens? Your Language Model can Secretly Handle Non-Canonical Tokenizations [83.93566096400723]
ランダムにサンプリングされたトークン化が与えられた場合、命令調整されたモデルは元の性能の最大93.4%を維持している。
文字レベルのセグメンテーションは文字列操作とコード理解タスクを最大+14%改善する。
右列桁のグルーピングは、大数の算術を+33%向上させる。
論文 参考訳(メタデータ) (2025-06-23T18:02:26Z) - Beyond Text Compression: Evaluating Tokenizers Across Scales [4.0253589606301174]
トークン化器の選択は、英語のタスクに無視できる効果を持つが、多言語設定における一貫した性能差をもたらすことを示す。
我々はZipfの法則に着想を得た新しい固有のトークン化指標を提案し、テキスト圧縮よりも下流のパフォーマンスと強く相関する。
論文 参考訳(メタデータ) (2025-06-03T17:35:56Z) - Tokenization is Sensitive to Language Variation [14.568179478275255]
トケナイザーはテキストを小さな単位に分割し、あまり一般的でない言語形式に対して異なる振る舞いをするかもしれない。
これは2種類のタスクに対して、下流のLLMパフォーマンスに異なる影響を与える可能性がある。
最高のトークン化器は2つのタスクタイプによって異なり、事前トークン化器はパフォーマンスに最も大きな影響を与える。
論文 参考訳(メタデータ) (2025-02-21T09:58:54Z) - Exact Byte-Level Probabilities from Tokenized Language Models for FIM-Tasks and Model Ensembles [23.134664392314264]
トークン化は、言語モデル(LM)における多くの未理解の欠点と関連している。
本研究は, トークン化がモデルとバイトレベルのモデルを比較し比較することによって, モデル性能に与える影響について検討する。
本稿では,学習トークン分布と等価バイトレベル分布とのマッピングを確立するフレームワークであるByte-Token Representation Lemmaを紹介する。
論文 参考訳(メタデータ) (2024-10-11T23:30:42Z) - Can Perplexity Predict Fine-tuning Performance? An Investigation of Tokenization Effects on Sequential Language Models for Nepali [0.0]
SentencePieceトークン化は、ネパールの理解に基づくタスクにおいて、一貫して優れた結果をもたらす。
本研究はシーケンシャルトランスフォーマーモデルについて検討し,低リソース言語における言語モデル開発に有用な知見を提供する。
論文 参考訳(メタデータ) (2024-04-28T05:26:12Z) - Revisiting Demonstration Selection Strategies in In-Context Learning [66.11652803887284]
大規模言語モデル(LLM)は、インコンテキスト学習(ICL)を用いて広範囲のタスクを実行するという印象的な能力を示している。
本研究ではまず,データとモデルの両方の側面から,この分散に寄与する要因を再検討し,実演の選択がデータとモデルに依存していることを確かめる。
本研究では,データとモデルに依存した実演選択手法である textbfTopK + ConE を提案する。
論文 参考訳(メタデータ) (2024-01-22T16:25:27Z) - Identifying and Analyzing Performance-Critical Tokens in Large Language Models [52.404072802235234]
我々は大規模な言語モデルがいかに実演からタスクを実行するかを研究する。
私たちの仕事は、大規模な言語モデルがデモからタスクを実行するための学習方法に光を当て、さまざまな種類のトークンが大きな言語モデルで果たす役割についての理解を深めます。
論文 参考訳(メタデータ) (2024-01-20T20:55:21Z) - Improving Input-label Mapping with Demonstration Replay for In-context
Learning [67.57288926736923]
In-context Learning (ICL)は、大規模な自己回帰言語モデルの出現する能力である。
Sliding Causal Attention (RdSca) と呼ばれる新しいICL法を提案する。
ICL実験において,本手法は入力ラベルマッピングを大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-10-30T14:29:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。