論文の概要: Beyond Text Compression: Evaluating Tokenizers Across Scales
- arxiv url: http://arxiv.org/abs/2506.03101v1
- Date: Tue, 03 Jun 2025 17:35:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.892581
- Title: Beyond Text Compression: Evaluating Tokenizers Across Scales
- Title(参考訳): テキスト圧縮を超えて: トークン作成者を評価する
- Authors: Jonas F. Lotz, António V. Lopes, Stephan Peitz, Hendra Setiawan, Leonardo Emili,
- Abstract要約: トークン化器の選択は、英語のタスクに無視できる効果を持つが、多言語設定における一貫した性能差をもたらすことを示す。
我々はZipfの法則に着想を得た新しい固有のトークン化指標を提案し、テキスト圧縮よりも下流のパフォーマンスと強く相関する。
- 参考スコア(独自算出の注目度): 4.0253589606301174
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The choice of tokenizer can profoundly impact language model performance, yet accessible and reliable evaluations of tokenizer quality remain an open challenge. Inspired by scaling consistency, we show that smaller models can accurately predict significant differences in tokenizer impact on larger models at a fraction of the compute cost. By systematically evaluating both English-centric and multilingual tokenizers, we find that tokenizer choice has negligible effects on tasks in English but results in consistent performance differences in multilingual settings. We propose new intrinsic tokenizer metrics inspired by Zipf's law that correlate more strongly with downstream performance than text compression when modeling unseen languages. By combining several metrics to capture multiple aspects of tokenizer behavior, we develop a reliable framework for intrinsic tokenizer evaluations. Our work offers a more efficient path to informed tokenizer selection in future language model development.
- Abstract(参考訳): トークン化器の選択は言語モデルのパフォーマンスに大きな影響を与えるが、アクセス可能で信頼性の高いトークン化器の品質評価は依然としてオープンな課題である。
スケールの整合性から着想を得て、より小さなモデルでは、計算コストのごく一部でより大きなモデルに対するトークン化剤の影響の有意な差を正確に予測できることを示した。
英語中心のトークン化と多言語のトークン化の両方を体系的に評価することにより、トークン化の選択は英語のタスクに無視できる効果を持つが、多言語設定における一貫した性能差をもたらすことがわかった。
我々はZipfの法則に着想を得た新しい固有のトークン化指標を提案する。これは、未知の言語をモデル化する際に、テキスト圧縮よりも下流のパフォーマンスと強く相関する。
複数のメトリクスを組み合わせてトークン化の動作を捉えることにより、本質的なトークン化の評価を行うための信頼性の高いフレームワークを開発する。
私たちの研究は、将来の言語モデル開発において、より効率的なトークン化ツールの選択方法を提供します。
関連論文リスト
- Sketch-of-Thought: Efficient LLM Reasoning with Adaptive Cognitive-Inspired Sketching [60.04718679054704]
Chain-of-Thoughtはステップバイステップの問題解決を促すが、中間出力の過剰な冗長性を犠牲にすることが多い。
我々は,認知にインスパイアされた推論パラダイムを言語制約と統合する促進フレームワークであるSketch-of-Thought(SoT)を提案する。
SoTはトークンを最大78%削減し、15の推論データセットで最小限の精度損失を発生させる。
論文 参考訳(メタデータ) (2025-03-07T06:57:17Z) - Tokenization is Sensitive to Language Variation [14.568179478275255]
トケナイザーはテキストを小さな単位に分割し、あまり一般的でない言語形式に対して異なる振る舞いをするかもしれない。
これは2種類のタスクに対して、下流のLLMパフォーマンスに異なる影響を与える可能性がある。
重要なアルゴリズム設計選択が下流モデルの性能に与える影響について検討する。
論文 参考訳(メタデータ) (2025-02-21T09:58:54Z) - When Every Token Counts: Optimal Segmentation for Low-Resource Language Models [0.0]
最適Byte-Pair(BPE)構成は,グリーディセグメンテーションに比べてトークン数を大幅に削減することを示す。
この結果から,圧縮最適化トークン化戦略が多言語および低リソース言語アプリケーションに多大なメリットをもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2024-12-09T19:11:54Z) - STAB: Speech Tokenizer Assessment Benchmark [57.45234921100835]
音声を離散トークンとして表現することは、音声をテキストによく似たフォーマットに変換するためのフレームワークを提供する。
Speech Tokenizer Assessment Benchmark(STAB)は,音声トークンを包括的に評価するシステム評価フレームワークである。
我々はSTABのメトリクスを評価し、これを音声タスクやトークン化ツールの選択の範囲でダウンストリームタスクのパフォーマンスと相関付けする。
論文 参考訳(メタデータ) (2024-09-04T02:20:59Z) - Unpacking Tokenization: Evaluating Text Compression and its Correlation with Model Performance [34.641079276516926]
我々は,0-gram言語モデリングとみなす圧縮の理論的重要性を論じる。
事前学習した言語モデルの下流での成功に対する圧縮の実証的重要性を示す。
本稿では,トークン化器の圧縮とモデル下流性能の相関関係を示す。
論文 参考訳(メタデータ) (2024-03-10T17:02:53Z) - On the Analysis of Cross-Lingual Prompt Tuning for Decoder-based
Multilingual Model [49.81429697921861]
多言語自己回帰モデルにおけるパラメータ効率細調整(PEFT)と言語間タスクの相互作用について検討する。
高速チューニングは、微調整よりも低リソース言語の性能向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-14T00:43:33Z) - Language Model Tokenizers Introduce Unfairness Between Languages [98.92630681729518]
トークン化段階では,モデルが呼び出される直前に,異なる言語に対する扱いの相違が生じることを示す。
文字レベルとバイトレベルのモデルも、いくつかの言語ペアの符号化長の4倍以上の差を示している。
我々は、多言語で公平なサブワードトークン化器を用いて、将来の言語モデルを訓練するべきだと仮定する。
論文 参考訳(メタデータ) (2023-05-17T14:17:57Z) - A Multi-dimensional Evaluation of Tokenizer-free Multilingual Pretrained
Models [87.7086269902562]
サブワードベースのモデルは、多くの設定において依然として最も実用的な選択肢であることを示している。
我々は,新しいモデルを設計し,評価する際のこれらの要因を検討するために,トークンフリーな手法の今後の取り組みを奨励する。
論文 参考訳(メタデータ) (2022-10-13T15:47:09Z) - How Robust is Neural Machine Translation to Language Imbalance in
Multilingual Tokenizer Training? [86.48323488619629]
トークン化学習コーパスにおいて,言語間でのデータ比が変化するにつれて,翻訳性能がどう変化するかを分析する。
言語が均等にサンプリングされる場合、比較的優れたパフォーマンスが観察されることが多いが、下流のパフォーマンスは、通常予想していたよりも、言語の不均衡に対して堅牢である。
論文 参考訳(メタデータ) (2022-04-29T17:50:36Z) - Impact of Tokenization on Language Models: An Analysis for Turkish [2.4660652494309936]
我々は、OSCARコーパスのトルコ分割におけるRoBERTa事前訓練手順を用いて、トークン化器および事前訓練中規模言語モデルを訓練する。
統計的実験により, モルフォロジーレベルのトークン化器は, 事実上のトークン化器で高い性能を示した。
語彙サイズを増大させることで,デファクトトークン化よりも形態素およびワードレベルのトークン化器の性能が向上することがわかった。
論文 参考訳(メタデータ) (2022-04-19T12:01:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。