論文の概要: The Art of Breaking Words: Rethinking Multilingual Tokenizer Design
- arxiv url: http://arxiv.org/abs/2508.06533v1
- Date: Sun, 03 Aug 2025 15:31:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.414793
- Title: The Art of Breaking Words: Rethinking Multilingual Tokenizer Design
- Title(参考訳): 単語を破る技術:多言語トケナイザの設計を再考する
- Authors: Aamod Thakur, Ajay Nagpal, Atharva Savarkar, Kundeshwar Pundalik, Siddhesh Dosi, Piyush Sawarkar, Viraj Thakur, Rohit Saluja, Maunendra Sankar Desarkar, Ganesh Ramakrishnan,
- Abstract要約: 既存のトークン化器は高いトークン対ワード比、文脈長の非効率な使用、推論の遅さを示す。
本稿では,語彙サイズ,事前トークン化規則,トレーニングコーパス構成をトークン・ツー・ワード効率とモデル品質の両方に関連付ける体系的な研究を提案する。
我々のトークンライザは、最先端の多言語インデックスモデルに対して平均トークン対ワード比を40%以上改善する。
- 参考スコア(独自算出の注目度): 21.9940001977516
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While model architecture and training objectives are well-studied, tokenization, particularly in multilingual contexts, remains a relatively neglected aspect of Large Language Model (LLM) development. Existing tokenizers often exhibit high token-to-word ratios, inefficient use of context length, and slower inference. We present a systematic study that links vocabulary size, pre-tokenization rules, and training-corpus composition to both token-to-word efficiency and model quality. To ground our analysis in a linguistically diverse context, we conduct extensive experiments on Indic scripts, which present unique challenges due to their high script diversity and orthographic complexity. Drawing on the insights from these analyses, we propose a novel algorithm for data composition that balances multilingual data for tokenizer training. Our observations on pretokenization strategies significantly improve model performance, and our data composition algorithm reduces the average token-to-word ratio by approximately 6% with respect to the conventional data randomization approach. Our tokenizer achieves more than 40% improvement on average token-to-word ratio against stateof-the-art multilingual Indic models. This improvement yields measurable gains in both model performance and inference speed. This highlights tokenization alongside architecture and training objectives as a critical lever for building efficient, scalable multilingual LLMs
- Abstract(参考訳): モデルアーキテクチャとトレーニングの目的はよく研究されているが、トークン化は特に多言語的文脈において、大規模言語モデル(LLM)開発において比較的無視されている側面である。
既存のトークン化器は高いトークン対ワード比、文脈長の非効率な使用、推論の遅さを示すことが多い。
本稿では,語彙サイズ,事前トークン化規則,トレーニングコーパス構成をトークン・ツー・ワード効率とモデル品質の両方に関連付ける体系的な研究を提案する。
言語学的に多様性のある文脈で分析を行うため,インディックスのスクリプトについて広範な実験を行い,高いスクリプトの多様性と正書法的な複雑さにより,独特な課題を呈している。
これらの分析から得られた知見に基づき、トークン化学習のための多言語データのバランスをとるデータ合成のための新しいアルゴリズムを提案する。
データ合成アルゴリズムは従来のデータランダム化手法と比較して平均トークン対ワード比を約6%削減する。
我々のトークンライザは、最先端の多言語インデックスモデルに対して平均トークン対ワード比を40%以上改善する。
この改善により、モデル性能と推論速度の両方において測定可能な利得が得られる。
これは、効率的でスケーラブルな多言語LLMを構築するための重要なレバーとして、アーキテクチャとトレーニング目的と共にトークン化を強調します。
関連論文リスト
- Tokenization Standards for Linguistic Integrity: Turkish as a Benchmark [0.29687381456163997]
トークン化はNLPの基本的な前処理ステップであり、大きな言語モデルが構文、形態素合成、意味構造をキャプチャする能力に直接影響を及ぼす。
本稿では,形態的にリッチで低リソースな言語における課題に対処する,トークン化戦略を評価するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-10T21:47:49Z) - Split and Rephrase with Large Language Models [2.499907423888049]
Split and Rephrase (SPRP) タスクは、複雑な文を短い文法文の列に分割する。
タスク上の大きな言語モデルを評価し、主要なメトリクスに基づいて、技術の現状を大幅に改善できることを示します。
論文 参考訳(メタデータ) (2023-12-18T10:16:37Z) - Tokenizer Choice For LLM Training: Negligible or Crucial? [30.33170936148845]
24個の単言語LLMと多言語LLMを学習し,トークン化選択が大規模言語モデル(LLM)の下流性能に与える影響について検討した。
トークン化ツールの選択は、ダウンストリームのパフォーマンスとトレーニングコストに大きな影響を与えます。
ヨーロッパの5言語で訓練された多言語トークン化器は,英語と比較して語彙サイズが3倍に大きくなることが示唆された。
論文 参考訳(メタデータ) (2023-10-12T22:44:19Z) - CompoundPiece: Evaluating and Improving Decompounding Performance of
Language Models [77.45934004406283]
複合語を構成語に分割する作業である「分解」を体系的に研究する。
We introduced a dataset of 255k compound and non-compound words across 56 various languages obtained from Wiktionary。
分割のための専用モデルを訓練するための新しい手法を導入する。
論文 参考訳(メタデータ) (2023-05-23T16:32:27Z) - A Multi-dimensional Evaluation of Tokenizer-free Multilingual Pretrained
Models [87.7086269902562]
サブワードベースのモデルは、多くの設定において依然として最も実用的な選択肢であることを示している。
我々は,新しいモデルを設計し,評価する際のこれらの要因を検討するために,トークンフリーな手法の今後の取り組みを奨励する。
論文 参考訳(メタデータ) (2022-10-13T15:47:09Z) - An Empirical Investigation of Commonsense Self-Supervision with
Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。
本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文 参考訳(メタデータ) (2022-05-21T19:49:04Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。