論文の概要: Explaining and Mitigating Crosslingual Tokenizer Inequities
- arxiv url: http://arxiv.org/abs/2510.21909v1
- Date: Fri, 24 Oct 2025 17:36:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:14.704025
- Title: Explaining and Mitigating Crosslingual Tokenizer Inequities
- Title(参考訳): クロスリンガル・トケナイザーの不等式の説明と緩和
- Authors: Catherine Arnett, Tyler A. Chang, Stella Biderman, Benjamin K. Bergen,
- Abstract要約: 高いトークンプレミアムを持つことは、トレーニング中のスループットを低下させ、推論時のコストを増大させる。
97言語で約7,000の同等のモノリンガルトークンをトレーニングします。
トレーニングデータとテストデータの類似性はトークンのプレミアムに影響しないが、語彙サイズや事前トークン化には影響しない。
- 参考スコア(独自算出の注目度): 18.823984182115712
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The number of tokens it takes to encode parallel text in different languages is known to vary. These disparities are called token premiums. Having high token premiums leads to less throughput during training and increases costs at inference. In this paper, we show that even after controlling for dataset size, vocabulary size, and data content, monolingual tokenizers exhibit a wide range of token premiums across languages. To understand the cross-linguistic differences that cause these token premiums, we train a suite of approximately 7,000 comparable monolingual tokenizers for 97 languages, manipulating tokenization algorithm, vocabulary size, and dataset size. We measure token premiums and test for a relationship between factors such as data similarity (between tokenizer training and evaluation), vocabulary size, and pre-tokenization. We also investigate the role of language-specific features such as writing system and word length. We find that similarity between training and test data does not impact token premiums, but vocabulary size and pre-tokenization do. While simply increasing vocabulary size does not lead to reduced token premium effects, we can determine an ``optimal'' vocabulary size for each language to achieve significantly reduced token premium effects. We also train superword tokenizers which allow merges over whitespaces, and we find that they both reduce token premium effects and improve compression overall. Thus, intervening on the vocabulary size or the pre-tokenizer significantly reduces crosslingual token premium effects.
- Abstract(参考訳): 異なる言語で並列テキストをエンコードするのに要するトークンの数は様々である。
これらの格差はトークンプレミアムと呼ばれる。
高いトークンプレミアムを持つことは、トレーニング中のスループットを低下させ、推論時のコストを増大させる。
本稿では,データセットサイズ,語彙サイズ,データ内容の制御を行ったとしても,モノリンガルトークン化器は多言語にわたって幅広いトークンプレミアムを示すことを示す。
これらのトークンプレミアムの原因となる言語間差異を理解するために、97言語に対して約7,000の同等のモノリンガルトークンライザ、トークン化アルゴリズムの操作、語彙サイズ、データセットサイズをトレーニングする。
トークンのプレミアムを測定し、データ類似性(トークンの学習と評価)、語彙サイズ、事前トークン化などの要因の関連性をテストする。
また,記述システムや単語長といった言語特化機能の役割についても検討する。
トレーニングデータとテストデータとの類似性はトークンのプレミアムに影響を与えるものではなく、語彙サイズや事前トークン化に影響を与えます。
単に語彙のサイズが大きくなるとトークンのプレミアム効果が減少するわけではないが、各言語で ''optimal'' の語彙サイズを決定すれば、トークンのプレミアム効果が大幅に減少する。
また、ホワイトスペース上のマージを可能にするスーパーワードトークンライザのトレーニングも行います。
したがって、語彙サイズやプリトケナイザへの介入は、クロスリンガルトークンのプレミアム効果を著しく低下させる。
関連論文リスト
- False Friends Are Not Foes: Investigating Vocabulary Overlap in Multilingual Language Models [53.01170039144264]
多言語コーパスで訓練されたサブワードトークンライザは、言語間で重複するトークンを自然に生成する。
トークンの重複は言語間転送を促進するのか、それとも言語間の干渉を導入するのか?
相反する語彙を持つモデルでは、重なり合う結果が得られます。
論文 参考訳(メタデータ) (2025-09-23T07:47:54Z) - Causal Estimation of Tokenisation Bias [58.20086589761273]
我々は、訓練されたモデルが対応する文字に割り当てる確率に対して、トークンの語彙にサブワードを含むか否かを定量化する。
トークン化は、スケール、語彙、トークンサプライヤにわたるモデルのアウトプットに一貫して影響を与えます。
特に、小モデルの語彙におけるサブワードの存在は、文字の確率を最大17倍に向上させる可能性がある。
論文 参考訳(メタデータ) (2025-06-03T17:59:47Z) - Comparative analysis of subword tokenization approaches for Indian languages [5.012314384895538]
トークン化(Tokenization)とは、テキストを小さな部分(トークン)に分割することで、機械が処理しやすいようにする行為である。
サブワードトークン化は、単語を小さなサブワード単位に分割することで、このプロセスを強化する。
これは、接頭辞、接尾辞、その他の形態変化など、インドの言語(IL)における単語の複雑な構造を捉えるのに有用である。
本稿では,SentencePiece,Byte Pair,WordPiece Tokenizationなどのサブワードトークン技術がILに与える影響について検討する。
論文 参考訳(メタデータ) (2025-05-22T16:24:37Z) - SuperBPE: Space Travel for Language Models [103.09169510391972]
我々は、単純なプリトークン化カリキュラムをバイトペア符号化(BPE)アルゴリズムに組み込んだ「スーパーワード」トークンライザ「SuperBPE」を導入する。
SuperBPEは、固定されたテキストを符号化し、平均してBPEよりもトークンが最大33%少ない。
我々のモデルは、30の下流タスクにわたるBPEベースラインに対して平均+4.0%の絶対的な改善を達成している。
論文 参考訳(メタデータ) (2025-03-17T17:53:23Z) - Beyond Literal Token Overlap: Token Alignability for Multilinguality [53.680462160878925]
我々は,多言語トークン化の効果と品質を理解する新しい方法として,サブワードトークン整合性を提案する。
特に、この指標は、スクリプトが異なっており、リテラルトークンの重複が低い場合、多言語性を予測する。
言語間移動のための最適な言語ペアを特定するために,我々のサブワードトークン整合性指標を推奨する。
論文 参考訳(メタデータ) (2025-02-10T13:50:12Z) - Tokenization Is More Than Compression [14.939912120571728]
Byte-Pairのような既存のトークン化アプローチ。
(BPE)はデータ圧縮の分野に由来する。
PathPieceは、文書のテキストを与えられた語彙に対して最小のトークン数に分割する新しいトークンライザである。
論文 参考訳(メタデータ) (2024-02-28T14:52:15Z) - Better Than Whitespace: Information Retrieval for Languages without
Custom Tokenizers [48.036317742487796]
語彙マッチング検索アルゴリズムのための新しいトークン化手法を提案する。
教師なしのデータから自動的に構築できるWordPieceトークンライザを使用します。
以上の結果から,mBERTトークン化器は,ほとんどの言語において,"アウト・オブ・ザ・ボックス(out of the box)"を検索するための強い関連信号を提供することがわかった。
論文 参考訳(メタデータ) (2022-10-11T14:32:46Z) - Impact of Tokenization on Language Models: An Analysis for Turkish [2.4660652494309936]
我々は、OSCARコーパスのトルコ分割におけるRoBERTa事前訓練手順を用いて、トークン化器および事前訓練中規模言語モデルを訓練する。
統計的実験により, モルフォロジーレベルのトークン化器は, 事実上のトークン化器で高い性能を示した。
語彙サイズを増大させることで,デファクトトークン化よりも形態素およびワードレベルのトークン化器の性能が向上することがわかった。
論文 参考訳(メタデータ) (2022-04-19T12:01:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。