論文の概要: The Token Tax: Systematic Bias in Multilingual Tokenization
- arxiv url: http://arxiv.org/abs/2509.05486v1
- Date: Fri, 05 Sep 2025 20:20:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.53578
- Title: The Token Tax: Systematic Bias in Multilingual Tokenization
- Title(参考訳): トークン税:多言語化における体系的バイアス
- Authors: Jessica M. Lundin, Ada Zhang, Nihal Karim, Hamza Louzan, Victor Wei, David Adelani, Cody Carroll,
- Abstract要約: トークン化の非効率性は、形態的に複雑な低リソース言語に構造上の欠点を課す。
出生率(トークン/ワード)が精度を確実に予測できることが示される。
また、推論モデル(DeepSeek, o1)は非推論のピアよりも一貫して優れています。
- 参考スコア(独自算出の注目度): 0.8820808252713569
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tokenization inefficiency imposes structural disadvantages on morphologically complex, low-resource languages, inflating compute resources and depressing accuracy. We evaluate 10 large language models (LLMs) on AfriMMLU (9,000 MCQA items; 5 subjects; 16 African languages) and show that fertility (tokens/word) reliably predicts accuracy. Higher fertility consistently predicts lower accuracy across all models and subjects. We further find that reasoning models (DeepSeek, o1) consistently outperform non-reasoning peers across high and low resource languages in the AfriMMLU dataset, narrowing accuracy gaps observed in prior generations. Finally, translating token inflation to economics, a doubling in tokens results in quadrupled training cost and time, underscoring the token tax faced by many languages. These results motivate morphologically aware tokenization, fair pricing, and multilingual benchmarks for equitable natural language processing (NLP).
- Abstract(参考訳): トークン化の非効率性は、形態的に複雑で低リソースの言語に構造上の欠点を課し、計算資源を膨らませ、精度を低下させる。
AfriMMLU(9000のMCQA項目、5の被験者、16のアフリカ言語)の10大言語モデル(LLM)を評価し,出生率(トークン/ワード)が精度を確実に予測できることを示した。
高い繁殖度は、すべてのモデルと被験者の低い精度を一貫して予測する。
さらに、AfriMMLUデータセットにおいて、推論モデル(DeepSeek, o1)は、高低リソース言語における非推論ピアよりも一貫して優れており、前世代で観測された精度ギャップを狭めている。
最後に、トークンのインフレーションを経済学に翻訳し、トークンの倍増は4倍の訓練コストと時間をもたらし、多くの言語が直面するトークン税を下支えする。
これらの結果は,定型自然言語処理(NLP)のための形態的トークン化,公正価格,多言語ベンチマークを動機付けている。
関連論文リスト
- Evaluating LLMs' Multilingual Capabilities for Bengali: Benchmark Creation and Performance Analysis [0.0]
ベンガル語はNLP研究においてあまり表現されていない言語である。
ベンガルのNLP性能を阻害する課題を系統的に検討する。
ベンガル語では英語と比較して一貫した性能差がみられた。
論文 参考訳(メタデータ) (2025-07-31T05:16:43Z) - Information Locality as an Inductive Bias for Neural Language Models [52.92279412466086]
本稿では,Transformer と LSTM LM の言語学習において,$m$local entropy は困難であることを示す。
これらの結果は、ニューラルネットワークが言語の統計構造に非常に敏感であることを示唆している。
論文 参考訳(メタデータ) (2025-06-05T15:21:05Z) - Towards Typologically Aware Rescoring to Mitigate Unfaithfulness in Lower-Resource Languages [9.426642998924724]
多言語大言語モデルは、資源制約言語で非忠実な出力を生成する。
このような設定における不誠実さを軽減するため、我々は計算学的に軽量な補助モデルを用いて、より大きなアーキテクチャの出力を再評価する。
我々は,700MB未満のデータに対して,スクラッチから事前訓練した単言語4層BERTモデルにより,忠実な要約を88.33%の平均精度で識別可能であることを示した。
論文 参考訳(メタデータ) (2025-02-24T21:22:19Z) - How does a Language-Specific Tokenizer affect LLMs? [0.36248657646376703]
言語固有のトークン化器の必要性は、効果的な自然言語処理にとって直感的に重要である。
本研究では、言語固有のトークン化剤が、主に英語のテキストデータを用いて訓練された大規模言語モデルの振る舞いにどのように影響するかを考察する。
論文 参考訳(メタデータ) (2025-02-18T05:54:56Z) - Towards Faster k-Nearest-Neighbor Machine Translation [51.866464707284635]
k-nearest-neighbor 機械翻訳アプローチは、トークンをデコードする際に、データストア全体の重い検索オーバーヘッドに悩まされる。
ニューラルネットワークの翻訳モデルとkNNが生成する確率によってトークンが共同で翻訳されるべきかどうかを予測するための,単純で効果的な多層パーセプトロン(MLP)ネットワークを提案する。
本手法は,翻訳品質をわずかに低下させることなく,kNN検索のオーバーヘッドを最大53%削減する。
論文 参考訳(メタデータ) (2023-12-12T16:41:29Z) - How Robust is Neural Machine Translation to Language Imbalance in
Multilingual Tokenizer Training? [86.48323488619629]
トークン化学習コーパスにおいて,言語間でのデータ比が変化するにつれて,翻訳性能がどう変化するかを分析する。
言語が均等にサンプリングされる場合、比較的優れたパフォーマンスが観察されることが多いが、下流のパフォーマンスは、通常予想していたよりも、言語の不均衡に対して堅牢である。
論文 参考訳(メタデータ) (2022-04-29T17:50:36Z) - From Good to Best: Two-Stage Training for Cross-lingual Machine Reading
Comprehension [51.953428342923885]
モデル性能を向上させるための2段階のアプローチを開発する。
我々は、トップk予測が正確な答えを含む確率を最大化するために、ハードラーニング(HL)アルゴリズムを設計する。
第2段階では, 正解と他の候補との微妙な違いを学習するために, 解答を意識したコントラスト学習機構が開発された。
論文 参考訳(メタデータ) (2021-12-09T07:31:15Z) - Emergent Communication Pretraining for Few-Shot Machine Translation [66.48990742411033]
我々は、参照ゲームからの創発的コミュニケーションを介してニューラルネットワークを事前訓練する。
私たちの重要な前提は、実世界の環境の粗悪な近似として、画像に基づくコミュニケーションを基盤にすることで、帰納的に自然言語学習のモデルに偏りが生じる、ということです。
論文 参考訳(メタデータ) (2020-11-02T10:57:53Z) - Improving Massively Multilingual Neural Machine Translation and
Zero-Shot Translation [81.7786241489002]
ニューラルネットワーク翻訳(NMT)の多言語モデルは理論的には魅力的であるが、しばしばバイリンガルモデルに劣る。
我々は,多言語NMTが言語ペアをサポートするためにより強力なモデリング能力を必要とすることを論じる。
未知のトレーニング言語ペアの翻訳を強制するために,ランダムなオンライン翻訳を提案する。
論文 参考訳(メタデータ) (2020-04-24T17:21:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。