論文の概要: The Tokenizer Tax Across 25 European Languages: Domain Invariance, Cross-Lingual Few-Shot Effects, and the Ukrainian Penalty
- arxiv url: http://arxiv.org/abs/2605.24718v1
- Date: Sat, 23 May 2026 20:13:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:18.343874
- Title: The Tokenizer Tax Across 25 European Languages: Domain Invariance, Cross-Lingual Few-Shot Effects, and the Ukrainian Penalty
- Title(参考訳): ヨーロッパ25言語にまたがるトケナイザー税--ドメイン不変性、言語間差異、ウクライナの刑罰-
- Authors: Volodymyr Ovcharov,
- Abstract要約: トケナイザーの出生率 単語当たりのトークンの数は、非英語のNLPに隠れたコストを課す。
パラレルテキストで25のヨーロッパ言語にわたる10の基盤モデルの出生率を測定します。
我々は大陸で最初に管理されたトークン発行者税の地図を作成した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tokenizer fertility the number of tokens per word imposes a hidden cost on non-English NLP. We measure fertility for ten foundation models across 25 European languages on parallel text, producing the first controlled tokenizer tax map for the continent. The tax spans 2.5x from English (1.2 tokens/word) to Greek/Maltese (~3.1), following a clear hierarchy: Romance (1.5-1.7), Germanic (1.7-1.9), Slavic (2.2-2.5), Uralic/Baltic (2.7-3.0). Ukrainian (2.7) pays 15-18% more than cognate Slavic languages, reflecting underrepresentation in pre-training data. Fertility rankings are domain-invariant across three text registers (rho > 0.97). A subword analysis reveals that high-fertility tokenizers fragment morphological boundaries rather than preserving them. Cross-lingual few-shot evaluation on four Slavic languages shows that few-shot effects are model-intrinsic, not language-dependent. We release all measurements as a public dataset.
- Abstract(参考訳): トケナイザーの出生率 単語当たりのトークンの数は、非英語のNLPに隠れたコストを課す。
欧州の25言語にまたがる10の基盤モデルの出生率をパラレルテキストで測定し、大陸で最初のコントロールされたトークン化剤税の地図を作成する。
税額は英語(1.2トークン/ワード)からギリシア語/マルタ語(~3.1)まで2.5倍で、ロマンス (1.5-1.7)、ゲルマン語 (1.7-1.9)、スラヴ語 (2.2-2.5)、ウラル語/バルト語 (2.7-3.0) という明確な階層に次いでいる。
ウクライナ人 (2.7) はスラヴ語よりも15-18%多く支払い、事前訓練データの不足を反映している。
出生率ランキングは3つのテキストレジスタでドメイン不変である(rho > 0.97)。
サブワード解析により、高い妊具は保存するよりも、形態的境界を断片化することが明らかとなった。
4つのスラヴ語における言語間数ショットの評価は、少数ショット効果はモデル固有のものであり、言語に依存しないことを示している。
すべての測定結果を公開データセットとしてリリースします。
関連論文リスト
- The Script Tax: Measuring Tokenization-Driven Efficiency and Latency Disparities in Multilingual Language Models [0.0]
2つの正書法変種を同一言語内容と比較することにより,スクリプト税の定量化を行う。
mBERT と XLM-R にまたがって、高いフラッゲーションの正書法は、受精率を3.4倍に向上させる。
サブワードの断片化から「NLLパラドックス」を避けるために、文字単位のビット(BPC)を用いることで、情報コストが大幅に増加することが分かる。
論文 参考訳(メタデータ) (2026-01-19T14:45:40Z) - Beyond Fertility: Analyzing STRR as a Metric for Multilingual Tokenization Evaluation [13.843070750282605]
7つの言語と2つのドメインにまたがる6つの広く使われているトークンを解析する。
単一トークンとして保存される単語の割合を計測する単一トークン保持率(STRR)を提案する。
以上の結果から,STRRは不妊を補完し,より平等な多言語トークン化器の設計のための実践的ガイダンスを提供することがわかった。
論文 参考訳(メタデータ) (2025-10-11T01:22:31Z) - False Friends Are Not Foes: Investigating Vocabulary Overlap in Multilingual Language Models [53.01170039144264]
多言語コーパスで訓練されたサブワードトークンライザは、言語間で重複するトークンを自然に生成する。
トークンの重複は言語間転送を促進するのか、それとも言語間の干渉を導入するのか?
相反する語彙を持つモデルでは、重なり合う結果が得られます。
論文 参考訳(メタデータ) (2025-09-23T07:47:54Z) - The Token Tax: Systematic Bias in Multilingual Tokenization [0.8820808252713569]
トークン化の非効率性は、形態的に複雑な低リソース言語に構造上の欠点を課す。
出生率(トークン/ワード)が精度を確実に予測できることが示される。
また、推論モデル(DeepSeek, o1)は非推論のピアよりも一貫して優れています。
論文 参考訳(メタデータ) (2025-09-05T20:20:51Z) - The Lou Dataset -- Exploring the Impact of Gender-Fair Language in German Text Classification [57.06913662622832]
ジェンダーフェア言語は、すべての性別に対処したり、中立形を使用することによって包摂性を促進する。
ジェンダーフェア言語はラベルを反転させ、確実性を減らし、注意パターンを変化させることで予測に大きな影響を及ぼす。
ドイツ語のテキスト分類への影響について最初の知見を提供する一方で、他の言語にもその知見が当てはまる可能性が高い。
論文 参考訳(メタデータ) (2024-09-26T15:08:17Z) - Decoupled Vocabulary Learning Enables Zero-Shot Translation from Unseen Languages [55.157295899188476]
ニューラルマシン翻訳システムは、異なる言語の文を共通の表現空間にマッピングすることを学ぶ。
本研究では、この仮説を未知の言語からのゼロショット翻訳により検証する。
この設定により、全く見えない言語からのゼロショット翻訳が可能になることを実証する。
論文 参考訳(メタデータ) (2024-08-05T07:58:58Z) - Multilingual Holistic Bias: Extending Descriptors and Patterns to Unveil
Demographic Biases in Languages at Scale [0.21079694661943604]
この拡張は、20,459の文からなる。
我々のベンチマークは、人口動態の不均衡を明らかにすることを目的としており、それらに対する緩和を定量化するためのツールである。
論文 参考訳(メタデータ) (2023-05-22T16:29:04Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - Inducing Language-Agnostic Multilingual Representations [61.97381112847459]
言語間の表現は、世界中のほとんどの言語でNLP技術が利用可能になる可能性がある。
i) 対象言語のベクトル空間をピボットソース言語に再配置すること、(ii) 言語固有の手段と分散を取り除くこと、(ii) 副産物としての埋め込みの識別性を向上すること、(iii) 形態的制約や文の並べ替えを除去することによって言語間の入力類似性を高めること、の3つのアプローチを検討する。
論文 参考訳(メタデータ) (2020-08-20T17:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。