論文の概要: Tokenization Disparities as Infrastructure Bias: How Subword Systems Create Inequities in LLM Access and Efficiency
- arxiv url: http://arxiv.org/abs/2510.12389v1
- Date: Tue, 14 Oct 2025 11:14:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.289536
- Title: Tokenization Disparities as Infrastructure Bias: How Subword Systems Create Inequities in LLM Access and Efficiency
- Title(参考訳): インフラストラクチャバイアスとしてのトークン化の差異:LLMアクセスと効率性におけるサブワードシステムの不等式の生成方法
- Authors: Hailay Kidu Teklehaymanot, Wolfgang Nejdl,
- Abstract要約: トークン化の格差は、人工知能への公平なアクセスを達成する上で重要な障壁となる。
本研究では,200以上の言語におけるトークン化効率の大規模クロス言語的評価を行う。
- 参考スコア(独自算出の注目度): 6.943451388015595
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tokenization disparities pose a significant barrier to achieving equitable access to artificial intelligence across linguistically diverse populations. This study conducts a large-scale cross-linguistic evaluation of tokenization efficiency in over 200 languages to systematically quantify computational inequities in large language models (LLMs). Using a standardized experimental framework, we applied consistent preprocessing and normalization protocols, followed by uniform tokenization through the tiktoken library across all language samples. Comprehensive tokenization statistics were collected using established evaluation metrics, including Tokens Per Sentence (TPS) and Relative Tokenization Cost (RTC), benchmarked against English baselines. Our cross-linguistic analysis reveals substantial and systematic disparities: Latin-script languages consistently exhibit higher tokenization efficiency, while non-Latin and morphologically complex languages incur significantly greater token inflation, often 3-5 times higher RTC ratios. These inefficiencies translate into increased computational costs and reduced effective context utilization for underrepresented languages. Overall, the findings highlight structural inequities in current AI systems, where speakers of low-resource and non-Latin languages face disproportionate computational disadvantages. Future research should prioritize the development of linguistically informed tokenization strategies and adaptive vocabulary construction methods that incorporate typological diversity, ensuring more inclusive and computationally equitable multilingual AI systems.
- Abstract(参考訳): トークン化の格差は、言語的に多様な集団にわたって、人工知能への公平なアクセスを達成するための重要な障壁となっている。
本研究では,200以上の言語において,大規模言語モデル(LLM)における計算不等式を体系的に定量化するために,トークン化効率の大規模クロス言語的評価を行う。
標準化された実験フレームワークを用いて、一貫した前処理プロトコルと正規化プロトコルを適用し、その後、すべての言語サンプルを対象としたTiktokenライブラリを通して均一なトークン化を行った。
TPS(Tokens Per Sentence)やRTC(Relative Tokenization Cost)など,既存の評価指標を用いて,包括的なトークン化統計を収集した。
ラテン文字言語は一貫して高いトークン化効率を示し、非ラテン語言語と形態学的に複雑な言語は、トークンのインフレーションが大幅に大きくなり、しばしばRTC比の3~5倍になる。
これらの非効率性は、計算コストの増大と、表現不足言語に対する効果的な文脈利用の削減に変換される。
全体として、この発見は、低リソース言語と非ラテン言語の話者が不均等な計算上の欠点に直面している、現在のAIシステムの構造的不平等を浮き彫りにしている。
今後の研究は、言語学的多様性を取り入れた言語情報化戦略と適応語彙構築手法の開発を優先し、より包括的で計算学的に等価な多言語AIシステムを確保するべきである。
関連論文リスト
- Code-Switching In-Context Learning for Cross-Lingual Transfer of Large Language Models [64.54005959758733]
我々は,コードスイッチング・イン・コンテキスト・ラーニング(CSICL)を,推論中の翻訳障壁を克服するための原則的かつ堅牢なアプローチとして導入する。
4つのLLM、6つのデータセット、10の言語にわたる広範な実験を行い、知識集約型ドメインと推論指向ドメインの両方にまたがる。
その結果、CSICLはX-ICLベースラインを一貫して上回り、ターゲット言語と見当たらない言語の両方で3.1%pと1.9%pを達成した。
論文 参考訳(メタデータ) (2025-10-07T08:35:42Z) - Parallel Scaling Law: Unveiling Reasoning Generalization through A Cross-Linguistic Perspective [52.452449102961225]
本研究は、推論一般化を探求する新たな言語横断的視点を提案する。
本研究により,言語間の伝達性は,初期モデル,対象言語,訓練パラダイムによって大きく異なることが明らかとなった。
我々の研究は、LRM推論が人間の認知を反映し、言語に依存しないLRMの開発に重要な洞察を与えるという仮定に挑戦する。
論文 参考訳(メタデータ) (2025-10-02T17:49:49Z) - Doğal Dil İşlemede Tokenizasyon Standartları ve Ölçümü: Türkçe Üzerinden Büyük Dil Modellerinin Karşılaştırmalı Analizi [0.29687381456163997]
本研究では,トルコ語などの形態学的に豊かな低リソース言語に特有なトークン化問題に対処する新たな評価フレームワークを提案する。
我々は,語彙サイズ,トークン数,処理時間,言語固有のトークンパーセンテージ(%TR),トークン純度(%Pure)に基づいてトークン化器の評価を行った。
分析の結果,言語固有のトークンパーセンテージは,トークン純度よりも下流のパフォーマンス(MMLUスコアなど)との相関が強いことが明らかとなった。
論文 参考訳(メタデータ) (2025-08-18T16:26:42Z) - The Art of Breaking Words: Rethinking Multilingual Tokenizer Design [21.9940001977516]
既存のトークン化器は高いトークン対ワード比、文脈長の非効率な使用、推論の遅さを示す。
本稿では,語彙サイズ,事前トークン化規則,トレーニングコーパス構成をトークン・ツー・ワード効率とモデル品質の両方に関連付ける体系的な研究を提案する。
我々のトークンライザは、最先端の多言語インデックスモデルに対して平均トークン対ワード比を40%以上改善する。
論文 参考訳(メタデータ) (2025-08-03T15:31:10Z) - Mechanistic Understanding and Mitigation of Language Confusion in English-Centric Large Language Models [56.61984030508691]
言語混乱に関する最初の機械論的解釈可能性研究について述べる。
混乱点(CP)がこの現象の中心であることを示す。
比較分析によって同定された少数の臨界ニューロンを多言語で調整したニューロンで編集すると、混乱が著しく軽減されることがわかった。
論文 参考訳(メタデータ) (2025-05-22T11:29:17Z) - Tokenization Standards for Linguistic Integrity: Turkish as a Benchmark [0.29687381456163997]
トークン化はNLPの基本的な前処理ステップであり、大きな言語モデルが構文、形態素合成、意味構造をキャプチャする能力に直接影響を及ぼす。
本稿では,形態的にリッチで低リソースな言語における課題に対処する,トークン化戦略を評価するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-10T21:47:49Z) - Towards Linguistically-Aware and Language-Independent Tokenization for Large Language Models (LLMs) [0.09374652839580183]
本稿では,最先端の大規模言語モデル(LLM)が採用するトークン化手法について述べる。
本研究は,これらのモデル間で観測されるトークン化の多様性を評価し,サブワードトークン化における言語表現の課題について検討する。
本研究の目的は、この領域以降のAIサービスの開発において、一般化可能な国際化(I18N)の実践を促進することである。
論文 参考訳(メタデータ) (2024-10-04T16:18:29Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - Evaluating Multilingual Text Encoders for Unsupervised Cross-Lingual
Retrieval [51.60862829942932]
本稿では,言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性に着目した体系的実証研究を行う。
文レベルのCLIRでは、最先端のパフォーマンスが達成できることを実証する。
しかし、ピーク性能は、汎用の多言語テキストエンコーダをオフ・ザ・シェルフで使うのではなく、文の理解タスクにさらに特化したバリエーションに依存している。
論文 参考訳(メタデータ) (2021-01-21T00:15:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。