論文の概要: The Script Tax: Measuring Tokenization-Driven Efficiency and Latency Disparities in Multilingual Language Models
- arxiv url: http://arxiv.org/abs/2602.11174v1
- Date: Mon, 19 Jan 2026 14:45:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-15 14:54:53.725152
- Title: The Script Tax: Measuring Tokenization-Driven Efficiency and Latency Disparities in Multilingual Language Models
- Title(参考訳): スクリプト税:多言語言語モデルにおけるトークン化による効率性とレイテンシの差異の測定
- Authors: Aradhya Dixit, Shreem Dixit,
- Abstract要約: 2つの正書法変種を同一言語内容と比較することにより,スクリプト税の定量化を行う。
mBERT と XLM-R にまたがって、高いフラッゲーションの正書法は、受精率を3.4倍に向上させる。
サブワードの断片化から「NLLパラドックス」を避けるために、文字単位のビット(BPC)を用いることで、情報コストが大幅に増加することが分かる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pretrained multilingual language models are often assumed to be script-agnostic, yet their tokenizers can impose systematic costs on certain writing systems. We quantify this script tax by comparing two orthographic variants with identical linguistic content. Across mBERT and XLM-R, the higher-fragmentation orthography shows a ~3.4x increase in fertility (6.73-6.85 vs. 2.10-2.35 tokens/word), leading to a 16.5x inference slowdown (0.23 vs. 3.8 sentences/second) on identical hardware. Using bits per character (BPC) to avoid the "NLL paradox" from subword fragmentation, we find a substantial increase in information cost: +19.7% for mBERT (8.06->9.65) and +47.1% for XLM-R (12.19->17.94). A round-trip conversion check (CER_rt=0.31) suggests these gaps reflect orthography-conditioned processing rather than mapping noise. Our results highlight tokenization as a key source of inequity in multilingual NLP and motivate script-aware tokenization and pretraining.
- Abstract(参考訳): 事前訓練された多言語言語モデルはスクリプトに依存しないと考えられがちだが、トークン化器は特定の書き込みシステムに体系的なコストを課すことができる。
2つの正書法と同一の言語内容を比較することで、このスクリプト税を定量化する。
mBERT と XLM-R にまたがって、高いフラグメンテーションの正書法では、同じハードウェア上で16.5x の推論速度低下(0.23 対 3.8 文/秒)を生じる肥大化(6.73-6.85 対 2.10-2.35 トークン/ワード)が ~3.4 倍に増加する。
サブワードの断片化から"NLL paradox"を避けるために、文字当たりビット(BPC)を使用すると、mBERT (8.06->9.65) の +19.7%、XLM-R (12.19->17.94) の +47.1% という情報コストが大幅に増加する。
ラウンドトリップ変換チェック (CER_rt=0.31) は、これらのギャップは、マッピングノイズではなく、直交条件の処理を反映していることを示している。
本結果は,多言語NLPにおける不等式の重要な原因としてトークン化に注目し,スクリプト認識型トークン化と事前学習を動機付ける。
関連論文リスト
- GemDetox at TextDetox CLEF 2025: Enhancing a Massively Multilingual Model for Text Detoxification on Low-resource Languages [32.22353317193898]
PAN 2025 Multilingual Text Detoxification Challengeについて述べる。
パラメータ効率のよいLoRA SFT微調整を施し、少数ショットやチェーン・オブ・サートのような技法を推し進める。
当社のシステムは、まず、高リソースおよび低リソース言語にランク付けする。
論文 参考訳(メタデータ) (2025-09-24T10:06:40Z) - Sketch-of-Thought: Efficient LLM Reasoning with Adaptive Cognitive-Inspired Sketching [64.74765550805024]
Chain-of-Thoughtはステップバイステップの問題解決を促すが、中間出力の過剰な冗長性を犠牲にすることが多い。
我々は,認知にインスパイアされた推論パラダイムを言語制約と統合する促進フレームワークであるSketch-of-Thought(SoT)を提案する。
SoTはトークンを最大84%削減し、18の推論データセットで最小限の精度ロスを達成している。
論文 参考訳(メタデータ) (2025-03-07T06:57:17Z) - Retrofitting Large Language Models with Dynamic Tokenization [3.608780819053423]
現在の言語モデル(LM)は固定された静的なサブワードトークン化器を使用する。
このデフォルトの選択は一般的に、特に英語以外の言語において、効率と言語能力の低下をもたらす。
入力テキストに基づいてトークン境界を動的に決定する手法として,動的トークン化を用いたLMの再構成を提案する。
論文 参考訳(メタデータ) (2024-11-27T17:51:58Z) - Unlikelihood Tuning on Negative Samples Amazingly Improves Zero-Shot
Translation [79.96416609433724]
Zero-shot Translation (ZST)は、トレーニングデータにおいて、目に見えない言語ペア間の翻訳を目的としている。
推論中にゼロショット言語マッピングをガイドする一般的な方法は、ソースとターゲット言語IDを意図的に挿入することである。
近年の研究では、言語IDが時折ZSTタスクのナビゲートに失敗し、ターゲット外問題に悩まされることが示されている。
論文 参考訳(メタデータ) (2023-09-28T17:02:36Z) - Decomposed Prompting for Machine Translation Between Related Languages
using Large Language Models [55.35106713257871]
DecoMTは、単語チャンク翻訳のシーケンスに翻訳プロセスを分解する、数発のプロンプトの新しいアプローチである。
DecoMTはBLOOMモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-22T14:52:47Z) - Scaling Up Deliberation for Multilingual ASR [36.860327600638705]
多言語音声認識のための第2パス検討について検討する。
テキストエンコーダは複数の言語からの仮説テキストをエンコードし,デコーダは多言語テキストと音声に付随する。
検討の結果,9言語の平均 WER はシングルパスモデルと比較して4% 向上していることがわかった。
論文 参考訳(メタデータ) (2022-10-11T21:07:00Z) - Making Large Language Models Better Reasoners with Step-Aware Verifier [49.16750018427259]
DIVERSE(Diverse Verifier on Reasoning Step)は、言語モデルの推論能力をさらに強化する新しいアプローチである。
最新の言語モデルであるcode-davinci 上で DIVERSE を評価し,8つの推論ベンチマークのうち6つで新たな最先端結果が得られることを示す。
論文 参考訳(メタデータ) (2022-06-06T03:38:36Z) - Exposing Cross-Lingual Lexical Knowledge from Multilingual Sentence
Encoders [85.80950708769923]
本稿では,多言語言語モデルを用いて,それらのパラメータに格納された言語間語彙の知識量を探索し,元の多言語LMと比較する。
また、この知識を付加的に微調整した多言語モデルにより公開する新しい手法も考案した。
標準ベンチマークの大幅な向上を報告します。
論文 参考訳(メタデータ) (2022-04-30T13:23:16Z) - Inducing Language-Agnostic Multilingual Representations [61.97381112847459]
言語間の表現は、世界中のほとんどの言語でNLP技術が利用可能になる可能性がある。
i) 対象言語のベクトル空間をピボットソース言語に再配置すること、(ii) 言語固有の手段と分散を取り除くこと、(ii) 副産物としての埋め込みの識別性を向上すること、(iii) 形態的制約や文の並べ替えを除去することによって言語間の入力類似性を高めること、の3つのアプローチを検討する。
論文 参考訳(メタデータ) (2020-08-20T17:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。