論文の概要: Beyond Fertility: Analyzing STRR as a Metric for Multilingual Tokenization Evaluation
- arxiv url: http://arxiv.org/abs/2510.09947v1
- Date: Sat, 11 Oct 2025 01:22:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.708378
- Title: Beyond Fertility: Analyzing STRR as a Metric for Multilingual Tokenization Evaluation
- Title(参考訳): 妊婦の超越性:STRRを多言語化評価の指標として分析する
- Authors: Mir Tafseer Nayeem, Sawsan Alqahtani, Md Tahmid Rahman Laskar, Tasnim Mohiuddin, M Saiful Bari,
- Abstract要約: 7つの言語と2つのドメインにまたがる6つの広く使われているトークンを解析する。
単一トークンとして保存される単語の割合を計測する単一トークン保持率(STRR)を提案する。
以上の結果から,STRRは不妊を補完し,より平等な多言語トークン化器の設計のための実践的ガイダンスを提供することがわかった。
- 参考スコア(独自算出の注目度): 13.843070750282605
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tokenization is a crucial but under-evaluated step in large language models (LLMs). The standard metric, fertility (the average number of tokens per word), captures compression efficiency but obscures how vocabularies are allocated across languages and domains. We analyze six widely used tokenizers across seven languages and two domains, finding stable fertility for English, high fertility for Chinese, and little domain sensitivity. To address fertility's blind spots, we propose the Single Token Retention Rate (STRR), which measures the proportion of words preserved as single tokens. STRR reveals systematic prioritization of English, strong support for Chinese, and fragmentation in Hindi, offering an interpretable view of cross-lingual fairness. Our results show that STRR complements fertility and provides practical guidance for designing more equitable multilingual tokenizers.
- Abstract(参考訳): トークン化は、大規模言語モデル(LLM)において重要なステップであるが、過小評価されていないステップである。
標準的なメートル法、肥大(単語当たりの平均トークン数)は圧縮効率を捉えるが、語彙が言語やドメイン間でどのように割り当てられているかははっきりしない。
7つの言語と2つのドメインにまたがって広く利用されている6つのトークン化剤を解析し、英語に安定な肥料、中国語に高い肥料、ドメインの感度がほとんどなかった。
肥育者の盲点に対処するため,単一トークンとして保存される単語の割合を計測する単一トークン保持率(STRR)を提案する。
STRRは、英語の体系的な優先順位付け、中国語への強い支持、ヒンディー語における断片化を明らかにし、言語間の公正性の解釈可能な見解を提供する。
以上の結果から,STRRは不妊を補完し,より平等な多言語トークン化器の設計のための実践的ガイダンスを提供することがわかった。
関連論文リスト
- Parallel Tokenizers: Rethinking Vocabulary Design for Cross-Lingual Transfer [13.630754537249707]
トークン化は多言語言語モデルの基盤を定義する。
新しいフレームワークは、単言語でトークンを訓練し、バイリンガル辞書や単語間翻訳を用いて語彙を徹底的に調整する。
論文 参考訳(メタデータ) (2025-10-07T17:05:49Z) - Multilingual Tokenization through the Lens of Indian Languages: Challenges and Insights [27.369278566345074]
本稿では17言語にわたるトークン化戦略の本質的な評価について述べる。
ボトムアップとトップダウンのトークン化アルゴリズムのトレードオフを定量化する。
極端に低リソースな言語は、関連する高リソースな言語で訓練されたトークン化ツールの恩恵を受けることができることを示す。
論文 参考訳(メタデータ) (2025-06-21T18:47:33Z) - The Lou Dataset -- Exploring the Impact of Gender-Fair Language in German Text Classification [57.06913662622832]
ジェンダーフェア言語は、すべての性別に対処したり、中立形を使用することによって包摂性を促進する。
ジェンダーフェア言語はラベルを反転させ、確実性を減らし、注意パターンを変化させることで予測に大きな影響を及ぼす。
ドイツ語のテキスト分類への影響について最初の知見を提供する一方で、他の言語にもその知見が当てはまる可能性が高い。
論文 参考訳(メタデータ) (2024-09-26T15:08:17Z) - VECO 2.0: Cross-lingual Language Model Pre-training with
Multi-granularity Contrastive Learning [56.47303426167584]
複数粒度アライメントを持つコントラスト学習に基づく言語間事前学習モデルVECO2.0を提案する。
具体的には、シーケンス・ツー・シーケンスアライメントが誘導され、並列対の類似性を最大化し、非並列対を最小化する。
トークン・ツー・トークンのアライメントは、シソーラス辞書を介して発掘された同義トークンと、バイリンガルな例の他の未使用トークンとのギャップを埋めるために統合される。
論文 参考訳(メタデータ) (2023-04-17T12:23:41Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - A Generalized Constraint Approach to Bilingual Dictionary Induction for
Low-Resource Language Families [1.0312968200748118]
密接に関連する言語に対する制約に基づくバイリンガル語彙帰納法を提案する。
我々はコグネート同義語を多対多の翻訳対を得るために同定する。
論文 参考訳(メタデータ) (2020-10-05T23:41:04Z) - Self-Attention with Cross-Lingual Position Representation [112.05807284056337]
位置符号化(PE)は、自然言語処理タスクの単語順序情報を保存し、入力シーケンスの固定位置インデックスを生成する。
語順が異なるため、言語間の位置関係をモデル化することは、SANがこの問題に取り組むのに役立つ。
我々は、入力文のバイリンガル認識潜在構造をモデル化するために、言語間位置表現によるSANを拡大する。
論文 参考訳(メタデータ) (2020-04-28T05:23:43Z) - Knowledge Distillation for Multilingual Unsupervised Neural Machine
Translation [61.88012735215636]
unsupervised neural machine translation (UNMT) は、最近、いくつかの言語対に対して顕著な結果を得た。
UNMTは単一の言語ペア間でのみ翻訳することができ、同時に複数の言語ペアに対して翻訳結果を生成することはできない。
本稿では,1つのエンコーダと1つのデコーダを用いて13言語間を翻訳する簡単な手法を実証的に紹介する。
論文 参考訳(メタデータ) (2020-04-21T17:26:16Z) - A Study of Cross-Lingual Ability and Language-specific Information in
Multilingual BERT [60.9051207862378]
Multilingual BERTは、言語間転送タスクで驚くほどうまく機能します。
データサイズとコンテキストウィンドウサイズは、転送可能性にとって重要な要素です。
多言語BERTの言語間能力を改善するために、計算的に安価だが効果的なアプローチがある。
論文 参考訳(メタデータ) (2020-04-20T11:13:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。