論文の概要: Reducing Tokenization Premiums for Low-Resource Languages
- arxiv url: http://arxiv.org/abs/2601.13328v1
- Date: Mon, 19 Jan 2026 19:08:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.028628
- Title: Reducing Tokenization Premiums for Low-Resource Languages
- Title(参考訳): 低リソース言語におけるトークン化プレミアムの削減
- Authors: Geoffrey Churchill, Steven Skiena,
- Abstract要約: 英語とは対照的に、低リソース言語は現代のLMにおいて相当なトークン化プレミアムに悩まされている。
このトークン化プレミアムは、APIとエネルギコストの増大と、これらの言語に対する効果的なコンテキストウィンドウの削減をもたらす。
マルチトークン文字を単一トークンに結合するトークン語彙へのポストホック付加による事前学習モデルにおけるトークン化プレミアムの削減機構を提案する。
- 参考スコア(独自算出の注目度): 5.02470728447561
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Relative to English, low-resource languages suffer from substantial tokenization premiums in modern LMs, meaning that it generally requires several times as many tokens to encode a sentence in a low-resource language than to encode the analogous sentence in English. This tokenization premium results in increased API and energy costs and reduced effective context windows for these languages. In this paper we analyze the tokenizers of ten popular LMs to better understand their designs and per-language tokenization premiums. We also propose a mechanism to reduce tokenization premiums in pre-trained models, by post-hoc additions to the token vocabulary that coalesce multi-token characters into single tokens. We apply this methodology to 12 low-resource languages, demonstrating that the original and compressed inputs often have similar last hidden states when run through the Llama 3.2 1B model.
- Abstract(参考訳): 英語とは対照的に、低リソース言語は現代のLMの相当なトークン化プレミアムに悩まされており、英語で類似の文をエンコードするよりも、低リソース言語で文をエンコードするトークンを何倍も必要としている。
このトークン化プレミアムは、APIとエネルギコストの増大と、これらの言語に対する効果的なコンテキストウィンドウの削減をもたらす。
本稿では,10個の人気のあるLMのトークン化器を解析し,それらの設計や言語毎のトークン化プレミアムをよりよく理解する。
また,マルチトークン文字を単一トークンに結合するトークン語彙へのポストホック付加により,事前学習モデルにおけるトークン化プレミアムを削減する機構を提案する。
この手法を12の低リソース言語に適用し、Llama 3.2 1Bモデルを実行する際に、元の入力と圧縮された入力がよく似た隠れ状態を持つことを示した。
関連論文リスト
- Explaining and Mitigating Crosslingual Tokenizer Inequities [18.823984182115712]
高いトークンプレミアムを持つことは、トレーニング中のスループットを低下させ、推論時のコストを増大させる。
97言語で約7,000の同等のモノリンガルトークンをトレーニングします。
トレーニングデータとテストデータの類似性はトークンのプレミアムに影響しないが、語彙サイズや事前トークン化には影響しない。
論文 参考訳(メタデータ) (2025-10-24T17:36:03Z) - The Token Tax: Systematic Bias in Multilingual Tokenization [0.8820808252713569]
トークン化の非効率性は、形態的に複雑な低リソース言語に構造上の欠点を課す。
出生率(トークン/ワード)が精度を確実に予測できることが示される。
また、推論モデル(DeepSeek, o1)は非推論のピアよりも一貫して優れています。
論文 参考訳(メタデータ) (2025-09-05T20:20:51Z) - Parity-Aware Byte-Pair Encoding: Improving Cross-lingual Fairness in Tokenization [53.22544362024936]
トークン化は、ほとんどのNLPパイプラインの最初の、そして最も精査されていないステップである。
トークンの学習のための標準的なアルゴリズムは、周波数ベースの目的に依存している。
本稿ではParity-aware Byte Pairを紹介する。
私たちは、パリティを意識したBPEが言語間でより公平なトークン数をもたらすことを実証的に見出した。
論文 参考訳(メタデータ) (2025-08-06T18:14:43Z) - Sampling from Your Language Model One Byte at a Time [82.71473348639489]
トークン化は、PBP(Prompt Boundary Problem)として知られるモデル世代に歪みをもたらす可能性がある。
BPEトークン化器を用いて任意のオートレ LM を文字レベルまたはバイトレベル LM に変換する推論時間法を提案する。
提案手法は, PBPを効率的に解き, 異なるトークン化器で言語モデルの語彙を統一することができる。
論文 参考訳(メタデータ) (2025-06-17T02:37:04Z) - Comparative analysis of subword tokenization approaches for Indian languages [5.012314384895538]
トークン化(Tokenization)とは、テキストを小さな部分(トークン)に分割することで、機械が処理しやすいようにする行為である。
サブワードトークン化は、単語を小さなサブワード単位に分割することで、このプロセスを強化する。
これは、接頭辞、接尾辞、その他の形態変化など、インドの言語(IL)における単語の複雑な構造を捉えるのに有用である。
本稿では,SentencePiece,Byte Pair,WordPiece Tokenizationなどのサブワードトークン技術がILに与える影響について検討する。
論文 参考訳(メタデータ) (2025-05-22T16:24:37Z) - Beyond Literal Token Overlap: Token Alignability for Multilinguality [53.680462160878925]
我々は,多言語トークン化の効果と品質を理解する新しい方法として,サブワードトークン整合性を提案する。
特に、この指標は、スクリプトが異なっており、リテラルトークンの重複が低い場合、多言語性を予測する。
言語間移動のための最適な言語ペアを特定するために,我々のサブワードトークン整合性指標を推奨する。
論文 参考訳(メタデータ) (2025-02-10T13:50:12Z) - From Language Models over Tokens to Language Models over Characters [54.123846188068384]
現代の言語モデルは、$itcharacter$ stringsではなく$ittoken$ strings上の内部的、数学的に...分布である。
本稿では,トークンレベル言語モデルから文字レベル言語への変換アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-12-04T21:19:20Z) - Do All Languages Cost the Same? Tokenization in the Era of Commercial
Language Models [68.29126169579132]
APIベンダは、使用量に基づいてユーザを課金する。具体的には、基盤となる言語モデルによって処理されたトークンの数や生成されるトークンの数に基づいて。
しかし、トークンを構成するのは、異なる言語で同じ情報を伝達するのに必要なトークンの数に大きなばらつきに依存するトレーニングデータとモデルである。
我々は, OpenAI の言語モデル API のコストと有用性について,22言語で多言語ベンチマークを行った。
論文 参考訳(メタデータ) (2023-05-23T05:46:45Z) - Crowdsourced Phrase-Based Tokenization for Low-Resourced Neural Machine
Translation: The Case of Fon Language [0.015863809575305417]
人間関係のスーパーワードトークン化戦略であるWord-Expressions-Based(WEB)トークン化について紹介します。
トークン化戦略を、Fon- French と French-Fon の翻訳タスクで比較する。
論文 参考訳(メタデータ) (2021-03-14T22:12:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。