論文の概要: Separate Before You Compress: The WWHO Tokenization Architecture
- arxiv url: http://arxiv.org/abs/2603.25309v1
- Date: Thu, 26 Mar 2026 10:56:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.251091
- Title: Separate Before You Compress: The WWHO Tokenization Architecture
- Title(参考訳): 圧縮前に分離する - WWHOのトークン化アーキテクチャ
- Authors: Kusal Darshana,
- Abstract要約: 現在のLarge Language Models (LLM) は、主にBPE(Byte Pair Linguist)ベースのトークンライザを使用している。
WWHO(Where-What-How)とSGPE(Syllable Grapheme Pair Linguist)というアルゴリズムを提案する。
Sinhala と Devanagari (Hindi/Sanskrit) を非常に複雑な Abugida スクリプトとして使用し、クリーン化された30万文データセットで WWHO をトレーニングし、1,499,950文のテストセットで評価した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current Large Language Models (LLMs) mostly use BPE (Byte Pair Encoding) based tokenizers, which are very effective for simple structured Latin scripts such as English. However, standard BPE tokenizers struggle to process complex Abugida scripts due to their structural complexity. The problem is that these tokenizers break complex conjuncts, which are multi-codepoint grapheme clusters, into meaningless sub-character units. This degrades the LLM's reasoning efficiency by forcing it to learn basic orthographic structures at inference time and raises inference costs, resulting in a significant "Token Tax" for the Global South. We propose a new three-layer architecture, the WWHO (Where-What-How Often), and an algorithm named SGPE (Syllable-aware Grapheme Pair Encoding) that separates the linguistic rules of the script from the statistical compression process while enabling seamless multilingual tokenization. Using Sinhala and Devanagari (Hindi/Sanskrit) as highly complex Abugida scripts, we trained WWHO on a cleaned 30-million-sentence dataset and evaluated on a 1,499,950-sentence test set. For Sinhala, SGPE achieves a Token to Word Ratio (TWR) of 1.274 with 4.83 characters per token, representing a 61.7 percent reduction in tokens compared to OpenAI's o200k base. For Hindi, it achieves a TWR of 1.181 (27.0 percent reduction vs o200k). On the mixed-script (Sinhala, Devanagari, and English) dataset, SGPE achieves an overall TWR of 1.240, representing token reductions of 36.7 percent, 39.6 percent, and 60.2 percent relative to o200k base, Llama 4 Scout, and DeepSeek V3, respectively. This effectively extends the usable context window by up to 4.38 times for these Abugida languages while ensuring a Linguistic Zero-Breakage Guarantee, which ensures that no valid syllable is ever split across multiple tokens.
- Abstract(参考訳): 現在のLarge Language Models (LLM) は、主にBPE(Byte Pair Encoding)ベースのトークンライザを使用しており、英語のような単純な構造化ラテン文字に対して非常に効果的である。
しかし、標準的なBPEトークンライザは、構造的な複雑さのため、複雑なAbugidaスクリプトを処理するのに苦労している。
問題は、これらのトークン化器が、マルチコードポイントグラフ化クラスタである複雑な結合を無意味なサブ文字単位に分解することである。
このことはLLMの推論効率を低下させ、推論時に基本的な正書構造を学習させ、推論コストを上昇させ、グローバル・サウスにとって重要な「トークン税」をもたらす。
我々は,新しい3層アーキテクチャ,WWHO (Where-What-How Often) とSGPE (Syllable-aware Grapheme Pair Encoding) を提案する。
Sinhala と Devanagari (Hindi/Sanskrit) を非常に複雑な Abugida スクリプトとして使用し、クリーン化された30万文データセットで WWHO をトレーニングし、1,499,950文のテストセットで評価した。
シンハラでは、SGPEはトークン当たり4.83文字のToken to Word Ratio(TWR)を1.274で達成し、OpenAIのo200kベースに比べて61.7%のトークン削減を実現している。
ヒンディー語では、TWRは1.181(27.0%還元対o200k)である。
SGPEのデータセット(シンハラ、デバナガリ、英語)では、全体的なTWRは1.240で、トークンの減少率は36.7%、39.6%、O200kベースに対して60.2%、Llama 4 Scout、DeepSeek V3である。
これにより、これらのバグダ言語で使用可能なコンテキストウィンドウを最大4.38倍拡張し、言語的にゼロ・ブレカジ保証を保証することで、有効な音節が複数のトークンに分割されることを保証できる。
関連論文リスト
- Omnilingual SONAR: Cross-Lingual and Cross-Modal Sentence Embeddings Bridging Massively Multilingual Text and Speech [61.759910921200834]
言語間の文エンコーダは通常、数百の言語をカバーしている。
我々はOmniSONARを紹介した。OmniSONARは全言語、言語横断、言語横断の文埋め込みモデルである。
論文 参考訳(メタデータ) (2026-03-17T14:47:35Z) - The Script Tax: Measuring Tokenization-Driven Efficiency and Latency Disparities in Multilingual Language Models [0.0]
2つの正書法変種を同一言語内容と比較することにより,スクリプト税の定量化を行う。
mBERT と XLM-R にまたがって、高いフラッゲーションの正書法は、受精率を3.4倍に向上させる。
サブワードの断片化から「NLLパラドックス」を避けるために、文字単位のビット(BPC)を用いることで、情報コストが大幅に増加することが分かる。
論文 参考訳(メタデータ) (2026-01-19T14:45:40Z) - AraToken: Optimizing Arabic Tokenization with Normalization Pipeline and Language Extension for Qwen3 [4.284434049360481]
本稿では、SentencePiece Unigramアルゴリズム上に構築されたアラビア最適化トークンであるAraTokenを紹介する。
正常化したSentencePieceは、非正規化ベースラインに比べて18%低い受精率(1.199対1.35トークン/ワード)を達成することを示す。
実験の結果,LEPは100Kアラビアサンプルの800段階において,評価損失を8.28から2.43に減少させることがわかった。
論文 参考訳(メタデータ) (2025-12-20T15:32:10Z) - Tokens with Meaning: A Hybrid Tokenization Approach for NLP [0.2826977330147589]
自然言語処理(NLP)におけるトークン化の役割
規則に基づく形態素解析と統計的サブワードセグメンテーションを組み合わせたハイブリッドトークン化フレームワークを提案する。
本手法は, 音韻正規化, ルートアフィックス, および形態素保存と語彙効率のバランスをとる新しいアルゴリズムを用いる。
論文 参考訳(メタデータ) (2025-08-19T22:17:42Z) - Parity-Aware Byte-Pair Encoding: Improving Cross-lingual Fairness in Tokenization [53.22544362024936]
トークン化は、ほとんどのNLPパイプラインの最初の、そして最も精査されていないステップである。
トークンの学習のための標準的なアルゴリズムは、周波数ベースの目的に依存している。
本稿ではParity-aware Byte Pairを紹介する。
私たちは、パリティを意識したBPEが言語間でより公平なトークン数をもたらすことを実証的に見出した。
論文 参考訳(メタデータ) (2025-08-06T18:14:43Z) - MorphTok: Morphologically Grounded Tokenization for Indian Languages [18.594241501479747]
トークン化は、特に大規模言語モデル(LLM)の台頭において、NLPにおいて重要なステップである。
古典的Byte-pairを適用する前に, 形態素認識のセグメンテーションを事前学習のステップとして提案する。
音節ベースの書記システムに共通する係り受け母音を扱うために,制約付きBPE(CBPE)を提案する。
CBPEは従属母音を扱い、単一の単位として発生するのではなく、他の文字との結合単位を形成する。
論文 参考訳(メタデータ) (2025-04-14T15:44:45Z) - SuperBPE: Space Travel for Language Models [103.09169510391972]
我々は、単純なプリトークン化カリキュラムをバイトペア符号化(BPE)アルゴリズムに組み込んだ「スーパーワード」トークンライザ「SuperBPE」を導入する。
SuperBPEは、固定されたテキストを符号化し、平均してBPEよりもトークンが最大33%少ない。
我々のモデルは、30の下流タスクにわたるBPEベースラインに対して平均+4.0%の絶対的な改善を達成している。
論文 参考訳(メタデータ) (2025-03-17T17:53:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。