論文の概要: AraToken: Optimizing Arabic Tokenization with Normalization Pipeline and Language Extension for Qwen3
- arxiv url: http://arxiv.org/abs/2512.18399v1
- Date: Sat, 20 Dec 2025 15:32:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.318654
- Title: AraToken: Optimizing Arabic Tokenization with Normalization Pipeline and Language Extension for Qwen3
- Title(参考訳): AraToken: Qwen3の正規化パイプラインと言語拡張によるアラビアのトークン化の最適化
- Authors: Mark Kashirskiy, Artiom Lipinski, Ilya Makarov,
- Abstract要約: 本稿では、SentencePiece Unigramアルゴリズム上に構築されたアラビア最適化トークンであるAraTokenを紹介する。
正常化したSentencePieceは、非正規化ベースラインに比べて18%低い受精率(1.199対1.35トークン/ワード)を達成することを示す。
実験の結果,LEPは100Kアラビアサンプルの800段階において,評価損失を8.28から2.43に減少させることがわかった。
- 参考スコア(独自算出の注目度): 4.284434049360481
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tokenization is a critical preprocessing step for large language models (LLMs), directly impacting training efficiency and downstream performance. General-purpose tokenizers trained predominantly on English and Latin-script languages exhibit suboptimal performance on morphologically rich languages such as Arabic, resulting in inflated token sequences and reduced compression efficiency. In this work, we present AraToken, an Arabic-optimized tokenizer built on SentencePiece Unigram algorithm with a comprehensive normalization pipeline addressing Arabic-specific orthographic variations including Alif variants, diacritics, and Arabic-Indic numerals. We systematically compare BPE, WordPiece, and SentencePiece algorithms across multiple configurations, demonstrating that SentencePiece with normalization achieves 18% lower fertility (1.199 vs 1.35 tokens/word) compared to unnormalized baselines. Furthermore, we introduce the Language Extension Pipeline (LEP), a method for integrating the optimized tokenizer into Qwen3-0.6B through vocabulary extension with mean subtoken initialization and selective transformer layer unfreezing. Our experiments show that LEP reduces evaluation loss from 8.28 to 2.43 within 800 training steps on 100K Arabic samples. We release our tokenizer, training scripts, and model checkpoints to facilitate Arabic NLP research.
- Abstract(参考訳): トークン化は、大規模言語モデル(LLM)にとって重要な前処理ステップであり、トレーニング効率と下流のパフォーマンスに直接影響を与える。
英語やラテン文字の言語で主に訓練された汎用トークンライザは、アラビア語のような形態的に豊かな言語で最適以下の性能を示し、膨らんだトークンシーケンスと圧縮効率の低下をもたらす。
本稿では,SentencePiece Unigramアルゴリズム上に構築されたアラビア最適化トークンーであるAraTokenについて紹介する。
我々は、BPE、WordPiece、SentencePieceのアルゴリズムを複数の構成で体系的に比較し、正規化したSentencePieceは、正規化されていないベースラインに比べて18%低い受精率(1.199対1.35トークン/ワード)を達成することを示した。
さらに,Qwen3-0.6Bに最適化トークンを組み込むためのLanguage Extension Pipeline (LEP)を導入する。
実験の結果,LEPは100Kアラビアサンプルの800段階において,評価損失を8.28から2.43に減少させることがわかった。
我々は、アラビア語のNLP研究を促進するために、トークンライザ、トレーニングスクリプト、モデルチェックポイントをリリースします。
関連論文リスト
- Comparative Analysis of Tokenization Algorithms for Low-Resource Language Dzongkha [0.1019561860229868]
事前訓練されたトークンライザのほとんどは、英語のような高リソース言語に適しているが、低リソース言語では性能が悪い。
本研究では,他の一般的な手法と比較して,3種類の共通トークン化アルゴリズムの訓練と性能を評価する。
結果は、3つのアルゴリズムがすべてポテンシャルを示す一方で、SentencePieceはDzongkhaトークン化に最も効果的であることを示している。
論文 参考訳(メタデータ) (2025-09-18T07:02:55Z) - Tokens with Meaning: A Hybrid Tokenization Approach for NLP [0.2826977330147589]
自然言語処理(NLP)におけるトークン化の役割
規則に基づく形態素解析と統計的サブワードセグメンテーションを組み合わせたハイブリッドトークン化フレームワークを提案する。
本手法は, 音韻正規化, ルートアフィックス, および形態素保存と語彙効率のバランスをとる新しいアルゴリズムを用いる。
論文 参考訳(メタデータ) (2025-08-19T22:17:42Z) - Broken Tokens? Your Language Model can Secretly Handle Non-Canonical Tokenizations [83.93566096400723]
ランダムにサンプリングされたトークン化が与えられた場合、命令調整されたモデルは元の性能の最大93.4%を維持している。
文字レベルのセグメンテーションは文字列操作とコード理解タスクを最大+14%改善する。
右列桁のグルーピングは、大数の算術を+33%向上させる。
論文 参考訳(メタデータ) (2025-06-23T18:02:26Z) - MorphTok: Morphologically Grounded Tokenization for Indian Languages [18.594241501479747]
トークン化は、特に大規模言語モデル(LLM)の台頭において、NLPにおいて重要なステップである。
古典的Byte-pairを適用する前に, 形態素認識のセグメンテーションを事前学習のステップとして提案する。
音節ベースの書記システムに共通する係り受け母音を扱うために,制約付きBPE(CBPE)を提案する。
CBPEは従属母音を扱い、単一の単位として発生するのではなく、他の文字との結合単位を形成する。
論文 参考訳(メタデータ) (2025-04-14T15:44:45Z) - Splintering Nonconcatenative Languages for Better Tokenization [4.496923806879088]
本稿では,テキストを線形形式に再構成する前処理ステップであるSPLINTERを提案する。
我々は、ヘブライ語、アラビア語、マレー語におけるトークン語彙を評価する本質的な尺度を用いて、そのメリットを実証する。
論文 参考訳(メタデータ) (2025-03-18T17:11:09Z) - SuperBPE: Space Travel for Language Models [103.09169510391972]
我々は、単純なプリトークン化カリキュラムをバイトペア符号化(BPE)アルゴリズムに組み込んだ「スーパーワード」トークンライザ「SuperBPE」を導入する。
SuperBPEは、固定されたテキストを符号化し、平均してBPEよりもトークンが最大33%少ない。
我々のモデルは、30の下流タスクにわたるBPEベースラインに対して平均+4.0%の絶対的な改善を達成している。
論文 参考訳(メタデータ) (2025-03-17T17:53:23Z) - MAGNET: Improving the Multilingual Fairness of Language Models with Adaptive Gradient-Based Tokenization [81.83460411131931]
マルチ言語設定では、非ラテン語スクリプトと低リソース言語は通常、言語モデルの実用性、効率、コストの点で不利である。
適応的勾配に基づくサブワードトークン化による過分割を低減するために,多言語適応型勾配ベーストークン化を提案する。
論文 参考訳(メタデータ) (2024-07-11T18:59:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。