論文の概要: IndicSuperTokenizer: An Optimized Tokenizer for Indic Multilingual LLMs
- arxiv url: http://arxiv.org/abs/2511.03237v1
- Date: Wed, 05 Nov 2025 06:57:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 18:19:32.362986
- Title: IndicSuperTokenizer: An Optimized Tokenizer for Indic Multilingual LLMs
- Title(参考訳): IndicSuperTokenizer: Indic Multilingual LLMのための最適化トケナイザ
- Authors: Souvik Rana, Arul Menezes, Ashish Kulkarni, Chandra Khatri, Shubham Agarwal,
- Abstract要約: IndicSuperTokenizerは、Indic Multilingual LLMのトークンである。
サブワードとマルチワードトークン化、および言語固有のトークンを事前トークン化する。
LLaMA4より平均出生率39.5%、経度より18%向上している。
- 参考スコア(独自算出の注目度): 5.068673710249497
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tokenizers play a crucial role in determining the performance, training efficiency, and the inference cost of Large Language Models (LLMs). Designing effective tokenizers for multilingual LLMs is particularly challenging due to diverse scripts and rich morphological variation. While subword methods such as Byte Pair Encoding (BPE) are widely adopted, their effectiveness in multilingual settings remains underexplored. We present IndicSuperTokenizer, a tokenizer for Indic multilingual LLMs, that combines both subword and multi-word tokenization, along with language-specific pre-tokenization, leading to more linguistically aligned tokens and achieving a new state-of-the-art in fertility score. Evaluated across English, 22 Indian languages and code data, our tokenizer improves the average fertility score by 39.5% over LLaMA4 and by 18% over Sutra (the current best). This translates to 44% improvement in inference throughput over LLaMA4 while maintaining comparable performance on English and Indic benchmarks. We also present detailed ablations across tokenizer training data size, vocabulary size, merging techniques, and pre-tokenization strategies, demonstrating the robustness of our design choices.
- Abstract(参考訳): トケナイザーは、大規模言語モデル(LLM)の性能、訓練効率、推論コストを決定する上で重要な役割を果たす。
多言語LLMのための効果的なトークン化器の設計は、多種多様なスクリプトと豊富な形態変化のために特に困難である。
Byte Pair Encoding (BPE) などのサブワード方式が広く採用されているが、多言語設定におけるその有効性は未定である。
Indic SuperTokenizer, Indic Multilingual LLMs, which is a tokenizer for Indic multilingual LLMs, which which combined with subword and multi-word tokenization with language-specific pre-tokenization, led to more languageally aligned tokens and a new-of-the-art in fertility score。
英語、22のインドの言語、およびコードデータで評価され、我々のトークンーはLLaMA4の平均出生率を39.5%改善し、経度を18%向上させた(現在の最高値)。
これは、LLaMA4よりも推論スループットが44%向上し、イングリッシュとインデックスのベンチマークで同等のパフォーマンスを維持していることを意味している。
また、トークンエーザのトレーニングデータサイズ、語彙サイズ、マージテクニック、事前トークン化戦略に関する詳細な説明を行い、設計選択の堅牢性を示す。
関連論文リスト
- Multilingual Tokenization through the Lens of Indian Languages: Challenges and Insights [27.369278566345074]
本稿では17言語にわたるトークン化戦略の本質的な評価について述べる。
ボトムアップとトップダウンのトークン化アルゴリズムのトレードオフを定量化する。
極端に低リソースな言語は、関連する高リソースな言語で訓練されたトークン化ツールの恩恵を受けることができることを示す。
論文 参考訳(メタデータ) (2025-06-21T18:47:33Z) - Evaluating Tokenizer Performance of Large Language Models Across Official Indian Languages [0.0]
本稿では,12の大規模言語モデル (LLM) が使用するトークンの包括的評価を行った。
SUTRAトークンライザは、いくつかのIndic特化モデルを含む他のモデルよりも優れており、14言語で優れている。
本研究は,多言語およびインデックス中心モデルを対象としたトークン化戦略の開発において重要であることを示す。
論文 参考訳(メタデータ) (2024-11-19T05:37:17Z) - Parrot: Multilingual Visual Instruction Tuning [66.65963606552839]
既存の手法では、視覚エンコーダを教師付き微調整(SFT)を介してMLLM(Multimodal Large Language Models)と整列させるのが一般的である。
言語レベルでの視覚的トークンアライメントにテキストガイダンスを活用する新しいアプローチであるPARROTを提案する。
我々は6言語、15カテゴリ、12,000の質問からなる新しいベンチマークであるMassive Multilingual Multimodal Benchmark (MMMB)を紹介する。
論文 参考訳(メタデータ) (2024-06-04T17:56:28Z) - Romanization-based Large-scale Adaptation of Multilingual Language
Models [124.57923286144515]
大規模多言語事前学習言語モデル (mPLMs) は,NLPにおける多言語間移動のデファクトステートとなっている。
我々は、mPLMをローマン化および非ロマン化した14の低リソース言語コーパスに適用するためのデータとパラメータ効率の戦略を多数検討し、比較した。
以上の結果から, UROMAN をベースとしたトランスリテラルは,多くの言語で高い性能を達成できることがわかった。
論文 参考訳(メタデータ) (2023-04-18T09:58:34Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - Exposing Cross-Lingual Lexical Knowledge from Multilingual Sentence
Encoders [85.80950708769923]
本稿では,多言語言語モデルを用いて,それらのパラメータに格納された言語間語彙の知識量を探索し,元の多言語LMと比較する。
また、この知識を付加的に微調整した多言語モデルにより公開する新しい手法も考案した。
標準ベンチマークの大幅な向上を報告します。
論文 参考訳(メタデータ) (2022-04-30T13:23:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。