論文の概要: Is Sanskrit the most token-efficient language? A quantitative study using GPT, Gemini, and SentencePiece
- arxiv url: http://arxiv.org/abs/2601.06142v1
- Date: Mon, 05 Jan 2026 15:23:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.610178
- Title: Is Sanskrit the most token-efficient language? A quantitative study using GPT, Gemini, and SentencePiece
- Title(参考訳): サンスクリット語は最もトークン効率が高い言語か? GPT, Gemini, SentencePieceを用いた定量的研究
- Authors: Anshul Kumar,
- Abstract要約: サンスクリットは、その形態と文法規則のために、トークンごとにより意味を表現していると仮定されている。
我々は、サンスクリット語、英語、ヒンディー語という3つの言語からなるBhagavad Gitaの701のパラレルバースのデータセットを使用している。
我々は、SPM(SentencePiece)、古いGPTモデル、およびGeminiおよびGPTの次世代トークン化器を試験する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tokens are the basic units of Large Language Models (LLMs). LLMs rely on tokenizers to segment text into these tokens, and tokenization is the primary determinant of computational and inference cost. Sanskrit, one of the oldest languages, is hypothesized to express more meaning per token due to its morphology and grammar rules; however, no prior work has quantified this. We use a dataset of 701 parallel verses of the Bhagavad Gita, which comprises three languages-Sanskrit, English, and Hindi along with transliteration of Sanskrit into English. We test tokenizers including SentencePiece (SPM), older GPT models, and the latest generation tokenizers from Gemini and GPT. We use metrics of token count, characters per token (token efficiency), and tokens per character (token cost). Results show a ~2x difference in token counts between Sanskrit and English/Hindi under the unbiased SPM baseline. English/Hindi translations of Sanskrit commentary resulted in an approximately 20x increase in token count. GPT o200k base (latest, used by GPT-4o) and Gemini (latest) reduce bias by a significant degree compared to GPT cl100k base (used until GPT-4), but still fail to fully capture Sanskrit's compactness. This matters because there might be a penalty bias for non-English users, which inflates the token count. This research provides a foundation for improving future tokenizer design and shows the potential of Sanskrit for highly compact encoding, saving on cost while speeding up training and inference. The code and dataset are available at https://github.com/anshulkr713/sanskrit-token-efficiency
- Abstract(参考訳): 言語モデルはLLM(Large Language Models)の基本単位である。
LLMはこれらのトークンにテキストを分割するためにトークン化器に依存しており、トークン化は計算と推論のコストの主要な決定要因である。
サンスクリット語は最も古い言語の1つで、その形態や文法規則によってトークンごとにより意味を表現していると仮定されているが、それ以前の研究ではそれを定量化していない。
我々は、サンスクリット語、英語、ヒンディー語という3つの言語からなり、サンスクリット語を英語に翻訳するBhagavad Gitaの701のパラレル節のデータセットを使用する。
我々は、SPM(SentencePiece)、古いGPTモデル、およびGeminiおよびGPTの次世代トークン化器を試験する。
トークンカウント、トークン毎の文字(トークン効率)、文字毎のトークン(トークンコスト)のメトリクスを使用します。
その結果、サンスクリットとイングリッシュ/ヒンディーのトークン数では、偏りのないSPMベースラインで約2倍の差が見られた。
サンスクリットの注釈書の英語/ヒンディー語訳は、トークン数が約20倍に増加した。
GPT o200k ベース (GPT-4o が使用) と Gemini (最新) は GPT cl100k ベース (GPT-4 が使用されるまで) に比べてバイアスをかなり低減するが、それでもサンスクリットのコンパクトさを完全に捉えることはできなかった。
これは、非英語ユーザーにとってペナルティバイアスがある可能性があるためであり、トークン数を膨らませている。
本研究は,サンスクリットの高性能エンコーディング,コスト削減,トレーニングと推論の高速化のための将来的トークン化設計の基盤を提供する。
コードとデータセットはhttps://github.com/anshulkr713/sanskrit-token-efficiencyで公開されている。
関連論文リスト
- Evaluating Subword Tokenization Techniques for Bengali: A Benchmark Study with BengaliBPE [0.0]
BengaliBPEは、ベンガル文字用の言語対応のサブワードトークンである。
Unicode正規化とモルフォロジーを意識したマージルールを適用して、言語の一貫性を維持し、サブワードの整合性を維持する。
最も詳細なセグメンテーションと最良の形態的解釈性を提供するが、計算コストはわずかに高い。
論文 参考訳(メタデータ) (2025-11-07T15:23:32Z) - Explaining and Mitigating Crosslingual Tokenizer Inequities [18.823984182115712]
高いトークンプレミアムを持つことは、トレーニング中のスループットを低下させ、推論時のコストを増大させる。
97言語で約7,000の同等のモノリンガルトークンをトレーニングします。
トレーニングデータとテストデータの類似性はトークンのプレミアムに影響しないが、語彙サイズや事前トークン化には影響しない。
論文 参考訳(メタデータ) (2025-10-24T17:36:03Z) - Speculating LLMs' Chinese Training Data Pollution from Their Tokens [59.325920108736454]
汚染された中国人(PoC)トークンはポルノやオンラインギャンブルのような内容を示す。
GPTの語彙に基づくPoCトークンの形式的定義と分類について述べる。
我々は,LLMを微調整してPoCトークンを語彙でラベル付けすることで,PoCトークン検出装置を構築する。
論文 参考訳(メタデータ) (2025-08-25T08:08:51Z) - Beyond Literal Token Overlap: Token Alignability for Multilinguality [53.680462160878925]
我々は,多言語トークン化の効果と品質を理解する新しい方法として,サブワードトークン整合性を提案する。
特に、この指標は、スクリプトが異なっており、リテラルトークンの重複が低い場合、多言語性を予測する。
言語間移動のための最適な言語ペアを特定するために,我々のサブワードトークン整合性指標を推奨する。
論文 参考訳(メタデータ) (2025-02-10T13:50:12Z) - From Language Models over Tokens to Language Models over Characters [54.123846188068384]
現代の言語モデルは、$itcharacter$ stringsではなく$ittoken$ strings上の内部的、数学的に...分布である。
本稿では,トークンレベル言語モデルから文字レベル言語への変換アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-12-04T21:19:20Z) - Egalitarian Language Representation in Language Models: It All Begins with Tokenizers [0.0]
すべてのトークンライザが、Tamil、Sinhala、Hindiといった複雑なスクリプト言語に対して公正な表現を提供するわけではないことを示す。
本稿では,Grapheme Pair と呼ばれるグラフエムを組み込むことにより,Byte Pair アルゴリズムの改良を提案する。
実験の結果, 文字抽出は複雑なスクリプトに対して, バイトレベルのトークン化器よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-09-17T19:05:37Z) - CharPoet: A Chinese Classical Poetry Generation System Based on Token-free LLM [7.6361655389908965]
CharPoet(シャルポエ)は、中国の古典詩集である。
トークンフリーアーキテクチャは文字単位のキャラクタ方式で生成し,文字数を正確に制御する。
CharPoetが0.96以上のフォーマット精度を実現し、Juge-GPT-2(0.91)とGPT-4(0.38)を上回った
論文 参考訳(メタデータ) (2024-01-07T15:00:36Z) - Better Than Whitespace: Information Retrieval for Languages without
Custom Tokenizers [48.036317742487796]
語彙マッチング検索アルゴリズムのための新しいトークン化手法を提案する。
教師なしのデータから自動的に構築できるWordPieceトークンライザを使用します。
以上の結果から,mBERTトークン化器は,ほとんどの言語において,"アウト・オブ・ザ・ボックス(out of the box)"を検索するための強い関連信号を提供することがわかった。
論文 参考訳(メタデータ) (2022-10-11T14:32:46Z) - SHUOWEN-JIEZI: Linguistically Informed Tokenizers For Chinese Language
Model Pretraining [48.880840711568425]
事前学習された言語モデルの中国語トークン化に対する3つの要因の影響について検討する。
本稿では,発音に基づくトークン化システムであるSHUOWEN (Talk Word) と,グリフに基づくトークン化システムであるJIEZI (Solve Character) の3種類のトークン化手法を提案する。
SHUOWENとJIEZIは、一般的に従来のシングル文字トークンよりも優れた性能を持つ。
論文 参考訳(メタデータ) (2021-06-01T11:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。