Fugu-MT 論文翻訳(概要): Is Sanskrit the most token-efficient language? A quantitative study using GPT, Gemini, and SentencePiece

論文の概要: Is Sanskrit the most token-efficient language? A quantitative study using GPT, Gemini, and SentencePiece

arxiv url: http://arxiv.org/abs/2601.06142v1
Date: Mon, 05 Jan 2026 15:23:50 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-13 19:08:00.610178
Title: Is Sanskrit the most token-efficient language? A quantitative study using GPT, Gemini, and SentencePiece
Title（参考訳）: サンスクリット語は最もトークン効率が高い言語か? GPT, Gemini, SentencePieceを用いた定量的研究
Authors: Anshul Kumar,
Abstract要約: サンスクリットは、その形態と文法規則のために、トークンごとにより意味を表現していると仮定されている。我々は、サンスクリット語、英語、ヒンディー語という3つの言語からなるBhagavad Gitaの701のパラレルバースのデータセットを使用している。我々は、SPM(SentencePiece)、古いGPTモデル、およびGeminiおよびGPTの次世代トークン化器を試験する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Tokens are the basic units of Large Language Models (LLMs). LLMs rely on tokenizers to segment text into these tokens, and tokenization is the primary determinant of computational and inference cost. Sanskrit, one of the oldest languages, is hypothesized to express more meaning per token due to its morphology and grammar rules; however, no prior work has quantified this. We use a dataset of 701 parallel verses of the Bhagavad Gita, which comprises three languages-Sanskrit, English, and Hindi along with transliteration of Sanskrit into English. We test tokenizers including SentencePiece (SPM), older GPT models, and the latest generation tokenizers from Gemini and GPT. We use metrics of token count, characters per token (token efficiency), and tokens per character (token cost). Results show a ~2x difference in token counts between Sanskrit and English/Hindi under the unbiased SPM baseline. English/Hindi translations of Sanskrit commentary resulted in an approximately 20x increase in token count. GPT o200k base (latest, used by GPT-4o) and Gemini (latest) reduce bias by a significant degree compared to GPT cl100k base (used until GPT-4), but still fail to fully capture Sanskrit's compactness. This matters because there might be a penalty bias for non-English users, which inflates the token count. This research provides a foundation for improving future tokenizer design and shows the potential of Sanskrit for highly compact encoding, saving on cost while speeding up training and inference. The code and dataset are available at https://github.com/anshulkr713/sanskrit-token-efficiency
Abstract（参考訳）: 言語モデルはLLM(Large Language Models)の基本単位である。 LLMはこれらのトークンにテキストを分割するためにトークン化器に依存しており、トークン化は計算と推論のコストの主要な決定要因である。サンスクリット語は最も古い言語の1つで、その形態や文法規則によってトークンごとにより意味を表現していると仮定されているが、それ以前の研究ではそれを定量化していない。我々は、サンスクリット語、英語、ヒンディー語という3つの言語からなり、サンスクリット語を英語に翻訳するBhagavad Gitaの701のパラレル節のデータセットを使用する。我々は、SPM(SentencePiece)、古いGPTモデル、およびGeminiおよびGPTの次世代トークン化器を試験する。トークンカウント、トークン毎の文字(トークン効率)、文字毎のトークン(トークンコスト)のメトリクスを使用します。その結果、サンスクリットとイングリッシュ/ヒンディーのトークン数では、偏りのないSPMベースラインで約2倍の差が見られた。サンスクリットの注釈書の英語/ヒンディー語訳は、トークン数が約20倍に増加した。 GPT o200k ベース (GPT-4o が使用) と Gemini (最新) は GPT cl100k ベース (GPT-4 が使用されるまで) に比べてバイアスをかなり低減するが、それでもサンスクリットのコンパクトさを完全に捉えることはできなかった。これは、非英語ユーザーにとってペナルティバイアスがある可能性があるためであり、トークン数を膨らませている。本研究は,サンスクリットの高性能エンコーディング,コスト削減,トレーニングと推論の高速化のための将来的トークン化設計の基盤を提供する。コードとデータセットはhttps://github.com/anshulkr713/sanskrit-token-efficiencyで公開されている。

関連論文リスト

Reducing Tokenization Premiums for Low-Resource Languages [5.02470728447561]
英語とは対照的に、低リソース言語は現代のLMにおいて相当なトークン化プレミアムに悩まされている。このトークン化プレミアムは、APIとエネルギコストの増大と、これらの言語に対する効果的なコンテキストウィンドウの削減をもたらす。マルチトークン文字を単一トークンに結合するトークン語彙へのポストホック付加による事前学習モデルにおけるトークン化プレミアムの削減機構を提案する。
論文参考訳（メタデータ） (2026-01-19T19:08:58Z)
Evaluating Subword Tokenization Techniques for Bengali: A Benchmark Study with BengaliBPE [0.0]
BengaliBPEは、ベンガル文字用の言語対応のサブワードトークンである。 Unicode正規化とモルフォロジーを意識したマージルールを適用して、言語の一貫性を維持し、サブワードの整合性を維持する。最も詳細なセグメンテーションと最良の形態的解釈性を提供するが、計算コストはわずかに高い。
論文参考訳（メタデータ） (2025-11-07T15:23:32Z)
Explaining and Mitigating Crosslingual Tokenizer Inequities [18.823984182115712]
高いトークンプレミアムを持つことは、トレーニング中のスループットを低下させ、推論時のコストを増大させる。 97言語で約7,000の同等のモノリンガルトークンをトレーニングします。トレーニングデータとテストデータの類似性はトークンのプレミアムに影響しないが、語彙サイズや事前トークン化には影響しない。
論文参考訳（メタデータ） (2025-10-24T17:36:03Z)
Speculating LLMs' Chinese Training Data Pollution from Their Tokens [59.325920108736454]
汚染された中国人(PoC)トークンはポルノやオンラインギャンブルのような内容を示す。 GPTの語彙に基づくPoCトークンの形式的定義と分類について述べる。我々は,LLMを微調整してPoCトークンを語彙でラベル付けすることで,PoCトークン検出装置を構築する。
論文参考訳（メタデータ） (2025-08-25T08:08:51Z)
Tokens with Meaning: A Hybrid Tokenization Approach for NLP [0.2826977330147589]
自然言語処理(NLP)におけるトークン化の役割規則に基づく形態素解析と統計的サブワードセグメンテーションを組み合わせたハイブリッドトークン化フレームワークを提案する。本手法は, 音韻正規化, ルートアフィックス, および形態素保存と語彙効率のバランスをとる新しいアルゴリズムを用いる。
論文参考訳（メタデータ） (2025-08-19T22:17:42Z)
Causal Estimation of Tokenisation Bias [58.20086589761273]
我々は、訓練されたモデルが対応する文字に割り当てる確率に対して、トークンの語彙にサブワードを含むか否かを定量化する。トークン化は、スケール、語彙、トークンサプライヤにわたるモデルのアウトプットに一貫して影響を与えます。特に、小モデルの語彙におけるサブワードの存在は、文字の確率を最大17倍に向上させる可能性がある。
論文参考訳（メタデータ） (2025-06-03T17:59:47Z)
Beyond Literal Token Overlap: Token Alignability for Multilinguality [53.680462160878925]
我々は,多言語トークン化の効果と品質を理解する新しい方法として,サブワードトークン整合性を提案する。特に、この指標は、スクリプトが異なっており、リテラルトークンの重複が低い場合、多言語性を予測する。言語間移動のための最適な言語ペアを特定するために,我々のサブワードトークン整合性指標を推奨する。
論文参考訳（メタデータ） (2025-02-10T13:50:12Z)
From Language Models over Tokens to Language Models over Characters [54.123846188068384]
現代の言語モデルは、$itcharacter$ stringsではなく$ittoken$ strings上の内部的、数学的に...分布である。本稿では,トークンレベル言語モデルから文字レベル言語への変換アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-12-04T21:19:20Z)
Egalitarian Language Representation in Language Models: It All Begins with Tokenizers [0.0]
すべてのトークンライザが、Tamil、Sinhala、Hindiといった複雑なスクリプト言語に対して公正な表現を提供するわけではないことを示す。本稿では,Grapheme Pair と呼ばれるグラフエムを組み込むことにより,Byte Pair アルゴリズムの改良を提案する。実験の結果, 文字抽出は複雑なスクリプトに対して, バイトレベルのトークン化器よりも優れていることがわかった。
論文参考訳（メタデータ） (2024-09-17T19:05:37Z)
CharPoet: A Chinese Classical Poetry Generation System Based on Token-free LLM [7.6361655389908965]
CharPoet(シャルポエ)は、中国の古典詩集である。トークンフリーアーキテクチャは文字単位のキャラクタ方式で生成し,文字数を正確に制御する。 CharPoetが0.96以上のフォーマット精度を実現し、Juge-GPT-2(0.91)とGPT-4(0.38)を上回った
論文参考訳（メタデータ） (2024-01-07T15:00:36Z)
Better Than Whitespace: Information Retrieval for Languages without Custom Tokenizers [48.036317742487796]
語彙マッチング検索アルゴリズムのための新しいトークン化手法を提案する。教師なしのデータから自動的に構築できるWordPieceトークンライザを使用します。以上の結果から,mBERTトークン化器は,ほとんどの言語において,"アウト・オブ・ザ・ボックス(out of the box)"を検索するための強い関連信号を提供することがわかった。
論文参考訳（メタデータ） (2022-10-11T14:32:46Z)
SHUOWEN-JIEZI: Linguistically Informed Tokenizers For Chinese Language Model Pretraining [48.880840711568425]
事前学習された言語モデルの中国語トークン化に対する3つの要因の影響について検討する。本稿では,発音に基づくトークン化システムであるSHUOWEN (Talk Word) と,グリフに基づくトークン化システムであるJIEZI (Solve Character) の3種類のトークン化手法を提案する。 SHUOWENとJIEZIは、一般的に従来のシングル文字トークンよりも優れた性能を持つ。
論文参考訳（メタデータ） (2021-06-01T11:20:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。