論文の概要: How Long Is a Piece of String? A Brief Empirical Analysis of Tokenizers
- arxiv url: http://arxiv.org/abs/2601.11518v1
- Date: Fri, 16 Jan 2026 18:58:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-19 20:21:50.607301
- Title: How Long Is a Piece of String? A Brief Empirical Analysis of Tokenizers
- Title(参考訳): 弦のピアスの長さはどれくらいか? : トケナイザーの簡単な経験的分析
- Authors: Jonathan Roberts, Kai Han, Samuel Albanie,
- Abstract要約: トークン化はテキストのモデルやドメインによって大きく異なり、トークンの素早い解釈が問題となる。
私たちの分析では、トークンの長さに関する直観が一般的であり、過度に単純化されていることが分かりました。
- 参考スコア(独自算出の注目度): 39.60188078597529
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Frontier LLMs are increasingly utilised across academia, society and industry. A commonly used unit for comparing models, their inputs and outputs, and estimating inference pricing is the token. In general, tokens are used as a stable currency, assumed to be broadly consistent across tokenizers and contexts, enabling direct comparisons. However, tokenization varies significantly across models and domains of text, making naive interpretation of token counts problematic. We quantify this variation by providing a comprehensive empirical analysis of tokenization, exploring the compression of sequences to tokens across different distributions of textual data. Our analysis challenges commonly held heuristics about token lengths, finding them to be overly simplistic. We hope the insights of our study add clarity and intuition toward tokenization in contemporary LLMs.
- Abstract(参考訳): 最前線のLSMは、学界、社会、産業でますます活用されている。
モデルとインプットとアウトプットを比較し、推論価格を推定するために一般的に使用されるユニットがトークンである。
一般に、トークンは安定な通貨として使用され、トークン化器とコンテキスト間で広く一貫性があり、直接比較が可能であると仮定される。
しかし、トークン化はテキストのモデルや領域によって大きく異なり、トークンの素早い解釈が問題となる。
トークン化の包括的実証分析を提供し、テキストデータの異なる分布にまたがるトークンへのシーケンスの圧縮を探索することにより、この変動を定量化する。
我々の分析課題は、トークンの長さに関するヒューリスティックな知識を持ち、過度に単純化されていることを発見した。
我々の研究の洞察が、現代のLLMにおけるトークン化への明快さと直感を増すことを願っている。
関連論文リスト
- SCOPE: Saliency-Coverage Oriented Token Pruning for Efficient Multimodel LLMs [59.415473779171315]
textbfSaliency-textbfCoverage textbfOriented token textbfPruning for textbfEfficient MLLMs。
論文 参考訳(メタデータ) (2025-10-28T09:29:37Z) - FrugalPrompt: Reducing Contextual Overhead in Large Language Models via Token Attribution [3.4666771782038652]
大規模言語モデル(LLM)は、その恒星の性能の大部分を入力コンテキストの拡大に負っているが、そのような冗長性は金銭的コスト、炭素フットプリント、推論時間の遅延を膨らませている。
本稿では,LLMのための新しいプロンプト圧縮フレームワークであるFrugalPromptを紹介する。
我々は,4つのNLPタスク(感性分析,コモンセンスQA,要約,数学的推論)にまたがるアプローチを評価する。
論文 参考訳(メタデータ) (2025-10-18T10:22:13Z) - MARCOS: Deep Thinking by Markov Chain of Continuous Thoughts [82.46857666702924]
大規模言語モデル(LLM)における推論のための新しいパラダイムを提案する。
自己回帰的にトークンを生成する代わりに、連続的で高次元の「思考」のマルコフ連鎖として推論をモデル化する。
MARCOSはトークンベースのCoTに匹敵する性能を初めて達成し、GSM8Kでは4.7%、推論では15.7倍のスピードアップを達成している。
論文 参考訳(メタデータ) (2025-09-29T16:44:22Z) - Predictive Auditing of Hidden Tokens in LLM APIs via Reasoning Length Estimation [7.928002407828304]
商用のLLMサービスは内部の推論トレースを隠蔽し、生成したトークンごとにユーザを課金する。
PALACEは内部トレースにアクセスせずに、プロンプトと応答のペアから隠れた推論トークン数を推定する。
数学、コーディング、医学、一般的な推論のベンチマークの実験は、PALACEが低い相対誤差と強い予測精度を達成することを示している。
論文 参考訳(メタデータ) (2025-07-29T19:50:55Z) - Causal Estimation of Tokenisation Bias [58.20086589761273]
我々は、訓練されたモデルが対応する文字に割り当てる確率に対して、トークンの語彙にサブワードを含むか否かを定量化する。
トークン化は、スケール、語彙、トークンサプライヤにわたるモデルのアウトプットに一貫して影響を与えます。
特に、小モデルの語彙におけるサブワードの存在は、文字の確率を最大17倍に向上させる可能性がある。
論文 参考訳(メタデータ) (2025-06-03T17:59:47Z) - Token Assorted: Mixing Latent and Text Tokens for Improved Language Model Reasoning [53.57895922042783]
大規模言語モデル(LLM)は、チェーン・オブ・シークレット(CoT)データに基づいて訓練された場合、推論と計画が優れている。
そこで我々は,遅延離散トークンを用いて推論過程を部分的に抽象化するハイブリッド表現を提案する。
論文 参考訳(メタデータ) (2025-02-05T15:33:00Z) - A Peek into Token Bias: Large Language Models Are Not Yet Genuine Reasoners [58.15511660018742]
本研究では,大規模言語モデル (LLM) が真の推論能力を持つかどうかを評価するための仮説検証フレームワークを提案する。
我々は,相補的な誤りとシロジカルな問題を特徴とする,注意深く制御された合成データセットを開発した。
論文 参考訳(メタデータ) (2024-06-16T19:22:53Z) - Tokenization Is More Than Compression [14.939912120571728]
Byte-Pairのような既存のトークン化アプローチ。
(BPE)はデータ圧縮の分野に由来する。
PathPieceは、文書のテキストを与えられた語彙に対して最小のトークン数に分割する新しいトークンライザである。
論文 参考訳(メタデータ) (2024-02-28T14:52:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。