論文の概要: Are you going to finish that? A Practical Study of the Partial Token Problem
- arxiv url: http://arxiv.org/abs/2601.23223v2
- Date: Mon, 02 Feb 2026 21:48:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 16:18:58.821016
- Title: Are you going to finish that? A Practical Study of the Partial Token Problem
- Title(参考訳): あなたはそれを終わらせるつもりですか?部分トークン問題の実践的研究
- Authors: Hao Xu, Alisa Liu, Jonathan Hayase, Yejin Choi, Noah A. Smith,
- Abstract要約: 言語モデル(LM)はトークンのシーケンスによって訓練されるが、ユーザはテキストを介してLMと対話する。
このミスマッチは、ユーザーが期待する次のトークンの途中でプロンプトを終了したときに発生する部分トークン問題を引き起こす。
この研究では、トークンと"ワード"境界がしばしば並んでいない3つのドメインを特定します。
- 参考スコア(独自算出の注目度): 85.49816027251013
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models (LMs) are trained over sequences of tokens, whereas users interact with LMs via text. This mismatch gives rise to the partial token problem, which occurs when a user ends their prompt in the middle of the expected next-token, leading to distorted next-token predictions. Although this issue has been studied using arbitrary character prefixes, its prevalence and severity in realistic prompts respecting word boundaries remains underexplored. In this work, we identify three domains where token and "word" boundaries often do not line up: languages that do not use whitespace, highly compounding languages, and code. In Chinese, for example, up to 25% of word boundaries do not line up with token boundaries, making even natural, word-complete prompts susceptible to this problem. We systematically construct semantically natural prompts ending with a partial tokens; in experiments, we find that they comprise a serious failure mode: frontier LMs consistently place three orders of magnitude less probability on the correct continuation compared to when the prompt is "backed-off" to be token-aligned. This degradation does not diminish with scale and often worsens for larger models. Finally, we evaluate inference-time mitigations to the partial token problem and validate the effectiveness of recent exact solutions. Overall, we demonstrate the scale and severity of probability distortion caused by tokenization in realistic use cases, and provide practical recommentions for model inference providers.
- Abstract(参考訳): 言語モデル(LM)はトークンのシーケンスによって訓練されるが、ユーザはテキストを介してLMと対話する。
このミスマッチは、ユーザーが予想される次のトークンの途中でプロンプトを終了したときに発生する部分トークンの問題を引き起こし、次のトークンの予測を歪ませる。
この問題は、任意の文字接頭辞を用いて研究されてきたが、単語境界を尊重する現実的なプロンプトにおけるその頻度と重大さは、いまだに未解明のままである。
本研究では,ホワイトスペースを使用しない言語,高度に合成された言語,およびコードという,トークンと"ワード"の境界がラインアップしない3つの領域を同定する。
例えば中国語では、最大25%の単語境界がトークン境界に並んでいないため、自然で単語完全であるプロンプトでさえこの問題に影響を受けやすい。
実験では、それらが深刻な障害モードを構成していることが判明した。フロンティアLMは、プロンプトがトークン整列である場合と比較して、正しい継続に対して3桁の確率を連続的に小さくする。
この劣化はスケールによって減少せず、より大きなモデルではしばしば悪化する。
最後に、部分トークン問題に対する推論時間緩和を評価し、最近の正確な解の有効性を検証する。
概して,実例ではトークン化による確率歪みのスケールと重大さを実演し,モデル推論プロバイダの実践的なリコメンデーションを提供する。
関連論文リスト
- Broken Tokens? Your Language Model can Secretly Handle Non-Canonical Tokenizations [83.93566096400723]
ランダムにサンプリングされたトークン化が与えられた場合、命令調整されたモデルは元の性能の最大93.4%を維持している。
文字レベルのセグメンテーションは文字列操作とコード理解タスクを最大+14%改善する。
右列桁のグルーピングは、大数の算術を+33%向上させる。
論文 参考訳(メタデータ) (2025-06-23T18:02:26Z) - Sampling from Your Language Model One Byte at a Time [82.71473348639489]
トークン化は、PBP(Prompt Boundary Problem)として知られるモデル世代に歪みをもたらす可能性がある。
BPEトークン化器を用いて任意のオートレ LM を文字レベルまたはバイトレベル LM に変換する推論時間法を提案する。
提案手法は, PBPを効率的に解き, 異なるトークン化器で言語モデルの語彙を統一することができる。
論文 参考訳(メタデータ) (2025-06-17T02:37:04Z) - Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling [90.86991492288487]
トークンの制約を評価するのは 違法にコストがかかる
LCDは文字列上のグローバル分布を歪め、ローカル情報のみに基づいてトークンをサンプリングすることができる。
我々のアプローチは最先端のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-04-07T18:30:18Z) - Tokenization Falling Short: On Subword Robustness in Large Language Models [12.193639356480851]
本研究では,これらの課題とその言語モデルへの影響を体系的に検討する。
その結果,スケーリングモデルパラメータはトークン化の問題を軽減することができることがわかった。
実験の結果,BPEドロップアウトなどのサブワード正規化がこの問題を緩和できることがわかった。
論文 参考訳(メタデータ) (2024-06-17T16:05:32Z) - Leading Whitespaces of Language Models' Subword Vocabulary Pose a Confound for Calculating Word Probabilities [15.073507986272027]
我々は、単語の確率を単語の確率に集約する最も一般的な方法によって生じる欠点を論じる。
これは、ほとんどの言語モデルのサブワード語彙のトークンが主要な空白を持つという事実による。
後続する白色空間の確率を現在の単語の確率に再計算する簡単な復号法を提案する。
論文 参考訳(メタデータ) (2024-06-16T08:44:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。