論文の概要: Say Anything but This: When Tokenizer Betrays Reasoning in LLMs
- arxiv url: http://arxiv.org/abs/2601.14658v1
- Date: Wed, 21 Jan 2026 05:09:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.237886
- Title: Say Anything but This: When Tokenizer Betrays Reasoning in LLMs
- Title(参考訳): LLMでトケナイザーの音が鳴り響く
- Authors: Navid Ayoobi, Marcus I Armstrong, Arjun Mukherjee,
- Abstract要約: 大規模言語モデル (LLMs) は、離散トークンIDシーケンスを推論する。
現代のサブワードトークンーは、非特異なエンコーディングを日常的に生成する。
トークン化は,一対多のトークンIDマッピングを通じてLCM推論を裏切ることができることを示す。
- 参考スコア(独自算出の注目度): 0.7162422068114824
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) reason over discrete token ID sequences, yet modern subword tokenizers routinely produce non-unique encodings: multiple token ID sequences can detokenize to identical surface strings. This representational mismatch creates an unmeasured fragility wherein reasoning processes can fail. LLMs may treat two internal representations as distinct "words" even when they are semantically identical at the text level. In this work, we show that tokenization can betray LLM reasoning through one-to-many token ID mappings. We introduce a tokenization-consistency probe that requires models to replace designated target words in context while leaving all other content unchanged. The task is intentionally simple at the surface level, enabling us to attribute failures to tokenizer-detokenizer artifacts rather than to knowledge gaps or parameter limitations. Through analysis of over 11000 replacement trials across state-of-the-art open-source LLMs, we find a non-trivial rate of outputs exhibit phantom edits: cases where models operate under the illusion of correct reasoning, a phenomenon arising from tokenizer-induced representational defects. We further analyze these cases and provide a taxonomy of eight systematic tokenizer artifacts, including whitespace-boundary shifts and intra-word resegmentation. These findings indicate that part of apparent reasoning deficiency originates in the tokenizer layer, motivating tokenizer-level remedies before incurring the cost of training ever-larger models on ever-larger corpora.
- Abstract(参考訳): 大規模言語モデル(LLMs)は、離散トークンIDシーケンスよりも推論するが、現代のサブワードトークンライザは、通常、非特異なエンコーディングを生成する。
この表現ミスマッチは、推論プロセスが失敗する未測定の脆弱性を生み出す。
LLMは、テキストレベルで意味的に同一である場合でも、2つの内部表現を異なる「単語」として扱うことができる。
本研究では,トークン化が一対多のトークンIDマッピングを通じてLCM推論を裏切ることができることを示す。
トークン化整合性プローブを導入し、他の全てのコンテンツはそのまま残しながら、コンテキスト内で指定されたターゲット語を置き換えるモデルを提案する。
このタスクは表面レベルでは意図的にシンプルであり、知識ギャップやパラメータ制限ではなく、トークン化やデトケナイザのアーティファクトに障害を属性付けることができます。
最先端のオープンソース LLM における11000 以上の代替試行の分析により、非自明なアウトプットの速度がファントム編集を示すことが判明した。
さらに、これらの事例を分析し、ホワイトスペース境界シフトや単語内分離を含む8つの体系的トークン化アーティファクトの分類を提供する。
これらの結果から, 透明な推理能力の欠如の一部は, 触媒層に起因し, 触媒レベルの改善を動機付け, 常用コーパス上での常用モデルトレーニングのコストを発生させる可能性が示唆された。
関連論文リスト
- TokDrift: When LLM Speaks in Subwords but Code Speaks in Grammar [8.34539885321864]
意味的に同一のコードスニペットは、ホワイトスペースや識別子の命名といった表面的要因によって異なるトークン化が可能であることを示す。
TokDriftは、セマンティック保存リライトルールを適用して、トークン化のみで異なるコード変種を生成するフレームワークです。
この結果から,不正なトークン化は信頼性の高いコード理解と生成に隠れた障害であることがわかった。
論文 参考訳(メタデータ) (2025-10-16T17:59:45Z) - TokenSwap: Backdoor Attack on the Compositional Understanding of Large Vision-Language Models [57.32952956674526]
大規模視覚言語モデル(LVLM)に対するより回避的でステルス的なバックドア攻撃であるTokenSwapを紹介する。
固定されたターゲットコンテンツを強制するのではなく、TokenSwapはテキスト内のオブジェクト関係の理解を微妙に妨害する。
TokenSwapは、優れた回避性とステルス性を維持しながら、高い攻撃成功率を達成する。
論文 参考訳(メタデータ) (2025-09-29T10:19:22Z) - Broken Tokens? Your Language Model can Secretly Handle Non-Canonical Tokenizations [83.93566096400723]
ランダムにサンプリングされたトークン化が与えられた場合、命令調整されたモデルは元の性能の最大93.4%を維持している。
文字レベルのセグメンテーションは文字列操作とコード理解タスクを最大+14%改善する。
右列桁のグルーピングは、大数の算術を+33%向上させる。
論文 参考訳(メタデータ) (2025-06-23T18:02:26Z) - Sampling from Your Language Model One Byte at a Time [82.71473348639489]
トークン化は、PBP(Prompt Boundary Problem)として知られるモデル世代に歪みをもたらす可能性がある。
BPEトークン化器を用いて任意のオートレ LM を文字レベルまたはバイトレベル LM に変換する推論時間法を提案する。
提案手法は, PBPを効率的に解き, 異なるトークン化器で言語モデルの語彙を統一することができる。
論文 参考訳(メタデータ) (2025-06-17T02:37:04Z) - Token Assorted: Mixing Latent and Text Tokens for Improved Language Model Reasoning [53.57895922042783]
大規模言語モデル(LLM)は、チェーン・オブ・シークレット(CoT)データに基づいて訓練された場合、推論と計画が優れている。
そこで我々は,遅延離散トークンを用いて推論過程を部分的に抽象化するハイブリッド表現を提案する。
論文 参考訳(メタデータ) (2025-02-05T15:33:00Z) - Tokenization Falling Short: On Subword Robustness in Large Language Models [12.193639356480851]
本研究では,これらの課題とその言語モデルへの影響を体系的に検討する。
その結果,スケーリングモデルパラメータはトークン化の問題を軽減することができることがわかった。
実験の結果,BPEドロップアウトなどのサブワード正規化がこの問題を緩和できることがわかった。
論文 参考訳(メタデータ) (2024-06-17T16:05:32Z) - Large Language Models as Carriers of Hidden Messages [0.0]
単純な微調整は、隠されたテキストを大きな言語モデル(LLM)に埋め込むことができる。
我々の研究は、隠れたテキストを微調整で埋め込むことが、膨大な数のトリガーによって安全であるように見えるが、抽出に弱いことを実証している。
我々は,LLMの語彙からトークンを反復的に供給し,高いトークン確率を持つシーケンスを明らかにするunconditional Token Forcing (UTF)と呼ばれる抽出攻撃を導入し,隠れテキスト候補を示す。
論文 参考訳(メタデータ) (2024-06-04T16:49:06Z) - Revisiting subword tokenization: A case study on affixal negation in large language models [57.75279238091522]
現代英語大言語モデル(LLM)に対する接尾辞否定の影響を計測する。
我々は、異なるサブワードトークン化手法を用いてLLMを用いて実験を行う。
モデルは全体として、接尾辞の意味を確実に認識できることを示す。
論文 参考訳(メタデータ) (2024-04-03T03:14:27Z) - Identifying and Analyzing Performance-Critical Tokens in Large Language Models [52.404072802235234]
我々は大規模な言語モデルがいかに実演からタスクを実行するかを研究する。
私たちの仕事は、大規模な言語モデルがデモからタスクを実行するための学習方法に光を当て、さまざまな種類のトークンが大きな言語モデルで果たす役割についての理解を深めます。
論文 参考訳(メタデータ) (2024-01-20T20:55:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。