Fugu-MT 論文翻訳(概要): Say Anything but This: When Tokenizer Betrays Reasoning in LLMs

論文の概要: Say Anything but This: When Tokenizer Betrays Reasoning in LLMs

arxiv url: http://arxiv.org/abs/2601.14658v1
Date: Wed, 21 Jan 2026 05:09:09 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-22 21:27:50.237886
Title: Say Anything but This: When Tokenizer Betrays Reasoning in LLMs
Title（参考訳）: LLMでトケナイザーの音が鳴り響く
Authors: Navid Ayoobi, Marcus I Armstrong, Arjun Mukherjee,
Abstract要約: 大規模言語モデル (LLMs) は、離散トークンIDシーケンスを推論する。現代のサブワードトークンーは、非特異なエンコーディングを日常的に生成する。トークン化は,一対多のトークンIDマッピングを通じてLCM推論を裏切ることができることを示す。
参考スコア（独自算出の注目度）: 0.7162422068114824
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) reason over discrete token ID sequences, yet modern subword tokenizers routinely produce non-unique encodings: multiple token ID sequences can detokenize to identical surface strings. This representational mismatch creates an unmeasured fragility wherein reasoning processes can fail. LLMs may treat two internal representations as distinct "words" even when they are semantically identical at the text level. In this work, we show that tokenization can betray LLM reasoning through one-to-many token ID mappings. We introduce a tokenization-consistency probe that requires models to replace designated target words in context while leaving all other content unchanged. The task is intentionally simple at the surface level, enabling us to attribute failures to tokenizer-detokenizer artifacts rather than to knowledge gaps or parameter limitations. Through analysis of over 11000 replacement trials across state-of-the-art open-source LLMs, we find a non-trivial rate of outputs exhibit phantom edits: cases where models operate under the illusion of correct reasoning, a phenomenon arising from tokenizer-induced representational defects. We further analyze these cases and provide a taxonomy of eight systematic tokenizer artifacts, including whitespace-boundary shifts and intra-word resegmentation. These findings indicate that part of apparent reasoning deficiency originates in the tokenizer layer, motivating tokenizer-level remedies before incurring the cost of training ever-larger models on ever-larger corpora.
Abstract（参考訳）: 大規模言語モデル(LLMs)は、離散トークンIDシーケンスよりも推論するが、現代のサブワードトークンライザは、通常、非特異なエンコーディングを生成する。この表現ミスマッチは、推論プロセスが失敗する未測定の脆弱性を生み出す。 LLMは、テキストレベルで意味的に同一である場合でも、2つの内部表現を異なる「単語」として扱うことができる。本研究では,トークン化が一対多のトークンIDマッピングを通じてLCM推論を裏切ることができることを示す。トークン化整合性プローブを導入し、他の全てのコンテンツはそのまま残しながら、コンテキスト内で指定されたターゲット語を置き換えるモデルを提案する。このタスクは表面レベルでは意図的にシンプルであり、知識ギャップやパラメータ制限ではなく、トークン化やデトケナイザのアーティファクトに障害を属性付けることができます。最先端のオープンソース LLM における11000 以上の代替試行の分析により、非自明なアウトプットの速度がファントム編集を示すことが判明した。さらに、これらの事例を分析し、ホワイトスペース境界シフトや単語内分離を含む8つの体系的トークン化アーティファクトの分類を提供する。これらの結果から, 透明な推理能力の欠如の一部は, 触媒層に起因し, 触媒レベルの改善を動機付け, 常用コーパス上での常用モデルトレーニングのコストを発生させる可能性が示唆された。

関連論文リスト

Step-Level Sparse Autoencoder for Reasoning Process Interpretation [48.99201531966593]
大規模言語モデル(LLM)は、Chain-of-Thought(CoT)推論を通じて、強力な複雑な推論機能を実現している。本稿では,ステップレベルスパースオートエンコーダ (SSAE) を提案する。複数の基本モデルと推論タスクの実験により,抽出した特徴の有効性が示された。
論文参考訳（メタデータ） (2026-03-03T14:25:02Z)
LiteToken: Removing Intermediate Merge Residues From BPE Tokenizers [76.59130257385826]
BPE語彙の中間的なマージ残基は、マージ学習中にしばしば見られ、最終語彙に保持されるが、ほとんどは、トークン化剤の使用中にコーパスをトークン化するときに、さらにマージされる。本稿では, この現象を, 一般的に使用されているトークン化剤にまたがって系統的に評価し, 残留トークンを除去する簡単な方法である LiteToken を紹介する。実験によると、LiteTokenはトークンの断片化を減らし、パラメータを減らし、全体的なパフォーマンスを保ちながら、ノイズやスペル入力への堅牢性を改善する。
論文参考訳（メタデータ） (2026-02-04T16:19:05Z)
Understanding LLM Failures: A Multi-Tape Turing Machine Analysis of Systematic Errors in Language Model Reasoning [0.033842793760651545]
大きな言語モデル(LLM)は、一見自明なタスクで失敗モードを示す。決定論的マルチテープチューリングマシンを用いたインタラクションの形式化を提案する。このモデルは、特定のパイプラインステージへの障害モードの正確なローカライズを可能にする。
論文参考訳（メタデータ） (2026-01-27T16:12:01Z)
TokDrift: When LLM Speaks in Subwords but Code Speaks in Grammar [8.34539885321864]
意味的に同一のコードスニペットは、ホワイトスペースや識別子の命名といった表面的要因によって異なるトークン化が可能であることを示す。 TokDriftは、セマンティック保存リライトルールを適用して、トークン化のみで異なるコード変種を生成するフレームワークです。この結果から,不正なトークン化は信頼性の高いコード理解と生成に隠れた障害であることがわかった。
論文参考訳（メタデータ） (2025-10-16T17:59:45Z)
TokenSwap: Backdoor Attack on the Compositional Understanding of Large Vision-Language Models [57.32952956674526]
大規模視覚言語モデル(LVLM)に対するより回避的でステルス的なバックドア攻撃であるTokenSwapを紹介する。固定されたターゲットコンテンツを強制するのではなく、TokenSwapはテキスト内のオブジェクト関係の理解を微妙に妨害する。 TokenSwapは、優れた回避性とステルス性を維持しながら、高い攻撃成功率を達成する。
論文参考訳（メタデータ） (2025-09-29T10:19:22Z)
Broken Tokens? Your Language Model can Secretly Handle Non-Canonical Tokenizations [83.93566096400723]
ランダムにサンプリングされたトークン化が与えられた場合、命令調整されたモデルは元の性能の最大93.4%を維持している。文字レベルのセグメンテーションは文字列操作とコード理解タスクを最大+14%改善する。右列桁のグルーピングは、大数の算術を+33%向上させる。
論文参考訳（メタデータ） (2025-06-23T18:02:26Z)
Sampling from Your Language Model One Byte at a Time [82.71473348639489]
トークン化は、PBP(Prompt Boundary Problem)として知られるモデル世代に歪みをもたらす可能性がある。 BPEトークン化器を用いて任意のオートレ LM を文字レベルまたはバイトレベル LM に変換する推論時間法を提案する。提案手法は, PBPを効率的に解き, 異なるトークン化器で言語モデルの語彙を統一することができる。
論文参考訳（メタデータ） (2025-06-17T02:37:04Z)
Token Assorted: Mixing Latent and Text Tokens for Improved Language Model Reasoning [53.57895922042783]
大規模言語モデル(LLM)は、チェーン・オブ・シークレット(CoT)データに基づいて訓練された場合、推論と計画が優れている。そこで我々は,遅延離散トークンを用いて推論過程を部分的に抽象化するハイブリッド表現を提案する。
論文参考訳（メタデータ） (2025-02-05T15:33:00Z)
Attribution analysis of legal language as used by LLM [0.0]
公開可能な2つの法的データセット、より単純な二項分類タスク、および保持者の司法判断を特定するためのより精巧な複数の選択タスクを使用します。すべてのモデルがケースホールドタスクからテスト例を正しく分類しているのに対して、他の例は1つ、モデル、属性のみによってのみ識別できる。
論文参考訳（メタデータ） (2025-01-28T22:48:29Z)
Tokenization Falling Short: On Subword Robustness in Large Language Models [12.193639356480851]
本研究では,これらの課題とその言語モデルへの影響を体系的に検討する。その結果,スケーリングモデルパラメータはトークン化の問題を軽減することができることがわかった。実験の結果,BPEドロップアウトなどのサブワード正規化がこの問題を緩和できることがわかった。
論文参考訳（メタデータ） (2024-06-17T16:05:32Z)
Large Language Models as Carriers of Hidden Messages [0.0]
単純な微調整は、隠されたテキストを大きな言語モデル(LLM)に埋め込むことができる。我々の研究は、隠れたテキストを微調整で埋め込むことが、膨大な数のトリガーによって安全であるように見えるが、抽出に弱いことを実証している。我々は,LLMの語彙からトークンを反復的に供給し,高いトークン確率を持つシーケンスを明らかにするunconditional Token Forcing (UTF)と呼ばれる抽出攻撃を導入し,隠れテキスト候補を示す。
論文参考訳（メタデータ） (2024-06-04T16:49:06Z)
Revisiting subword tokenization: A case study on affixal negation in large language models [57.75279238091522]
現代英語大言語モデル(LLM)に対する接尾辞否定の影響を計測する。我々は、異なるサブワードトークン化手法を用いてLLMを用いて実験を行う。モデルは全体として、接尾辞の意味を確実に認識できることを示す。
論文参考訳（メタデータ） (2024-04-03T03:14:27Z)
Identifying and Analyzing Performance-Critical Tokens in Large Language Models [52.404072802235234]
我々は大規模な言語モデルがいかに実演からタスクを実行するかを研究する。私たちの仕事は、大規模な言語モデルがデモからタスクを実行するための学習方法に光を当て、さまざまな種類のトークンが大きな言語モデルで果たす役割についての理解を深めます。
論文参考訳（メタデータ） (2024-01-20T20:55:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。