論文の概要: TokDrift: When LLM Speaks in Subwords but Code Speaks in Grammar
- arxiv url: http://arxiv.org/abs/2510.14972v1
- Date: Thu, 16 Oct 2025 17:59:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:15.005967
- Title: TokDrift: When LLM Speaks in Subwords but Code Speaks in Grammar
- Title(参考訳): TokDrift: LLMがサブワードで話すが、コードを文法で話すとき
- Authors: Yinxi Li, Yuntian Deng, Pengyu Nie,
- Abstract要約: 意味的に同一のコードスニペットは、ホワイトスペースや識別子の命名といった表面的要因によって異なるトークン化が可能であることを示す。
TokDriftは、セマンティック保存リライトルールを適用して、トークン化のみで異なるコード変種を生成するフレームワークです。
この結果から,不正なトークン化は信頼性の高いコード理解と生成に隠れた障害であることがわかった。
- 参考スコア(独自算出の注目度): 8.34539885321864
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) for code rely on subword tokenizers, such as byte-pair encoding (BPE), learned from mixed natural language text and programming language code but driven by statistics rather than grammar. As a result, semantically identical code snippets can be tokenized differently depending on superficial factors such as whitespace or identifier naming. To measure the impact of this misalignment, we introduce TokDrift, a framework that applies semantic-preserving rewrite rules to create code variants differing only in tokenization. Across nine code LLMs, including large ones with over 30B parameters, even minor formatting changes can cause substantial shifts in model behavior. Layer-wise analysis shows that the issue originates in early embeddings, where subword segmentation fails to capture grammar token boundaries. Our findings identify misaligned tokenization as a hidden obstacle to reliable code understanding and generation, highlighting the need for grammar-aware tokenization for future code LLMs.
- Abstract(参考訳): コードのための大きな言語モデル(LLM)は、バイトペア符号化(BPE)のようなサブワードトークン化器に依存し、自然言語のテキストとプログラミング言語の混成コードから学習するが、文法ではなく統計によって駆動される。
結果として、意味的に同一のコードスニペットは、ホワイトスペースや識別子の命名のような表面的な要素によって異なるトークン化が可能である。
このミスアライメントの影響を測定するために、トークン化のみで異なるコード変種を生成するために、セマンティック保存リライトルールを適用するTokDriftを紹介します。
30B以上のパラメータを持つ大きなものを含む9つのコード LLM は、マイナーなフォーマット変更さえも、モデル動作の大幅な変更を引き起こす可能性がある。
レイヤワイズ分析は、サブワードセグメンテーションが文法トークンの境界を捕捉できない早期埋め込みが原因であることを示している。
本研究は,将来的なLLMにおける文法を意識したトークン化の必要性を浮き彫りにした,信頼度の高いコード理解・生成の隠れ障害として,不正整合トークン化を確認した。
関連論文リスト
- Sampling from Your Language Model One Byte at a Time [82.71473348639489]
トークン化は、PBP(Prompt Boundary Problem)として知られるモデル世代に歪みをもたらす可能性がある。
BPEトークン化器を用いて任意のオートレ LM を文字レベルまたはバイトレベル LM に変換する推論時間法を提案する。
提案手法は, PBPを効率的に解き, 異なるトークン化器で言語モデルの語彙を統一することができる。
論文 参考訳(メタデータ) (2025-06-17T02:37:04Z) - Type-Constrained Code Generation with Language Models [51.03439021895432]
本稿では,型システムを利用してコード生成を誘導する型制約デコード手法を提案する。
そこで本研究では,新しい接頭辞オートマトンと,在来型を探索する手法を開発し,LLM生成コードに適切な型付けを強制するための健全なアプローチを構築した。
提案手法は,コード合成,翻訳,修復作業において,コンパイルエラーを半分以上削減し,機能的正しさを著しく向上させる。
論文 参考訳(メタデータ) (2025-04-12T15:03:00Z) - Tokenization is Sensitive to Language Variation [14.568179478275255]
トケナイザーはテキストを小さな単位に分割し、あまり一般的でない言語形式に対して異なる振る舞いをするかもしれない。
これは2種類のタスクに対して、下流のLLMパフォーマンスに異なる影響を与える可能性がある。
最高のトークン化器は2つのタスクタイプによって異なり、事前トークン化器はパフォーマンスに最も大きな影響を与える。
論文 参考訳(メタデータ) (2025-02-21T09:58:54Z) - Tokenization as Finite-State Transduction [24.19959327497118]
正規言語の全てのトークン化を効率的にエンコードできる有限状態フレームワークを導入する。
そのByte-Pairを示します。
Match(BPE)とMaxPiece(WordPiece)がこのフレームワークに適合する。
これの応用は、あるパターンにマッチするように言語モデルの出力を制約するガイド付き生成である。
論文 参考訳(メタデータ) (2024-10-21T07:10:07Z) - CodeIP: A Grammar-Guided Multi-Bit Watermark for Large Language Models of Code [56.019447113206006]
大規模言語モデル(LLM)はコード生成において顕著な進歩を遂げた。
CodeIPは、新しいマルチビット透かし技術で、出所の詳細を保持するために追加情報を挿入する。
5つのプログラミング言語にまたがる実世界のデータセットで実施された実験は、CodeIPの有効性を実証している。
論文 参考訳(メタデータ) (2024-04-24T04:25:04Z) - Mutation-based Consistency Testing for Evaluating the Code Understanding
Capability of LLMs [5.549095839198671]
大きな言語モデル(LLM)は、自然言語とプログラミング言語の両方を処理する際、顕著な能力を示している。
本稿では,LLMのコード理解性能を評価する新しい手法を提案し,特にコードと記述の微妙な差異に着目した。
演算子置換やステートメント削除など,さまざまなタイプのコード突然変異を適用して,一貫性のないコード記述ペアを生成する。
我々は,現在最先端のコード生成ベンチマークであるHumanEval-Xを用いて,GPT-3.5とGPT-4の2つのLLMのケーススタディを行う。
論文 参考訳(メタデータ) (2024-01-11T14:27:43Z) - Bridging Code Semantic and LLMs: Semantic Chain-of-Thought Prompting for
Code Generation [22.219645213202178]
本稿では,SeCoT というコードの意味情報を抽出する "Semantic Chain-of-Thought" 手法を提案する。
本研究では,SeCoTが最先端の性能を実現し,大規模モデルやコード生成の可能性を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-10-16T05:09:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。