論文の概要: Word Recovery in Large Language Models Enables Character-Level Tokenization Robustness
- arxiv url: http://arxiv.org/abs/2603.10771v1
- Date: Wed, 11 Mar 2026 13:49:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.971064
- Title: Word Recovery in Large Language Models Enables Character-Level Tokenization Robustness
- Title(参考訳): 文字レベルトークン化ロバスト性を実現する大言語モデルの単語復元
- Authors: Zhipeng Yang, Shu Yang, Lijie Hu, Di Wang,
- Abstract要約: 標準トークン化で訓練された大言語モデル(LLM)は、文字レベルのトークン化のような非標準入力に対して驚くほど堅牢である。
まず,隠れ状態が文字レベルの入力から正規語レベルのトークンIDを再構成することを示す。
次に,隠れ状態から対応する部分空間を取り除き,ダウンストリームタスク性能を継続的に低下させることで因果的エビデンスを提供する。
- 参考スコア(独自算出の注目度): 17.9020546439403
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) trained with canonical tokenization exhibit surprising robustness to non-canonical inputs such as character-level tokenization, yet the mechanisms underlying this robustness remain unclear. We study this phenomenon through mechanistic interpretability and identify a core process we term word recovery. We first introduce a decoding-based method to detect word recovery, showing that hidden states reconstruct canonical word-level token identities from character-level inputs. We then provide causal evidence by removing the corresponding subspace from hidden states, which consistently degrades downstream task performance. Finally, we conduct a fine-grained attention analysis and show that in-group attention among characters belonging to the same canonical token is critical for word recovery: masking such attention in early layers substantially reduces both recovery scores and task performance. Together, our findings provide a mechanistic explanation for tokenization robustness and identify word recovery as a key mechanism enabling LLMs to process character-level inputs.
- Abstract(参考訳): 標準トークン化で訓練された大規模言語モデル(LLM)は、文字レベルのトークン化のような非標準的な入力に対して驚くほど堅牢性を示すが、この堅牢性の基礎となるメカニズムは未だ不明である。
我々は,この現象を機械的解釈可能性を通じて研究し,単語回復というコアプロセスを特定する。
まず,隠れ状態が文字レベルの入力から正規語レベルのトークンIDを再構成することを示す。
次に,隠れ状態から対応する部分空間を取り除き,ダウンストリームタスク性能を継続的に低下させることで因果的エビデンスを提供する。
最後に,同じ標準トークンに属するキャラクタ間のグループ内注意が単語の回復に重要であることを示す,詳細な注意分析を行い,初期層におけるそのような注意を隠蔽することで,回復スコアとタスクパフォーマンスの両面で著しく低下することを示す。
そこで本研究では,LLMが文字レベルの入力を処理するための重要なメカニズムとして,トークン化の堅牢性について機械論的に説明し,単語の回復を同定する。
関連論文リスト
- Understanding Hardness of Vision-Language Compositionality from A Token-level Causal Lens [12.946160260124378]
対照的な言語-イメージ 事前学習は強力なクロスモーダルな一般化をもたらす。
オブジェクト、属性、関係性に対する構成的推論では、永続的に失敗する。
完全モーダル不変アライメントを実現する擬似最適テキストエンコーダの存在を示す。
論文 参考訳(メタデータ) (2025-10-30T09:41:21Z) - Broken Tokens? Your Language Model can Secretly Handle Non-Canonical Tokenizations [83.93566096400723]
ランダムにサンプリングされたトークン化が与えられた場合、命令調整されたモデルは元の性能の最大93.4%を維持している。
文字レベルのセグメンテーションは文字列操作とコード理解タスクを最大+14%改善する。
右列桁のグルーピングは、大数の算術を+33%向上させる。
論文 参考訳(メタデータ) (2025-06-23T18:02:26Z) - "Principal Components" Enable A New Language of Images [79.45806370905775]
証明可能なPCAのような構造を潜在トークン空間に組み込む新しい視覚トークン化フレームワークを導入する。
提案手法は、最先端の再構築性能を実現し、人間の視覚システムとの整合性を向上する。
論文 参考訳(メタデータ) (2025-03-11T17:59:41Z) - Enhancing LLM Character-Level Manipulation via Divide and Conquer [74.55804812450164]
大規模言語モデル(LLM)は、幅広い自然言語処理(NLP)タスクにまたがる強力な一般化機能を示している。
彼らは文字レベルの文字列操作において顕著な弱点を示し、文字削除、挿入、置換といった基本的な操作に苦労した。
本稿では,トークンレベルの処理と文字レベルの操作のギャップを埋める新しい手法であるDivide and Conquerによる文字レベル操作を提案する。
論文 参考訳(メタデータ) (2025-02-12T07:37:39Z) - Analyzing Cognitive Plausibility of Subword Tokenization [9.510439539246846]
サブワードトークン化はトークン化のデファクトスタンダードになっている。
本稿では,サブワードトークン化の認知的妥当性に着目した新しい評価パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-20T08:25:37Z) - Tram: A Token-level Retrieval-augmented Mechanism for Source Code Summarization [76.57699934689468]
ニューラルモデルの性能を高めるために,デコーダ側で詳細なTokenレベル検索強化機構(Tram)を提案する。
文脈的コードセマンティクスの取得におけるトークンレベルの検索の課題を克服するために,コードセマンティクスを個々の要約トークンに統合することを提案する。
論文 参考訳(メタデータ) (2023-05-18T16:02:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。