論文の概要: Spelling-out is not Straightforward: LLMs' Capability of Tokenization from Token to Characters
- arxiv url: http://arxiv.org/abs/2506.10641v1
- Date: Thu, 12 Jun 2025 12:27:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.730284
- Title: Spelling-out is not Straightforward: LLMs' Capability of Tokenization from Token to Characters
- Title(参考訳): Spelling-out is not Straightforward: LLMs's Capability of Tokenization from Token to characters
- Authors: Tatsuya Hiraoka, Kentaro Inui,
- Abstract要約: 大型言語モデル(LLM)は、文字単位で文字をスペルするが、より複雑な文字レベルのタスクに苦労する。
本研究では,LLMがスペルアウト処理中に文字レベルの情報を内部的にどのように表現し,活用するかを検討する。
- 参考スコア(独自算出の注目度): 25.430820735194768
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large language models (LLMs) can spell out tokens character by character with high accuracy, yet they struggle with more complex character-level tasks, such as identifying compositional subcomponents within tokens. In this work, we investigate how LLMs internally represent and utilize character-level information during the spelling-out process. Our analysis reveals that, although spelling out is a simple task for humans, it is not handled in a straightforward manner by LLMs. Specifically, we show that the embedding layer does not fully encode character-level information, particularly beyond the first character. As a result, LLMs rely on intermediate and higher Transformer layers to reconstruct character-level knowledge, where we observe a distinct "breakthrough" in their spelling behavior. We validate this mechanism through three complementary analyses: probing classifiers, identification of knowledge neurons, and inspection of attention weights.
- Abstract(参考訳): 大型言語モデル(LLM)は、文字ごとに高い精度でトークンを綴り出すことができるが、トークン内の構成サブコンポーネントを識別するなど、より複雑な文字レベルのタスクに苦労する。
本研究では,LLMがスペルアウト処理中に文字レベルの情報を内部的にどのように表現し,活用するかを検討する。
解析の結果,スペルアウトは人間にとって単純な作業であるが,LLMでは直接的に処理されないことがわかった。
具体的には,埋め込み層が文字レベル情報を完全にエンコードしていないことを示す。
その結果、LLMは文字レベルの知識を再構築するためにトランスフォーマーの中間層と上位層に依存しており、スペルの動作において異なる「ブレークスルー」を観察する。
本機構は,分類器の探索,知識ニューロンの同定,注意重みの検査という3つの相補的解析を通じて検証する。
関連論文リスト
- Enhancing LLM Character-Level Manipulation via Divide and Conquer [74.55804812450164]
大規模言語モデル(LLM)は、幅広い自然言語処理(NLP)タスクにまたがる強力な一般化機能を示している。
彼らは文字レベルの文字列操作において顕著な弱点を示し、文字削除、挿入、置換といった基本的な操作に苦労した。
本稿では,トークンレベルの処理と文字レベルの操作のギャップを埋める新しい手法であるDivide and Conquerによる文字レベル操作を提案する。
論文 参考訳(メタデータ) (2025-02-12T07:37:39Z) - Enhancing Character-Level Understanding in LLMs through Token Internal Structure Learning [20.801571525710834]
Token Internal Position Awareness (TIPA) は、トークン内の文字位置をキャプチャするモデルの能力を大幅に改善する手法である。
TIPAは、大きな言語モデルにおける位置予測精度を高め、元のテキストにおけるターゲット文字のより正確な識別を可能にする。
論文 参考訳(メタデータ) (2024-11-26T18:44:39Z) - CUTE: Measuring LLMs' Understanding of Their Tokens [54.70665106141121]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著なパフォーマンスを示す。
LLMはどの程度の間、正書法情報を学ぶことができるのか?
LLMの正書法知識をテストするために設計されたタスクの集合を特徴とする新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2024-09-23T18:27:03Z) - Identifying and Analyzing Performance-Critical Tokens in Large Language Models [52.404072802235234]
我々は大規模な言語モデルがいかに実演からタスクを実行するかを研究する。
私たちの仕事は、大規模な言語モデルがデモからタスクを実行するための学習方法に光を当て、さまざまな種類のトークンが大きな言語モデルで果たす役割についての理解を深めます。
論文 参考訳(メタデータ) (2024-01-20T20:55:21Z) - What do tokens know about their characters and how do they know it? [3.8254443661593633]
サブワードトークン化スキームを用いた事前学習型言語モデルは,文字レベルの情報を必要とする様々な言語タスクで成功することを示す。
これらのモデルが文字レベル情報を強固にエンコードし、一般に、より大きなモデルがそのタスクにおいてより優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2022-06-06T13:27:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。