論文の概要: From Early Encoding to Late Suppression: Interpreting LLMs on Character Counting Tasks
- arxiv url: http://arxiv.org/abs/2604.00778v1
- Date: Wed, 01 Apr 2026 11:40:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:31.960251
- Title: From Early Encoding to Late Suppression: Interpreting LLMs on Character Counting Tasks
- Title(参考訳): 初期エンコーディングから後期抑圧へ:文字カウントタスクにおけるLLMの解釈
- Authors: Ayan Datta, Mounika Marreddy, Alexander Mehler, Zhixue Zhao, Radhika Mamidi,
- Abstract要約: LLM(Large Language Model)は、複雑なベンチマークでは優れているにもかかわらず、単語中の文字数などの基本的な記号的タスクにおいて失敗を示す。
我々は、LLaMA、Qwen、Gemmaなど、現代のアーキテクチャにまたがる一貫した現象を発見した。
LLMにおけるシンボリック推論失敗は,表現不足やスケール不足によるものではなく,モデル計算グラフ内の構造的干渉によるものであることを示す。
- 参考スコア(独自算出の注目度): 49.57538588967748
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) exhibit failures on elementary symbolic tasks such as character counting in a word, despite excelling on complex benchmarks. Although this limitation has been noted, the internal reasons remain unclear. We use character counting (e.g., "How many p's are in apple?") as a minimal, controlled probe that isolates token-level reasoning from higher-level confounds. Using this setting, we uncover a consistent phenomenon across modern architectures, including LLaMA, Qwen, and Gemma: models often compute the correct answer internally yet fail to express it at the output layer. Through mechanistic analysis combining probing classifiers, activation patching, logit lens analysis, and attention head tracing, we show that character-level information is encoded in early and mid-layer representations. However, this information is attenuated by a small set of components in later layers, especially the penultimate and final layer MLP. We identify these components as negative circuits: subnetworks that downweight correct signals in favor of higher-probability but incorrect outputs. Our results lead to two contributions. First, we show that symbolic reasoning failures in LLMs are not due to missing representations or insufficient scale, but arise from structured interference within the model's computation graph. This explains why such errors persist and can worsen under scaling and instruction tuning. Second, we provide evidence that LLM forward passes implement a form of competitive decoding, in which correct and incorrect hypotheses coexist and are dynamically reweighted, with final outputs determined by suppression as much as by amplification. These findings carry implications for interpretability and robustness: simple symbolic reasoning exposes weaknesses in modern LLMs, underscoring need for design strategies that ensure information is encoded and reliably used.
- Abstract(参考訳): LLM(Large Language Model)は、複雑なベンチマークでは優れているにもかかわらず、単語中の文字数などの基本的な記号的タスクにおいて失敗を示す。
この制限は指摘されているが、内部の理由は不明なままである。
文字カウント(例: "P's are in apple?" p's are in apple?)は、トークンレベルの推論を高レベルのコンファウンドから分離する最小限の制御プローブとして使用します。
この設定を用いて、LLaMA、Qwen、Gemmaを含む近代的なアーキテクチャ間で一貫した現象を明らかにする。
探索型分類器,アクティベーションパッチ,ロジットレンズ解析,アテンションヘッド追跡を組み合わせた力学解析により,文字レベル情報が初期および中層表現に符号化されていることを示す。
しかし、この情報は後層、特に最後層および最後層MLPの小さな構成要素によって減衰される。
我々はこれらの成分を負の回路とみなし、より高い確率で不正確な出力を優先して、ダウンウェイトな正しい信号を求めるサブネットワークを設計する。
私たちの結果は2つの貢献につながります。
まず, LLMにおけるシンボリック推論失敗は, 表現不足やスケール不足によるものではなく, モデル計算グラフ内の構造的干渉によるものであることを示す。
このことは、なぜそのようなエラーが持続し、スケーリングとインストラクションチューニングで悪化するのかを説明する。
第2に, LLM の前方通過が, 正しい仮説と誤った仮説が共存し, 動的に再重み付けされるような競合復号方式を実装していることを示す。
これらの発見は、解釈可能性と堅牢性に影響を及ぼす: 単純な記号的推論は、現代のLLMの弱点を露呈し、情報をエンコードし確実に使用するための設計戦略の必要性を強調する。
関連論文リスト
- Farther the Shift, Sparser the Representation: Analyzing OOD Mechanisms in LLMs [100.02824137397464]
難易度が増大する入力に遭遇した場合,大規模言語モデルが内部表現をどのように適応するかを検討する。
タスクの難易度が増大するにつれて、LLMの最後の隠れ状態は実質的にスペーサーとなる。
この空間性-微分的関係は、様々なモデルや領域で観測可能である。
論文 参考訳(メタデータ) (2026-03-03T18:48:15Z) - Step-Level Sparse Autoencoder for Reasoning Process Interpretation [48.99201531966593]
大規模言語モデル(LLM)は、Chain-of-Thought(CoT)推論を通じて、強力な複雑な推論機能を実現している。
本稿では,ステップレベルスパースオートエンコーダ (SSAE) を提案する。
複数の基本モデルと推論タスクの実験により,抽出した特徴の有効性が示された。
論文 参考訳(メタデータ) (2026-03-03T14:25:02Z) - FrugalPrompt: Reducing Contextual Overhead in Large Language Models via Token Attribution [3.4666771782038652]
大規模言語モデル(LLM)は、その恒星の性能の大部分を入力コンテキストの拡大に負っているが、そのような冗長性は金銭的コスト、炭素フットプリント、推論時間の遅延を膨らませている。
本稿では,LLMのための新しいプロンプト圧縮フレームワークであるFrugalPromptを紹介する。
我々は,4つのNLPタスク(感性分析,コモンセンスQA,要約,数学的推論)にまたがるアプローチを評価する。
論文 参考訳(メタデータ) (2025-10-18T10:22:13Z) - Hyperdimensional Probe: Decoding LLM Representations via Vector Symbolic Architectures [12.466522376751811]
超次元プローブは、大規模言語モデルベクトル空間から情報を復号するための新しいパラダイムである。
シンボリック表現とニューラルプローブのアイデアを組み合わせて、モデルの残留ストリームを解釈可能な概念に投影する。
我々の研究は、LLMベクトル空間における情報復号化を進め、神経表現からより情報的、解釈可能、構造化された特徴を抽出することを可能にする。
論文 参考訳(メタデータ) (2025-09-29T16:59:07Z) - Where Did It Go Wrong? Attributing Undesirable LLM Behaviors via Representation Gradient Tracing [12.835224376066769]
大きな言語モデル(LLM)は目覚ましい機能を示しているが、そのデプロイメントは望ましくない振る舞いによってしばしば損なわれている。
本稿では,表現とその勾配を解析することによって,望ましくないLCMの挙動を診断する,新しい,効率的なフレームワークを提案する。
本手法は,有害な内容の追跡,バックドア中毒の検出,知識汚染の同定などのタスクに対して,系統的に評価する。
論文 参考訳(メタデータ) (2025-09-26T12:07:47Z) - Unlearning Isn't Deletion: Investigating Reversibility of Machine Unlearning in LLMs [38.837810490068556]
大規模言語モデル(LLM)におけるアンラーニングは、指定されたデータを削除することを目的としているが、その効果は通常、正確性や複雑度のようなタスクレベルのメトリクスで評価される。
最小限の微調整によって元の動作が容易に復元される間、モデルは忘れることができることを実証する。
この表現可能性の現象は、情報は単に抑圧されているだけであり、真に消去されていないことを示唆している。
論文 参考訳(メタデータ) (2025-05-22T16:02:10Z) - Demystifying Singular Defects in Large Language Models [61.98878352956125]
大規模言語モデル(LLM)では、ハイノームトークンの根本原因は未解明のままである。
理論的な洞察と経験的検証の両方を、近年のモデルで提供します。
量子化方式の改良とLCMシグネチャの設計の2つの実用的応用について述べる。
論文 参考訳(メタデータ) (2025-02-10T20:09:16Z) - FFN-SkipLLM: A Hidden Gem for Autoregressive Decoding with Adaptive Feed Forward Skipping [49.66872823080736]
自己回帰型大規模言語モデル(LLaMa, GPT)は、言語理解と生成において顕著な成功を収めている。
発生時に発生する過負荷を軽減するため、いくつかの早期退避および層下降戦略が提案されている。
本稿では,入力適応型フィードフォワードスキップ戦略であるFFN-SkipLLMを提案する。
論文 参考訳(メタデータ) (2024-04-05T02:35:43Z) - Exposing Attention Glitches with Flip-Flop Language Modeling [55.0688535574859]
この研究は、大きな言語モデルにおける注意点の現象を特定し、分析する。
ニューラルネットワークモデルの外挿挙動を探索するために設計された,合成ベンチマークのファミリであるフリップフロップ言語モデリング(FFLM)を導入する。
その結果,Transformer FFLM は散発的推論誤差の長い尾に悩まされていることがわかった。
論文 参考訳(メタデータ) (2023-06-01T17:44:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。