論文の概要: The Right Answer, the Wrong Direction: Why Transformers Fail at Counting and How to Fix It
- arxiv url: http://arxiv.org/abs/2605.03258v1
- Date: Tue, 05 May 2026 01:13:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:43.701291
- Title: The Right Answer, the Wrong Direction: Why Transformers Fail at Counting and How to Fix It
- Title(参考訳): 正しい答えと間違った方向:なぜトランスフォーマーはカウントに失敗し、どのように修正するか
- Authors: Gabriel Garcia,
- Abstract要約: 大規模言語モデルは、たとえカウントすべきアイテムがプロンプトに明示的に存在しているとしても、単純なカウントタスクで失敗することが多い。
この失敗は、変換器が内部的にカウントを表現しないためなのか、あるいはそれらの表現を正しい出力トークンに変換することができないためなのかを考察する。
線形プローブは、中間層からほぼ完全な精度で正しいカウントを復元する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models often fail at simple counting tasks, even when the items to count are explicitly present in the prompt. We investigate whether this failure occurs because transformers do not represent counts internally, or because they cannot convert those representations into the correct output tokens. Across three model families, Pythia, Qwen3, and Mistral, ranging from 0.4B to 14B parameters, we find strong evidence for the second explanation. Linear probes recover the correct count from intermediate layers with near-perfect accuracy ($R^2>0.99$), showing that the information is present. However, the internal directions that encode counts are nearly orthogonal to the output-head rows for digit tokens ($|\cos|\leq0.032$). In other words, the model stores the count in a form that the digit logits do not naturally read out. We localize this failure with two interventions. Updating only the digit rows of the output head (36,864 parameters) substantially improves constrained next-token digit prediction (60.7 to 100.0% across four tasks), but it does not fix autoregressive generation. By contrast, a small LoRA intervention on attention Q/V weights (7.67M parameters) improves upstream routing and achieves 83.1% +/- 7.2% in true greedy autoregressive generation. Logit-lens measurements confirm the mechanism: the correct digit's vocabulary rank drops from 55,980 to 1, a 50,000x improvement. Additional norm, logit-lens, and cross-task analyses show that the bottleneck generalizes across character counting, addition, and list length, while remaining absent from broader multi-step reasoning benchmarks, including MMLU, GSM8K, and DROP. These results identify counting failure as a geometric readout bottleneck rather than a failure of internal representation: the model knows the count but the output pathway is geometrically misaligned with the tokens needed to express it.
- Abstract(参考訳): 大規模言語モデルは、たとえカウントすべきアイテムがプロンプトに明示的に存在しているとしても、単純なカウントタスクで失敗することが多い。
この失敗は、変換器が内部的にカウントを表現しないためなのか、あるいはそれらの表現を正しい出力トークンに変換することができないためなのかを考察する。
ピキア、Qwen3、Mistralの3つのモデル族は0.4Bから14Bの範囲で、第2の説明の強い証拠を見出す。
線形プローブは、中間層からほぼ完全な精度(R^2>0.99$)で正しいカウントを復元し、情報が存在することを示す。
しかし、カウントを符号化する内部方向は、桁のトークン(|\cos|\leq0.032$)の出力ヘッド行とほぼ直交する。
言い換えれば、このモデルは数値を数字のロジットが自然に読み出さない形で保存する。
この失敗を2つの介入で局所化する。
出力ヘッドの桁行(36,864パラメータ)のみの更新は、制約付き次トーケンの桁予測(4つのタスクで60.7から100.0%)を大幅に改善するが、自己回帰生成を修正しない。
対照的に、注意Q/V重みに対する小さなLoRA介入(7.67Mパラメータ)は上流のルーティングを改善し、真の強欲な自己回帰生成において83.1%+/-7.2%を達成する。
正しい数字の語彙ランクは55,980から1,50,000倍に低下する。
追加のノルム、ロジットレンズ、クロスタスク分析は、ボトルネックが文字カウント、加算、リスト長をまたいで一般化する一方で、MMLU、GSM8K、DROPを含むより広範な多段階推論ベンチマークは欠如していることを示している。
これらの結果は、カウントの失敗を内部表現の失敗よりも幾何学的読み出しボトルネックとみなす:モデルはカウントを知っているが、出力経路はそれを表現するのに必要なトークンと幾何学的に不一致である。
関連論文リスト
- Measuring Representation Robustness in Large Language Models for Geometry [7.743292557234699]
幾何学において、同一の問題はユークリッド、座標、ベクトル形式で表すことができる。
既存のベンチマークでは、固定フォーマットの精度が報告されている。
表現対応評価フレームワークGeoRepEvalを提案する。
論文 参考訳(メタデータ) (2026-04-03T11:36:49Z) - From Early Encoding to Late Suppression: Interpreting LLMs on Character Counting Tasks [49.57538588967748]
LLM(Large Language Model)は、複雑なベンチマークでは優れているにもかかわらず、単語中の文字数などの基本的な記号的タスクにおいて失敗を示す。
我々は、LLaMA、Qwen、Gemmaなど、現代のアーキテクチャにまたがる一貫した現象を発見した。
LLMにおけるシンボリック推論失敗は,表現不足やスケール不足によるものではなく,モデル計算グラフ内の構造的干渉によるものであることを示す。
論文 参考訳(メタデータ) (2026-04-01T11:40:12Z) - Think-at-Hard: Selective Latent Iterations to Improve Reasoning Language Models [22.525318796588568]
シンク・アット・ハード(Think-at-Hard, TaH)は、ハードトークンでのみ深く反復する動的潜在思考法である。
TaHは5つの挑戦的なベンチマークで推論のパフォーマンスを向上する。
論文 参考訳(メタデータ) (2025-11-11T18:57:02Z) - Understanding and Mitigating Numerical Sources of Nondeterminism in LLM Inference [31.2331188304598]
評価バッチサイズ、GPUカウント、GPUバージョンなどのシステム構成の変更は、生成されたレスポンスに大きな違いをもたらす可能性がある。
この変数の根本原因は、限定的な数値精度で浮動小数点算術の非連想性に遡る。
そこで我々は16ビットの精度で重みを格納するが、FP32では全ての計算を実行する軽量な推論パイプラインLayerCastを開発した。
論文 参考訳(メタデータ) (2025-06-11T08:23:53Z) - VeriThinker: Learning to Verify Makes Reasoning Model Efficient [52.74493506816969]
大型推論モデルは、Chain-of-Thought (CoT)推論を用いて複雑なタスクで優れている。
過度に考える傾向は、必然的に長い推論連鎖に繋がる。
我々は,CoT圧縮の新しい手法であるVeriThinkerを紹介する。
論文 参考訳(メタデータ) (2025-05-23T14:17:56Z) - Do Large Language Models Truly Grasp Addition? A Rule-Focused Diagnostic Using Two-Integer Arithmetic [21.014229380679975]
大規模言語モデル(LLM)は高度な数学のベンチマークでは印象的な結果を得るが、基本的な算術的なタスクでは失敗することがある。
基本演算規則を真に把握したのか、それとも単にパターンマッチングに依存しているのかを考察する。
モデルでは高い数値精度を達成できるが、これらの診断は体系的に失敗する。
論文 参考訳(メタデータ) (2025-04-07T16:57:10Z) - Token-by-Token Regeneration and Domain Biases: A Benchmark of LLMs on Advanced Mathematical Problem-Solving [0.0]
本研究は,MATHデータセットを用いて10大言語モデル(LLM)を70億から80億のパラメータで評価する。
焦点は、9450以上のコード実行を含む、推論プロセスのステップとして実行可能なPythonコードを生成する能力である。
論文 参考訳(メタデータ) (2025-01-28T17:11:36Z) - Span Pointer Networks for Non-Autoregressive Task-Oriented Semantic
Parsing [55.97957664897004]
seq2seq、非自動回帰的、タスク指向を構築するための効果的なレシピは、3つのステップで発話とセマンティックフレームをマッピングする。
これらのモデルは通常、長さ予測によってボトルネックとなる。
本研究では,デコードタスクをテキスト生成からスパン予測へシフトさせる非自己回帰手法を提案する。
論文 参考訳(メタデータ) (2021-04-15T07:02:35Z) - Cryptanalytic Extraction of Neural Network Models [56.738871473622865]
遠隔モデルのパラメータを浮動小数点精度まで効率的に盗むことができる差動攻撃を導入する。
我々の攻撃は、ReLUニューラルネットワークが一括線形関数であるという事実に依存している。
220倍の正確さと100倍のクエリを必要とするモデルを抽出する。
論文 参考訳(メタデータ) (2020-03-10T17:57:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。