論文の概要: Mechanistic Interpretability of Large-Scale Counting in LLMs through a System-2 Strategy
- arxiv url: http://arxiv.org/abs/2601.02989v1
- Date: Tue, 06 Jan 2026 12:58:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:12.936799
- Title: Mechanistic Interpretability of Large-Scale Counting in LLMs through a System-2 Strategy
- Title(参考訳): システム2戦略によるLLMにおける大規模カウントの機械論的解釈可能性
- Authors: Hosein Hasani, Mohammadali Banayeeanzade, Ali Nafisi, Sadegh Mohammadian, Fatemeh Askari, Mobin Bagherian, Amirmohammad Izadi, Mahdieh Soleymani Baghshah,
- Abstract要約: 大規模言語モデル(LLM)は、タスクのカウントにおいて体系的な制限を示す。
本稿では,システム2の認知プロセスにインスパイアされた簡易なテストタイム戦略を提案する。
- 参考スコア(独自算出の注目度): 9.93179257715309
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs), despite strong performance on complex mathematical problems, exhibit systematic limitations in counting tasks. This issue arises from architectural limits of transformers, where counting is performed across layers, leading to degraded precision for larger counting problems due to depth constraints. To address this limitation, we propose a simple test-time strategy inspired by System-2 cognitive processes that decomposes large counting tasks into smaller, independent sub-problems that the model can reliably solve. We evaluate this approach using observational and causal mediation analyses to understand the underlying mechanism of this System-2-like strategy. Our mechanistic analysis identifies key components: latent counts are computed and stored in the final item representations of each part, transferred to intermediate steps via dedicated attention heads, and aggregated in the final stage to produce the total count. Experimental results demonstrate that this strategy enables LLMs to surpass architectural limitations and achieve high accuracy on large-scale counting tasks. This work provides mechanistic insight into System-2 counting in LLMs and presents a generalizable approach for improving and understanding their reasoning behavior.
- Abstract(参考訳): 大規模言語モデル (LLM) は、複雑な数学的問題に強い性能を持つにもかかわらず、タスクのカウントにおいて体系的な制限を示す。
この問題は、層をまたいでカウントを行うトランスフォーマーのアーキテクチャ上の限界から生じ、深さ制約によるカウントの問題の精度が低下する。
この制限に対処するため,システム2の認知プロセスにインスパイアされた簡易なテストタイム戦略を提案し,大規模カウントタスクを,モデルが確実に解決可能な,より小さく独立したサブプロブレムに分解する。
本手法を観察・因果媒介分析を用いて評価し,システム2様戦略の基盤となるメカニズムを解明する。
我々の力学解析は,各部分の最終項目表現に潜伏数を計算して格納し,専用の注意頭を通して中間段階に移動し,最終段階に集約して総数を生成する,という重要な要素を同定する。
実験結果から,LLMはアーキテクチャ上の制約を超越し,大規模カウントタスクの高精度化を実現することができることがわかった。
この研究は、LLMにおけるSystem-2の数え上げに関する力学的な洞察を与え、それらの推論行動を改善し、理解するための一般化可能なアプローチを示す。
関連論文リスト
- Boost, Disentangle, and Customize: A Robust System2-to-System1 Pipeline for Code Generation [58.799397354312596]
大規模言語モデル(LLM)は、様々な領域、特にシステム1タスクにおいて顕著な機能を示した。
System2-to-System1法に関する最近の研究が急増し、推論時間計算によるシステム2の推論知識が探索された。
本稿では,システム2タスクの代表的タスクであるコード生成に注目し,主な課題を2つ挙げる。
論文 参考訳(メタデータ) (2025-02-18T03:20:50Z) - Reasoning on a Spectrum: Aligning LLMs to System 1 and System 2 Thinking [2.8972218767527527]
大きな言語モデル(LLM)は印象的な推論能力を示すが、構造化されたステップバイステップの推論に依存しているため、限界が示される。
この作業は、ステップバイステップの推論が常に最適であるという仮定に挑戦し、タスク要求に基づいた推論戦略を適用する必要性を強調します。
論文 参考訳(メタデータ) (2025-02-18T02:58:37Z) - Interpreting and Improving Large Language Models in Arithmetic Calculation [72.19753146621429]
大規模言語モデル(LLM)は、多くのアプリケーションにまたがる顕著な可能性を示している。
本研究では,LLMが計算を行う特定のメカニズムを明らかにする。
LLMの計算性能を高めるために、これらの必須ヘッド/MLPを選択的に微調整する潜在的な利点について検討する。
論文 参考訳(メタデータ) (2024-09-03T07:01:46Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Tender: Accelerating Large Language Models via Tensor Decomposition and Runtime Requantization [0.6445087473595953]
大規模言語モデル(LLM)は、機械学習における様々なタスクにおいて優れたパフォーマンスを示す。
LLM推論のデプロイは、高い計算とメモリ要求のために問題となる。
我々は,低精度でLLM推論を効率的に展開できるアルゴリズム-ハードウェア共設計ソリューションであるテンダーを提案する。
論文 参考訳(メタデータ) (2024-06-16T09:51:55Z) - Characterization of Large Language Model Development in the Datacenter [55.9909258342639]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。
しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。
我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文 参考訳(メタデータ) (2024-03-12T13:31:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。