論文の概要: Disentangling Mathematical Reasoning in LLMs: A Methodological Investigation of Internal Mechanisms
- arxiv url: http://arxiv.org/abs/2604.15842v1
- Date: Fri, 17 Apr 2026 08:44:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 22:00:19.83641
- Title: Disentangling Mathematical Reasoning in LLMs: A Methodological Investigation of Internal Mechanisms
- Title(参考訳): LLMにおける異方性数学的推論:内部機構の方法論的考察
- Authors: Tanja Baeumel, Josef van Genabith, Simon Ostermann,
- Abstract要約: 大規模言語モデル(LLM)は目覚ましい能力を示しているが、推論集約的なタスクを扱う内部メカニズムは未解明のままである。
タスク実行中の内部メカニズムを調べることにより,LLMが演算操作をどのように行うかを検討する。
実験の結果,モデルが演算タスクを早期に認識する一方で,最終層でのみ正しい結果が得られることがわかった。
- 参考スコア(独自算出の注目度): 10.546694596577057
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have demonstrated impressive capabilities, yet their internal mechanisms for handling reasoning-intensive tasks remain underexplored. To advance the understanding of model-internal processing mechanisms, we present an investigation of how LLMs perform arithmetic operations by examining internal mechanisms during task execution. Using early decoding, we trace how next-token predictions are constructed across layers. Our experiments reveal that while the models recognize arithmetic tasks early, correct result generation occurs only in the final layers. Notably, models proficient in arithmetic exhibit a clear division of labor between attention and MLP modules, where attention propagates input information and MLP modules aggregate it. This division is absent in less proficient models. Furthermore, successful models appear to process more challenging arithmetic tasks functionally, suggesting reasoning capabilities beyond factual recall.
- Abstract(参考訳): 大規模言語モデル(LLM)は目覚ましい能力を示しているが、推論集約的なタスクを扱う内部メカニズムは未解明のままである。
モデル内処理機構の理解を深めるために,LLMがタスク実行中に内部機構を調べることによって演算処理を行う方法を検討する。
早期復号法を用いて,階層にまたがって次世代の予測が構築される様子を追究する。
実験の結果,モデルが演算タスクを早期に認識する一方で,最終層にのみ正確な結果生成が生じることがわかった。
特に、算術に熟練したモデルでは、注意が入力情報を伝播し、MLPモジュールがそれを集約する、注意モジュールとMLPモジュールの間に明らかな分断が示される。
この部門は熟練度の低いモデルでは欠落している。
さらに、成功したモデルはより困難な算術的タスクを機能的に処理し、事実的リコール以上の推論能力を示唆している。
関連論文リスト
- Large Language Models and Algorithm Execution: Application to an Arithmetic Function [0.0]
LLM-DAL (Large Language Model - Decompositional Algorithmic Learning) と呼ばれる学習モデルを導入する。
LLMの複雑なアルゴリズム推論と一般化の能力は、トレーニング方法が適切に設計されている場合、大幅に改善できることを実証する。
論文 参考訳(メタデータ) (2026-01-12T12:27:59Z) - How do Large Language Models Understand Relevance? A Mechanistic Interpretability Perspective [64.00022624183781]
大規模言語モデル(LLM)は、関連性を評価し、情報検索(IR)タスクをサポートする。
メカニスティック・インタプリタビリティのレンズを用いて,異なるLLMモジュールが関係判断にどのように寄与するかを検討する。
論文 参考訳(メタデータ) (2025-04-10T16:14:55Z) - Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。
大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。
従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文 参考訳(メタデータ) (2025-04-10T04:09:47Z) - Interpreting and Improving Large Language Models in Arithmetic Calculation [72.19753146621429]
大規模言語モデル(LLM)は、多くのアプリケーションにまたがる顕著な可能性を示している。
本研究では,LLMが計算を行う特定のメカニズムを明らかにする。
LLMの計算性能を高めるために、これらの必須ヘッド/MLPを選択的に微調整する潜在的な利点について検討する。
論文 参考訳(メタデータ) (2024-09-03T07:01:46Z) - Towards Modeling Learner Performance with Large Language Models [7.002923425715133]
本稿では,LLMのパターン認識とシーケンスモデリング機能が,知識追跡の領域にまで拡張できるかどうかを検討する。
ゼロショットプロンプト(ゼロショットプロンプト)とモデル微調整(モデル微調整)の2つの手法と,既存のLLM以外の知識追跡手法を比較した。
LLMベースのアプローチは最先端のパフォーマンスを達成しないが、微調整のLLMは素早いベースラインモデルの性能を上回り、標準的なベイズ的知識追跡手法と同等に機能する。
論文 参考訳(メタデータ) (2024-02-29T14:06:34Z) - A Mechanistic Interpretation of Arithmetic Reasoning in Language Models
using Causal Mediation Analysis [128.0532113800092]
算数問題に対するトランスフォーマーに基づくLMの機械的解釈を提案する。
これにより、算術に関連する情報がLMによってどのように処理されるかについての洞察が得られる。
論文 参考訳(メタデータ) (2023-05-24T11:43:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。