論文の概要: Modular Arithmetic: Language Models Solve Math Digit by Digit
- arxiv url: http://arxiv.org/abs/2508.02513v1
- Date: Mon, 04 Aug 2025 15:18:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.400531
- Title: Modular Arithmetic: Language Models Solve Math Digit by Digit
- Title(参考訳): モジュラ算術:ディジットによる数学ディジットを解く言語モデル
- Authors: Tanja Baeumel, Daniil Gurgurov, Yusser al Ghussin, Josef van Genabith, Simon Ostermann,
- Abstract要約: 本稿では,Large Language Models (LLMs) が算術演算に用いている桁配置特化回路の存在を示す。
重要度特徴と因果干渉を用いて、Digital-position-specific 回路を同定し、検証する。
我々の介入は、対象の桁位置におけるモデルの予測を選択的に修正し、算術課題の解法における桁位置回路の因果的役割を実証する。
- 参考スコア(独自算出の注目度): 9.827634698754014
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While recent work has begun to uncover the internal strategies that Large Language Models (LLMs) employ for simple arithmetic tasks, a unified understanding of their underlying mechanisms is still lacking. We extend recent findings showing that LLMs represent numbers in a digit-wise manner and present evidence for the existence of digit-position-specific circuits that LLMs use to perform simple arithmetic tasks, i.e. modular subgroups of MLP neurons that operate independently on different digit positions (units, tens, hundreds). Notably, such circuits exist independently of model size and of tokenization strategy, i.e. both for models that encode longer numbers digit-by-digit and as one token. Using Feature Importance and Causal Interventions, we identify and validate the digit-position-specific circuits, revealing a compositional and interpretable structure underlying the solving of arithmetic problems in LLMs. Our interventions selectively alter the model's prediction at targeted digit positions, demonstrating the causal role of digit-position circuits in solving arithmetic tasks.
- Abstract(参考訳): 最近の研究で、LLM(Large Language Models)が単純な算術的なタスクに用いている内部戦略を明らかにし始めているが、その基盤となるメカニズムの統一的な理解はいまだに不足している。
我々は、LLMが数字を桁的に表現していることを示す最近の知見を拡張し、LLMが単純な算術的なタスク、すなわち異なる桁位置(単位、数十、数百)で独立に動作するMLPニューロンのモジュラー部分群を実行するために使用する桁位置特定回路の存在を示す証拠を提示する。
特に、そのような回路はモデルサイズとトークン化戦略とは独立に存在し、より長い数値を桁単位にエンコードするモデルと1つのトークンである。
特徴重要度と因果干渉を用いて、数値配置固有の回路を同定・検証し、LLMにおける算術問題の解法の基礎となる構成的・解釈可能な構造を明らかにする。
我々の介入は、対象の桁位置におけるモデルの予測を選択的に修正し、算術課題の解法における桁位置回路の因果的役割を実証する。
関連論文リスト
- When can isotropy help adapt LLMs' next word prediction to numerical domains? [53.98633183204453]
文脈埋め込み空間におけるLLM埋め込みの等方性は表現の基盤構造を保存することが示されている。
実験により、数値データとモデルアーキテクチャの異なる特性が等方性に異なる影響があることが示されている。
論文 参考訳(メタデータ) (2025-05-22T05:10:34Z) - Unraveling Arithmetic in Large Language Models: The Role of Algebraic Structures [2.8311048083168657]
大型言語モデル (LLM) は顕著な数学的能力を示しており、主にチェーン・オブ・シント (CoT) のプロンプトによって駆動されている。
LLMは可換性や恒等性などの代数的構造を捉えることによって算術を学習する。
論文 参考訳(メタデータ) (2024-11-25T10:23:11Z) - Arithmetic Without Algorithms: Language Models Solve Math With a Bag of Heuristics [43.86518549293703]
大規模言語モデル (LLM) は, 頑健なアルゴリズムや暗記を使わず, 算術的に実行可能であることを示す。
実験結果から,LLMはロバストなアルゴリズムや暗記を使わずに演算を行うことがわかった。
論文 参考訳(メタデータ) (2024-10-28T17:59:06Z) - Language Models are Symbolic Learners in Arithmetic [8.34588487873447]
大規模言語モデル(LLM)は、言語モデリングと数値計算の間に固有の違いがあるため、算術学習に苦慮していると考えられている。
まず,算術学習において LLM が部分積を利用するかどうかを検討する。
LLMは学習後にいくつかの部分積を識別できるが、算術的なタスクには利用できない。
論文 参考訳(メタデータ) (2024-10-21T01:57:16Z) - How Numerical Precision Affects Arithmetical Reasoning Capabilities of LLMs [69.55103380185612]
本稿では,トランスフォーマーに基づく大規模言語モデルの算術性能に影響を与える重要な要因として,数値精度を同定する。
その結果,数値精度の低いトランスフォーマーでは,繰り返し加算や整数乗算などの算術的なタスクに対処できないことがわかった。
対照的に、標準的な数値精度のトランスフォーマーは、モデルサイズを大幅に小さくすることで、これらのタスクを効率的に処理することができる。
論文 参考訳(メタデータ) (2024-10-17T17:59:35Z) - Language Models Encode Numbers Using Digit Representations in Base 10 [12.913172023910203]
本稿では,大規模言語モデル (LLM) が単純な数値問題を扱う際に誤りを犯すことを示す。
LLMは内部的に、基数10の個々の円の表現を持つ数を表す。
この数値表現は、数値推論を含むタスクにおけるモデルの誤りパターンに光を当てる。
論文 参考訳(メタデータ) (2024-10-15T17:00:15Z) - Interpreting and Improving Large Language Models in Arithmetic Calculation [72.19753146621429]
大規模言語モデル(LLM)は、多くのアプリケーションにまたがる顕著な可能性を示している。
本研究では,LLMが計算を行う特定のメカニズムを明らかにする。
LLMの計算性能を高めるために、これらの必須ヘッド/MLPを選択的に微調整する潜在的な利点について検討する。
論文 参考訳(メタデータ) (2024-09-03T07:01:46Z) - Reverse That Number! Decoding Order Matters in Arithmetic Learning [49.5504492920404]
本研究は,最少の桁から出力を優先順位付けすることで,桁順を再評価する新たな戦略を導入する。
従来のSOTA法と比較すると,通常のトレーニングで使用するトークンの3分の1しか必要とせず,精度の全体的な改善が見られた。
論文 参考訳(メタデータ) (2024-03-09T09:04:53Z) - In-Context Language Learning: Architectures and Algorithms [73.93205821154605]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。
我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文 参考訳(メタデータ) (2024-01-23T18:59:21Z) - Language Models Encode the Value of Numbers Linearly [28.88044346200171]
数学の基本要素である数値を言語モデルでエンコードする方法を考察する。
実験結果は,大規模言語モデルにおける符号付き数値の存在を支持する。
我々の研究は、LLMが数値を線形にエンコードする証拠を提供する。
論文 参考訳(メタデータ) (2024-01-08T08:54:22Z) - Language Models Implement Simple Word2Vec-style Vector Arithmetic [32.2976613483151]
言語モデル(LM)に対する主要な批判は、その調査性である。
本稿では,その大きさと複雑さにもかかわらず,LMは単純なベクトル演算方式を用いて,いくつかのリレーショナルタスクを解くことの証拠を提示する。
論文 参考訳(メタデータ) (2023-05-25T15:04:01Z) - A Mechanistic Interpretation of Arithmetic Reasoning in Language Models
using Causal Mediation Analysis [128.0532113800092]
算数問題に対するトランスフォーマーに基づくLMの機械的解釈を提案する。
これにより、算術に関連する情報がLMによってどのように処理されるかについての洞察が得られる。
論文 参考訳(メタデータ) (2023-05-24T11:43:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。