Fugu-MT 論文翻訳(概要): Do Large Language Models Truly Grasp Addition? A Rule-Focused Diagnostic Using Two-Integer Arithmetic

論文の概要: Do Large Language Models Truly Grasp Addition? A Rule-Focused Diagnostic Using Two-Integer Arithmetic

arxiv url: http://arxiv.org/abs/2504.05262v3
Date: Wed, 17 Sep 2025 07:14:56 GMT
ステータス: 翻訳完了
システム内更新日: 2025-09-18 12:21:58.882298
Title: Do Large Language Models Truly Grasp Addition? A Rule-Focused Diagnostic Using Two-Integer Arithmetic
Title（参考訳）: 大規模言語モデルは真にグレープ付加されるか? 2整数算術を用いた規則的診断
Authors: Yang Yan, Yu Lu, Renjun Xu, Zhenzhong Lan,
Abstract要約: 大規模言語モデル(LLM)は高度な数学のベンチマークでは印象的な結果を得るが、基本的な算術的なタスクでは失敗することがある。基本演算規則を真に把握したのか、それとも単にパターンマッチングに依存しているのかを考察する。モデルでは高い数値精度を達成できるが、これらの診断は体系的に失敗する。
参考スコア（独自算出の注目度）: 21.014229380679975
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Large language models (LLMs) achieve impressive results on advanced mathematics benchmarks but sometimes fail on basic arithmetic tasks, raising the question of whether they have truly grasped fundamental arithmetic rules or are merely relying on pattern matching. To unravel this issue, we systematically probe LLMs' understanding of two-integer addition ($0$ to $2^{64}$) by testing three crucial properties: commutativity ($A+B=B+A$), representation invariance via symbolic remapping (e.g., $7 \mapsto Y$), and consistent accuracy scaling with operand length. Our evaluation of 12 leading LLMs reveals a stark disconnect: while models achieve high numeric accuracy (73.8-99.8%), they systematically fail these diagnostics. Specifically, accuracy plummets to $\le 7.5$% with symbolic inputs, commutativity is violated in up to 20% of cases, and accuracy scaling is non-monotonic. Interventions further expose this pattern-matching reliance: explicitly providing rules degrades performance by 29.49%, while prompting for explanations before answering merely maintains baseline accuracy. These findings demonstrate that current LLMs address elementary addition via pattern matching, not robust rule induction, motivating new diagnostic benchmarks and innovations in model architecture and training to cultivate genuine mathematical reasoning. Our dataset and generating code are available at https://github.com/kuri-leo/llm-arithmetic-diagnostic.
Abstract（参考訳）: 大規模言語モデル(LLM)は、高度な数学のベンチマークで印象的な結果を得るが、時に基本的な算術のタスクで失敗し、それらが真に基本的な算術規則を把握したのか、単にパターンマッチングに依存しているのかという疑問を提起する。この問題を解くために、LLM の2整数加法 (0$ to $2^{64}$) に対する理解を、可換性 (A+B=B+A$) 、記号的再マッピングによる表現不変性 (例: 7 \mapsto Y$) 、オペランド長による一貫した精度スケーリングの3つの重要な性質をテストすることによって、体系的に探索する。モデルでは高い数値精度 (73.8-99.8%) を達成できるが, これらの診断は体系的に失敗する。具体的には、精度はシンボリック入力で$\le 7.5$%に低下し、可換性は最大20%のケースで破られ、精度のスケーリングは非単調である。明示的にルールを提供することは、パフォーマンスを29.49%低下させ、回答する前に説明を求めることは、単にベースライン精度を維持するだけである。これらの結果から,現在のLLMはパターンマッチングによる初等的な追加に対処し,ロバストなルール誘導ではなく,新たな診断ベンチマークとモデルアーキテクチャの革新を動機付け,真の数学的推論を育むための訓練を行っていることが示唆された。データセットと生成コードはhttps://github.com/kuri-leo/llm-arithmetic-diagnostic.comで公開されています。

関連論文リスト

ASyMOB: Algebraic Symbolic Mathematical Operations Benchmark [0.0]
大規模言語モデル(LLM)は、大学レベルの記号数学において、急速に熟練度に近づいている。本稿では,記号操作に特化した新しい評価フレームワークであるASyMOBを紹介する。
論文参考訳（メタデータ） (2025-05-28T23:11:14Z)
Out-of-Context Relational Reasoning in Large Language Models [14.326344469446438]
新たに導入されたトークンの表現を学習するだけで,Large Language Models (LLM) が二項関係の文脈外推論をいかにうまく行うかを検討する。我々の実験は、平等(=$)、不平等($)、包含($subset$)およびそれらが満たす特性に焦点を当てている。 LLMは、ランダムな精度よりも優れているが、バイナリ関係を含む比較的単純な推論タスクであっても、まだ完璧ではない。
論文参考訳（メタデータ） (2025-03-13T14:32:30Z)
BoostStep: Boosting mathematical capability of Large Language Models via improved single-step reasoning [83.03531832811386]
BoostStep はステップ整列 ICL の例を通して推論精度を向上させる方法である。チェーン・オブ・シークレット(CoT)とツリー検索アルゴリズムをシームレスに統合する。 AIMEにおけるDeepSeek-R1-671Bのパフォーマンスを2.2%改善し、MATHデータセットからの単純な例のみを活用する。
論文参考訳（メタデータ） (2025-01-06T18:59:13Z)
IGC: Integrating a Gated Calculator into an LLM to Solve Arithmetic Tasks Reliably and Efficiently [17.525220958618988]
Integrated Gated Calculator (IGC)は,GPU上で計算器をエミュレートすることで,大規模言語モデルが演算を行うことを可能にするモジュールである。モジュールでLlamaモデルを微調整し、BigBench Arithmeticベンチマークでテストします。当社のアプローチでは,実行に1回のイテレーションしか必要とせず,外部ツールも必要ありません。
論文参考訳（メタデータ） (2025-01-01T00:01:27Z)
RuleArena: A Benchmark for Rule-Guided Reasoning with LLMs in Real-World Scenarios [58.90106984375913]
RuleArenaは、大規模言語モデル(LLM)が推論において複雑な現実世界のルールに従う能力を評価するために設計された、新しくて挑戦的なベンチマークである。航空会社の荷物手数料、NBA取引、税制の3つの実践的領域をカバーするルールアリーナは、複雑な自然言語命令を扱うのにLLMの習熟度を評価する。
論文参考訳（メタデータ） (2024-12-12T06:08:46Z)
Reasoning Robustness of LLMs to Adversarial Typographical Errors [49.99118660264703]
大規模言語モデル(LLM)は、Chain-of-Thought(CoT)プロンプトを使用した推論において、印象的な機能を示している。本研究では,LLMのタイポグラフィ的誤りに対するロバスト性について検討する。我々は,クエリに重要な単語の型を反復的にサンプリングし,攻撃に成功しそうな編集を選択する,Adversarial Typo Attack(texttATA$)アルゴリズムを設計する。
論文参考訳（メタデータ） (2024-11-08T05:54:05Z)
Language Models are Symbolic Learners in Arithmetic [8.34588487873447]
大規模言語モデル(LLM)は、言語モデリングと数値計算の間に固有の違いがあるため、算術学習に苦慮していると考えられている。まず,算術学習において LLM が部分積を利用するかどうかを検討する。 LLMは学習後にいくつかの部分積を識別できるが、算術的なタスクには利用できない。
論文参考訳（メタデータ） (2024-10-21T01:57:16Z)
MathHay: An Automated Benchmark for Long-Context Mathematical Reasoning in LLMs [61.74749961334557]
MathHayは、LLMの長文数学的推論能力を評価するために設計された自動ベンチマークである。我々は,8つのトップパフォーマンスモデルの長文数学的推論能力を評価するために,MathHayの広範な実験を行った。
論文参考訳（メタデータ） (2024-10-07T02:30:07Z)
Symbolic Working Memory Enhances Language Models for Complex Rule Application [87.34281749422756]
大規模言語モデル(LLM)は、顕著な推論性能を示しているが、多段階の推論に苦慮している。本稿では,外部ワーキングメモリを用いたLLMの拡張と,ルール適用のためのニューロシンボリックフレームワークを提案する。当社のフレームワークは,LLMベースのルール実装とシンボリックルールグラウンディングを反復的に実施する。
論文参考訳（メタデータ） (2024-08-24T19:11:54Z)
GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。 1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文参考訳（メタデータ） (2024-02-29T15:26:14Z)
SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文参考訳（メタデータ） (2023-05-16T17:55:51Z)
MathPrompter: Mathematical Reasoning using Large Language Models [7.953723258038284]
大規模言語モデル (LLM) は算術的推論タスクを解く際の性能に制限がある。 MathPrompterはZero-shot-of- Thoughtプロンプト技術を使って複数の代数式やPython関数を生成し、異なる方法で同じ数学問題を解く。
論文参考訳（メタデータ） (2023-03-04T04:43:49Z)
PAL: Program-aided Language Models [112.94785609781503]
自然言語問題を理解するために,プログラム支援言語モデル(PaL)を提案する。 PaLはソリューションステップをPythonインタプリタのようなプログラムランタイムにオフロードする。私たちは12のベンチマークで新しい最先端の結果を設定しました。
論文参考訳（メタデータ） (2022-11-18T18:56:13Z)
Large Language Models are Zero-Shot Reasoners [28.6899375595088]
思考の連鎖(CoT)プロンプトは、ステップバイステップの回答例を通して複雑な多段階推論を引き出す手法である。 LLMは、各回答の前に単に「ステップバイステップ」を追加して、まともなゼロショット推論子であることを示す。実験結果から,同一のプロンプトテンプレートを用いたZero-shot-CoTはゼロショットLLM性能を著しく上回ることがわかった。
論文参考訳（メタデータ） (2022-05-24T09:22:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。