論文の概要: Do PhD-level LLMs Truly Grasp Elementary Addition? Probing Rule Learning vs. Memorization in Large Language Models
- arxiv url: http://arxiv.org/abs/2504.05262v1
- Date: Mon, 07 Apr 2025 16:57:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:12:26.257928
- Title: Do PhD-level LLMs Truly Grasp Elementary Addition? Probing Rule Learning vs. Memorization in Large Language Models
- Title(参考訳): PhDレベルのLLMは真にグレープされた初等付加物か? 大規模言語モデルにおけるルール学習と記憶の探索
- Authors: Yang Yan, Yu Lu, Renjun Xu, Zhenzhong Lan,
- Abstract要約: LLMは数学の原則を学ぶのか、単にパターンを記憶するだけなのか?
基本2整数加算 (0$ - $264$) を用いて、可換性 (A+B=B+A$) と合成一般化の2つのコア特性を探索する。
この結果から,現在のLLMは,真のルール学習よりもメモリパターンに依存し,アーキテクチャ上の制約を強調し,真の数学的推論を実現するための新しいアプローチの必要性が示唆された。
- 参考スコア(独自算出の注目度): 16.22295307657665
- License:
- Abstract: Despite high benchmark scores, Large Language Models (LLMs) often fail simple problem, raising a critical question: Do LLMs learn mathematical principles or merely memorize patterns? Rather than designing increasingly complex benchmarks like recent works, we investigate this using elementary two-integer addition ($0$ to $2^{64}$), probing two core properties: commutativity ($A+B=B+A$) and compositional generalization (via isomorphic symbolic mappings, e.g., $7 \rightarrow y$). While state-of-the-art LLMs achieve 73.8-99.8\% accuracy on numerical addition, performance collapses to $\leq$7.5\% under symbolic mapping, indicating failure to generalize learned rules. Non-monotonic performance scaling with digit count and frequent commutativity violations (over 1,700 cases of $A+B \neq B+A$) further support this. Explicitly providing addition rules degrades performance by 81.2\% on average, while self-explanation maintains baseline accuracy, suggesting LLM arithmetic processing is misaligned with human-defined principles. Our findings indicate current LLMs rely on memory pattern over genuine rule learning, highlighting architectural limitations and the need for new approaches to achieve true mathematical reasoning.
- Abstract(参考訳): 高いベンチマークスコアにもかかわらず、LLM(Large Language Models)はしばしば単純な問題に失敗し、批判的な疑問を提起する。
最近の研究のようなより複雑なベンチマークを設計する代わりに、基本的な2-整数の加算 (0$ to $2^{64}$) を用いて、可換性 (A+B=B+A$) と合成一般化 (同型シンボリック写像、eg , 7, \rightarrow y$) という2つのコア特性を探索する。
最先端のLCMは数値加算で73.8-99.8\%の精度を達成するが、シンボルマッピングでは$\leq$7.5\%に低下し、学習規則を一般化できないことを示す。
桁数と頻繁な可換性違反($A+B \neq B+A$の1,700以上のケース)を持つ非単調なパフォーマンススケーリングは、さらにこれをサポートしている。
追加ルールの明示的な提供はパフォーマンスを平均81.2\%低下させ、自己説明はベースラインの精度を維持する。
この結果から,現在のLLMは,真のルール学習よりもメモリパターンに依存し,アーキテクチャ上の制約を強調し,真の数学的推論を実現するための新しいアプローチの必要性が示唆された。
関連論文リスト
- BoostStep: Boosting mathematical capability of Large Language Models via improved single-step reasoning [83.03531832811386]
BoostStep はステップ整列 ICL の例を通して推論精度を向上させる方法である。
チェーン・オブ・シークレット(CoT)とツリー検索アルゴリズムをシームレスに統合する。
AIMEにおけるDeepSeek-R1-671Bのパフォーマンスを2.2%改善し、MATHデータセットからの単純な例のみを活用する。
論文 参考訳(メタデータ) (2025-01-06T18:59:13Z) - IGC: Integrating a Gated Calculator into an LLM to Solve Arithmetic Tasks Reliably and Efficiently [17.525220958618988]
Integrated Gated Calculator (IGC)は,GPU上で計算器をエミュレートすることで,大規模言語モデルが演算を行うことを可能にするモジュールである。
モジュールでLlamaモデルを微調整し、BigBench Arithmeticベンチマークでテストします。
当社のアプローチでは,実行に1回のイテレーションしか必要とせず,外部ツールも必要ありません。
論文 参考訳(メタデータ) (2025-01-01T00:01:27Z) - Language Models are Symbolic Learners in Arithmetic [8.34588487873447]
大規模言語モデル(LLM)は、言語モデリングと数値計算の間に固有の違いがあるため、算術学習に苦慮していると考えられている。
まず,算術学習において LLM が部分積を利用するかどうかを検討する。
LLMは学習後にいくつかの部分積を識別できるが、算術的なタスクには利用できない。
論文 参考訳(メタデータ) (2024-10-21T01:57:16Z) - MathHay: An Automated Benchmark for Long-Context Mathematical Reasoning in LLMs [61.74749961334557]
MathHayは、LLMの長文数学的推論能力を評価するために設計された自動ベンチマークである。
我々は,8つのトップパフォーマンスモデルの長文数学的推論能力を評価するために,MathHayの広範な実験を行った。
論文 参考訳(メタデータ) (2024-10-07T02:30:07Z) - Symbolic Working Memory Enhances Language Models for Complex Rule Application [87.34281749422756]
大規模言語モデル(LLM)は、顕著な推論性能を示しているが、多段階の推論に苦慮している。
本稿では,外部ワーキングメモリを用いたLLMの拡張と,ルール適用のためのニューロシンボリックフレームワークを提案する。
当社のフレームワークは,LLMベースのルール実装とシンボリックルールグラウンディングを反復的に実施する。
論文 参考訳(メタデータ) (2024-08-24T19:11:54Z) - GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。
1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。
このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文 参考訳(メタデータ) (2024-02-29T15:26:14Z) - SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。
我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。
我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-05-16T17:55:51Z) - MathPrompter: Mathematical Reasoning using Large Language Models [7.953723258038284]
大規模言語モデル (LLM) は算術的推論タスクを解く際の性能に制限がある。
MathPrompterはZero-shot-of- Thoughtプロンプト技術を使って複数の代数式やPython関数を生成し、異なる方法で同じ数学問題を解く。
論文 参考訳(メタデータ) (2023-03-04T04:43:49Z) - PAL: Program-aided Language Models [112.94785609781503]
自然言語問題を理解するために,プログラム支援言語モデル(PaL)を提案する。
PaLはソリューションステップをPythonインタプリタのようなプログラムランタイムにオフロードする。
私たちは12のベンチマークで新しい最先端の結果を設定しました。
論文 参考訳(メタデータ) (2022-11-18T18:56:13Z) - Large Language Models are Zero-Shot Reasoners [28.6899375595088]
思考の連鎖(CoT)プロンプトは、ステップバイステップの回答例を通して複雑な多段階推論を引き出す手法である。
LLMは、各回答の前に単に「ステップバイステップ」を追加して、まともなゼロショット推論子であることを示す。
実験結果から,同一のプロンプトテンプレートを用いたZero-shot-CoTはゼロショットLLM性能を著しく上回ることがわかった。
論文 参考訳(メタデータ) (2022-05-24T09:22:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。