論文の概要: Mathematical Reasoning in Large Language Models: Assessing Logical and Arithmetic Errors across Wide Numerical Ranges
- arxiv url: http://arxiv.org/abs/2502.08680v1
- Date: Wed, 12 Feb 2025 09:53:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-14 13:50:57.195753
- Title: Mathematical Reasoning in Large Language Models: Assessing Logical and Arithmetic Errors across Wide Numerical Ranges
- Title(参考訳): 大規模言語モデルにおける数学的推論:広い数値範囲における論理的および算術的誤差の評価
- Authors: Safal Shrestha, Minwu Kim, Keith Ross,
- Abstract要約: GSM-Rangesは、数学問題における数値を体系的に摂動させ、様々な数値スケールでモデルロバスト性を評価するデータセットジェネレータである。
また,論理的誤りと非論理的誤りを区別し,推論過程を計算精度以上の精度で評価する手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Mathematical reasoning in Large Language Models (LLMs) is often evaluated using benchmarks with limited numerical ranges, failing to reflect real-world problem-solving across diverse scales. Furthermore, most existing evaluation methods only compare model outputs to ground-truth answers, obscuring insights into reasoning processes. To address these limitations, we introduce GSM-Ranges, a dataset generator derived from GSM8K that systematically perturbs numerical values in math problems to assess model robustness across varying numerical scales. Additionally, we propose a novel grading methodology that distinguishes between logical and non-logical errors, offering a more precise evaluation of reasoning processes beyond computational accuracy. Our experiments with various models reveal a significant increase in logical error rates-up to 14 percentage points-as numerical complexity rises, demonstrating a general weakness in reasoning with out-of-distribution numerical values. Moreover, while models demonstrate high accuracy on standalone arithmetic tasks, their performance deteriorates substantially when computations are embedded within word problems. These findings provide a comprehensive evaluation of LLMs' mathematical reasoning capabilities and inform future research directions for improving numerical generalization in language models.
- Abstract(参考訳): LLM(Large Language Models)の数学的推論は、限られた数値範囲のベンチマークを用いてしばしば評価される。
さらに、既存の評価手法の多くは、モデル出力と地味な答えのみを比較し、推論プロセスに対する洞察を隠蔽する。
これらの制約に対処するために,GSM8Kから派生したデータセット生成器であるGSM-Rangesを導入する。
さらに,論理的誤りと非論理的誤りを区別し,推論過程を計算精度以上の精度で評価する手法を提案する。
種々のモデルを用いた実験では, 数値複雑性が増大するにつれて, 論理誤差率が14ポイントまで大きく向上し, 分布外数値の推理において, 一般的な弱点が示される。
さらに,モデルが単独の算術的タスクに対して高い精度を示す一方で,単語問題に計算が組み込まれている場合,その性能は著しく低下する。
これらの結果は,LLMの数学的推論能力を総合的に評価し,言語モデルにおける数値一般化を改善するための今後の研究の方向性を示唆するものである。
関連論文リスト
- Integrating Arithmetic Learning Improves Mathematical Reasoning in Smaller Models [0.0]
高品質なデータに事前訓練された大規模なモデルは、様々な推論タスクにおいて優れたパフォーマンスを示す。
より小さな学生モデルは教師モデルから学び、質問を言い換えるなどのデータ拡張を行う。
これらの努力にもかかわらず、より小さなモデルは算術計算に苦慮し、数学的推論の誤りにつながる。
論文 参考訳(メタデータ) (2025-02-18T13:43:06Z) - The Validation Gap: A Mechanistic Analysis of How Language Models Compute Arithmetic but Fail to Validate It [23.803612556616685]
大規模言語モデル(LLM)における誤り検出の力学解析について述べる。
回路解析により,4つの小さいLLMの演算誤差を検出する計算部分グラフを同定する。
この結果から,算術的解法における数値値の表面レベルのアライメントを評価するために,すべてのモデルが$textitConsistency Head$-attention Headに大きく依存していることが判明した。
論文 参考訳(メタデータ) (2025-02-17T13:00:44Z) - Large Language Models and Mathematical Reasoning Failures [1.6114012813668932]
本稿では,50の高校レベルの単語問題を用いた大規模言語モデル(LLM)の数学的推論能力について検討する。
最終回答と解決手順の両方を厳格に分析して、推論の失敗を特定します。
より新しいモデル(例えば、o3-mini、deepseek-r1)はより精度が高いが、全てのモデルは空間的推論、戦略的計画、算術における誤りを示す。
論文 参考訳(メタデータ) (2025-02-17T09:07:32Z) - Exposing Numeracy Gaps: A Benchmark to Evaluate Fundamental Numerical Abilities in Large Language Models [19.47343987998194]
大規模言語モデル(LLM)は、自然言語処理タスクにおける印象的な機能を示している。
基本算術、数値、等級数比較などの数値推論タスクにおけるそれらの性能は、驚くほど貧弱なままである。
既存のベンチマークは主に言語能力や構造化された数学的問題解決に焦点を当てている。
論文 参考訳(メタデータ) (2025-02-16T10:48:28Z) - Examining False Positives under Inference Scaling for Mathematical Reasoning [59.19191774050967]
本稿では,言語モデルにおける数学的問題解決における偽陽性解の有効性を体系的に検討する。
擬陽性が言語モデルの推論時間スケーリング行動にどのように影響するかを考察する。
論文 参考訳(メタデータ) (2025-02-10T07:49:35Z) - Error Classification of Large Language Models on Math Word Problems: A Dynamically Adaptive Framework [64.83955753606443]
数学の単語問題は、大規模言語モデルの推論能力を評価するための重要なベンチマークとなる。
現在のエラー分類法は静的および事前定義されたカテゴリに依存している。
MWPES-300Kは,304,865個のエラーサンプルを含む包括的データセットである。
論文 参考訳(メタデータ) (2025-01-26T16:17:57Z) - JustLogic: A Comprehensive Benchmark for Evaluating Deductive Reasoning in Large Language Models [51.99046112135311]
我々は、大言語モデルの厳密な評価のための合成推論ベンチマークであるJustLogicを紹介する。
JustLogicは非常に複雑で、多様な言語パターン、語彙、引数構造を生成することができる。
実験の結果,ほとんどのSOTA (State-of-the-art (SOTA) LLMは人体平均よりも著しく低下していることがわかった。
論文 参考訳(メタデータ) (2025-01-24T15:49:10Z) - How Numerical Precision Affects Mathematical Reasoning Capabilities of LLMs [69.55103380185612]
本稿では,変圧器を用いた大規模言語モデルの数学的タスクにおける有効性に影響を与える重要な要因として,数値的精度を同定する。
その結果,数値精度の低いトランスフォーマーでは,繰り返し加算や整数乗算などの算術的なタスクに対処できないことがわかった。
対照的に、標準的な数値精度のトランスフォーマーは、モデルサイズを大幅に小さくすることで、これらのタスクを効率的に処理することができる。
論文 参考訳(メタデータ) (2024-10-17T17:59:35Z) - ErrorRadar: Benchmarking Complex Mathematical Reasoning of Multimodal Large Language Models Via Error Detection [60.297079601066784]
エラー検出におけるMLLMの能力を評価するために設計された最初のベンチマークであるErrorRadarを紹介する。
ErrorRadarはエラーステップ識別とエラー分類という2つのサブタスクを評価している。
2500の高品質なマルチモーダルK-12数学問題で構成され、実世界の学生相互作用から収集される。
GPT-4oの優れた性能は、まだ人間の評価に約10%遅れているため、大きな課題が残っている。
論文 参考訳(メタデータ) (2024-10-06T14:59:09Z) - Evaluating Mathematical Reasoning Beyond Accuracy [50.09931172314218]
推論ステップの品質を評価するための新しい方法論であるReasonEvalを紹介します。
ReasonEvalはメタ評価データセットのベースライン手法よりも一貫して優れていることを示す。
我々は、ReasonEvalがデータ選択において重要な役割を果たすことを観察する。
論文 参考訳(メタデータ) (2024-04-08T17:18:04Z) - FERMAT: An Alternative to Accuracy for Numerical Reasoning [11.893004722079557]
数値推論は、既存のデータセットの単一スコアを用いて測定される。
我々は、FERMATと呼ばれる、英語の数値推論のための多視点評価セットを導入する。
FerMATは、数理解、数学的操作、訓練依存など、様々な重要な数値推論の側面でモデルを評価する。
論文 参考訳(メタデータ) (2023-05-27T15:00:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。