論文の概要: A Fragile Number Sense: Probing the Elemental Limits of Numerical Reasoning in LLMs
- arxiv url: http://arxiv.org/abs/2509.06332v1
- Date: Mon, 08 Sep 2025 04:31:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.973547
- Title: A Fragile Number Sense: Probing the Elemental Limits of Numerical Reasoning in LLMs
- Title(参考訳): フレジブルナンバーセンス:LLMにおける数値推論の要素限界を求める
- Authors: Roussel Rahman, Aashwin Ananda Mishra,
- Abstract要約: 大規模言語モデル(LLM)は目覚ましい創発的な能力を示しているが、その数値的推論の頑健さは未解決の問題である。
我々は,(1)基本演算,(2)高度な演算,(3)予備性チェック,(4)ゲーム・オブ・24数パズルの4つのカテゴリからなる100の課題に対して,最先端のLLMエージェントを試験する。
その結果, 決定論的アルゴリズムの実行を必要とする第1のカテゴリにおいて, エージェントは高い精度を達成できたが, 数値パズルでは一貫して失敗していた。
- 参考スコア(独自算出の注目度): 1.0923877073891444
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have demonstrated remarkable emergent capabilities, yet the robustness of their numerical reasoning remains an open question. While standard benchmarks evaluate LLM reasoning on complex problem sets using aggregated metrics, they often obscure foundational weaknesses. In this work, we probe LLM mathematical numeracy by evaluating performance on problems of escalating complexity, from constituent operations to combinatorial puzzles. We test several state-of-the-art LLM-based agents on a 100-problem challenge comprising four categories: (1) basic arithmetic, (2) advanced operations, (3) primality checking, and (4) the Game of 24 number puzzle. Our results show that while the agents achieved high accuracy on the first three categories, which require deterministic algorithmic execution, they consistently failed at the number puzzle, underlining its demand for a heuristic search over a large combinatorial space to be a significant bottleneck. These findings reveal that the agents' proficiency is largely confined to recalling and executing known algorithms, rather than performing generative problem-solving. This suggests their apparent numerical reasoning is more akin to sophisticated pattern-matching than flexible, analytical thought, limiting their potential for tasks that require novel or creative numerical insights.
- Abstract(参考訳): 大規模言語モデル(LLM)は目覚ましい創発的な能力を示しているが、その数値的推論の頑健さは未解決の問題である。
標準ベンチマークでは、集約されたメトリクスを使用して複雑な問題集合に対するLCM推論を評価するが、基礎的な弱点は明らかでないことが多い。
本研究では,構成演算から組合せパズルまで,複雑性のエスカレーション問題の性能を評価することで,LLMの数学的数性について検討する。
我々は,(1)基本演算,(2)高度な演算,(3)予備性チェック,(4)ゲーム・オブ・24数パズルの4つのカテゴリからなる100の課題に対して,最先端のLLMエージェントを試験する。
その結果, 決定論的アルゴリズムの実行を必要とする最初の3つのカテゴリにおいて, エージェントは高い精度を達成できたが, 数値パズルでは一貫して失敗し, 大規模な組合せ空間に対するヒューリスティック探索の需要が大きなボトルネックとなることを示した。
これらの結果から、エージェントの能力は、生成的問題解決を行うよりも、既知のアルゴリズムのリコールと実行に限られていることが明らかとなった。
これは、その明らかな数値的推論が、フレキシブルで分析的な思考よりも高度なパターンマッチングに似ており、新しいまたは創造的な数値的洞察を必要とするタスクに対する可能性を制限することを示唆している。
関連論文リスト
- Frontier LLMs Still Struggle with Simple Reasoning Tasks [53.497499123166804]
この研究は、フロンティア言語モデルの性能を、幅広い「容易」推論問題に対して研究する。
計算,一階述語論理,証明木,旅行計画など,手続き的に生成された単純な推論タスクのスイートを作成します。
最先端の思考モデルでさえ、このような問題や同様の理由で一貫して失敗することを示します。
論文 参考訳(メタデータ) (2025-07-09T22:22:49Z) - OMEGA: Can LLMs Reason Outside the Box in Math? Evaluating Exploratory, Compositional, and Transformative Generalization [88.76091817642963]
最近の大規模言語モデル (LLMs) は、DeepSeek-R1-のような長い鎖の推論を持ち、オリンピアード級数学において印象的な成果を上げている。
本稿では,3つの分布外一般化の軸を評価するために設計された3つの一般化 Axes-a ベンチマークを用いた OMEGA-Out-of-distriion Math Problems Evaluation を提案する。
論文 参考訳(メタデータ) (2025-06-23T17:51:40Z) - Large Language Models in Numberland: A Quick Test of Their Numerical Reasoning Abilities [0.0]
ナンバーランド(Numberland)は、LSMをベースとしたエージェントの数値推論能力を評価するための100プロブレム試験である。
OpenAIのo1とo1-mini, Google Gemini, Microsoft Copilot, Anthropic Claudeの5つのLDMエージェントを評価した。
私たちは25の難しい問題に対してトップ24ソルバ(o1と73%の精度)をテストし、そのスコアは27%に低下し、ボトルネックとして検索を確認しました。
論文 参考訳(メタデータ) (2025-03-31T21:06:39Z) - Challenging the Boundaries of Reasoning: An Olympiad-Level Math Benchmark for Large Language Models [86.45058529521258]
OlymMATHは、LLMの複雑な推論能力を厳格にテストするために設計された、Olympiadレベルの新しい数学ベンチマークである。
OlymMATHは200の厳密にキュレートされた問題があり、それぞれが手動で検証され、英語と中国語の並行バージョンで利用可能である。
論文 参考訳(メタデータ) (2025-03-27T11:20:17Z) - Solving for X and Beyond: Can Large Language Models Solve Complex Math Problems with More-Than-Two Unknowns? [57.80779199039929]
大規模言語モデル (LLM) は数学問題の解法において顕著な性能を示した。
本稿では,複数の未知の問題を組み込むことで,これらの制約に対処する新しいベンチマークであるBeyondXを紹介する。
BeyondXに関する実証的な研究によると、数学のタスクに特化して調整された既存のLLMの性能は、未知の数が増えるにつれて著しく低下する。
論文 参考訳(メタデータ) (2024-07-06T17:01:04Z) - Investigating Symbolic Capabilities of Large Language Models [16.88906206735967]
本研究の目的は,一連の記号的タスクにおいて,LLM(Large Language Models)を厳格に評価することにより,ギャップを埋めることである。
我々の分析では、エンタープライズグレードの4つのモデルとオープンソースの4つのモデルを含む8つのLCMを含み、そのうち3つは数学的なタスクで事前訓練されている。
その結果,記号数で表される複雑性が増大するにつれて,LLMの文脈自由かつ文脈依存的な記号処理における性能が著しく低下することが明らかとなった。
論文 参考訳(メタデータ) (2024-05-21T21:24:34Z) - Large Language Models Struggle with Unreasonability in Math Problems [41.970853209666224]
大規模言語モデル(LLM)は、幅広い数学と推論のベンチマークで顕著な成功を収めている。
我々は、不合理な数学問題に直面した時にしばしば苦労するのを観察する。
我々は,不合理な数学問題文を検出し,応答するLLMの能力を評価するために,textbfUnreasonable Math Problems (UMP)ベンチマークを提案する。
論文 参考訳(メタデータ) (2024-03-28T12:04:28Z) - FCoReBench: Can Large Language Models Solve Challenging First-Order Combinatorial Reasoning Problems? [25.352721856952655]
一階推論問題は、様々なサイズの無限個の問題インスタンスでインスタンス化することができる。
課題40のデータセットであるFCoReBenchと,さまざまなサイズの問題インスタンスを生成し,そのソリューションを自動検証して生成するスクリプトを提案する。
本稿では,LLMとシンボルソルバとプログラムインタプリタを組み合わせたSymPro-LMを提案する。
論文 参考訳(メタデータ) (2024-02-04T20:56:09Z) - Evaluating LLMs' Mathematical and Coding Competency through Ontology-guided Interventions [47.83142414018448]
算術的推論とコード生成という,2つの一般的な推論タスクに注目します。
i) 数学やコーディング問題に対する摂動の一般的なオントロジー, (ii) 摂動を応用するための半自動手法, (iii) 2つのデータセットを紹介する。
混乱した質問に対して、すべてのモデルで大幅なパフォーマンス低下を示します。
論文 参考訳(メタデータ) (2024-01-17T18:13:07Z) - Faith and Fate: Limits of Transformers on Compositionality [109.79516190693415]
3つの代表的構成課題にまたがる変圧器大言語モデルの限界について検討する。
これらのタスクは、問題をサブステップに分割し、これらのステップを正確な答えに合成する必要があります。
実験結果から,多段階合成推論を線形化部分グラフマッチングに還元することにより,トランスフォーマーLLMが構成課題を解くことが示唆された。
論文 参考訳(メタデータ) (2023-05-29T23:24:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。