論文の概要: From Abstract to Contextual: What LLMs Still Cannot Do in Mathematics
- arxiv url: http://arxiv.org/abs/2601.23048v1
- Date: Fri, 30 Jan 2026 14:56:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.513382
- Title: From Abstract to Contextual: What LLMs Still Cannot Do in Mathematics
- Title(参考訳): 抽象から文脈へ:LLMはまだ数学ではできないこと
- Authors: Bowen Cao, Dongdong Zhang, Yixia Li, Junpeng Liu, Shijue Huang, Chufan Shi, Hongyuan Lu, Yaokang Wu, Guanhua Chen, Wai Lam, Furu Wei,
- Abstract要約: 我々は文脈的数学的推論を通してギャップを研究する。
AIMEとMATH-500の問題を2つのコンテキスト設定に再利用するベンチマークであるContextMATHを紹介する。
オープンソースモデルはSGとCSで13、34ポイント減少し、プロプライエタリモデルは13、20ポイント減少している。
- 参考スコア(独自算出の注目度): 79.81905350372067
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models now solve many benchmark math problems at near-expert levels, yet this progress has not fully translated into reliable performance in real-world applications. We study this gap through contextual mathematical reasoning, where the mathematical core must be formulated from descriptive scenarios. We introduce ContextMATH, a benchmark that repurposes AIME and MATH-500 problems into two contextual settings: Scenario Grounding (SG), which embeds abstract problems into realistic narratives without increasing reasoning complexity, and Complexity Scaling (CS), which transforms explicit conditions into sub-problems to capture how constraints often appear in practice. Evaluating 61 proprietary and open-source models, we observe sharp drops: on average, open-source models decline by 13 and 34 points on SG and CS, while proprietary models drop by 13 and 20. Error analysis shows that errors are dominated by incorrect problem formulation, with formulation accuracy declining as original problem difficulty increases. Correct formulation emerges as a prerequisite for success, and its sufficiency improves with model scale, indicating that larger models advance in both understanding and reasoning. Nevertheless, formulation and reasoning remain two complementary bottlenecks that limit contextual mathematical problem solving. Finally, we find that fine-tuning with scenario data improves performance, whereas formulation-only training is ineffective. However, performance gaps are only partially alleviated, highlighting contextual mathematical reasoning as a central unsolved challenge for LLMs.
- Abstract(参考訳): 大規模言語モデルは、ほぼ専門レベルで多くのベンチマーク数学問題を解き明かすが、この進歩は実世界のアプリケーションにおける信頼性の高い性能に完全には変換されていない。
我々は、このギャップを文脈的数学的推論を通して研究し、そこでは、数学的コアを記述的シナリオから定式化しなければならない。
シナリオグラウンディング(SG)は、抽象的な問題を推論の複雑さを増大させることなく現実的な物語に埋め込むもので、複雑性スケーリング(CS)は、明示的な条件をサブプロブレムに変換して、実際にどのように制約が現れるかをキャプチャする。
オープンソースモデルの平均は、SGとCSで13ポイント、34ポイント減少し、プロプライエタリモデルでは13ポイント、20ポイント減少しています。
誤り解析は、誤りは不正な問題定式化によって支配され、元の問題の難易度が増加するにつれて定式化の精度が低下することを示している。
正しい定式化は成功の前提条件として現れ、その十分さはモデルスケールによって改善され、より大きなモデルが理解と推論の両方で前進することを示す。
それでも、定式化と推論は、文脈数学的な問題解決を制限する2つの相補的なボトルネックのままである。
最後に、シナリオデータによる微調整により性能が向上するのに対し、定式化のみのトレーニングは非効率であることが判明した。
しかし、性能ギャップは部分的に緩和され、LLMの未解決の中心的な課題として文脈数学的推論が強調される。
関連論文リスト
- Climbing the Ladder of Reasoning: What LLMs Can-and Still Can't-Solve after SFT? [59.418994222096885]
AIME24データセット上でモデル性能の詳細な解析を行う。
我々は質問を4段階(易、中、硬、極度硬)に分類する。
我々は,SFT-1Kインスタンスが最小限であるR1推論スタイルを採用する必要があることを見出した。
エクレベルの質問は、根本的に異なる課題を示します。
論文 参考訳(メタデータ) (2025-04-16T03:39:38Z) - Challenging the Boundaries of Reasoning: An Olympiad-Level Math Benchmark for Large Language Models [86.45058529521258]
OlymMATHは、LLMの複雑な推論能力を厳格にテストするために設計された、Olympiadレベルの新しい数学ベンチマークである。
OlymMATHは200の厳密にキュレートされた問題があり、それぞれが手動で検証され、英語と中国語の並行バージョンで利用可能である。
論文 参考訳(メタデータ) (2025-03-27T11:20:17Z) - Performance Comparison of Large Language Models on Advanced Calculus Problems [0.0]
この研究は、ChatGPT 4o、1.5 Proを使ったGemini Advanced、Copilot Pro、Claude 3.5 Sonnet、Meta AI、Mistral AI、Perplexityなど、モデルの正確性、信頼性、問題解決能力を評価することを目的としている。
結果は、モデルのパフォーマンスにおける重要なトレンドとパターンを強調し、その長所と短所の両方を明らかにします。
論文 参考訳(メタデータ) (2025-03-05T23:26:12Z) - Large Language Models and Mathematical Reasoning Failures [1.6114012813668932]
本稿では,50の高校レベルの単語問題を用いた大規模言語モデル(LLM)の数学的推論能力について検討する。
最終回答と解決手順の両方を厳格に分析して、推論の失敗を特定します。
より新しいモデル(例えば、o3-mini、deepseek-r1)はより精度が高いが、全てのモデルは空間的推論、戦略的計画、算術における誤りを示す。
論文 参考訳(メタデータ) (2025-02-17T09:07:32Z) - MATH-Perturb: Benchmarking LLMs' Math Reasoning Abilities against Hard Perturbations [90.07275414500154]
各種モデルにおけるMATH-P-Hardの性能低下を観察する。
また、学習した問題解決スキルを盲目的に適用する新しい形態の記憶に関する懸念も提起する。
論文 参考訳(メタデータ) (2025-02-10T13:31:46Z) - HARDMath: A Benchmark Dataset for Challenging Problems in Applied Mathematics [1.5716764919736026]
本稿では,解析的近似技術を必要とする応用数学問題に挑戦するデータセットであるHARDMathを紹介する。
本フレームワークは,数値基底真理に対して検証された解を用いて,多数の問題を自動生成する。
HARDMath-miniは,366問題からなるサブサンプルテストセットであり,応用科学の文脈で定式化された40の単語問題に対して,オープンソースLLMとクローズドソースLLMの両方を評価する。
論文 参考訳(メタデータ) (2024-10-13T20:09:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。