論文の概要: Can LLMs $\textit{understand}$ Math? -- Exploring the Pitfalls in Mathematical Reasoning
- arxiv url: http://arxiv.org/abs/2505.15623v1
- Date: Wed, 21 May 2025 15:12:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.723427
- Title: Can LLMs $\textit{understand}$ Math? -- Exploring the Pitfalls in Mathematical Reasoning
- Title(参考訳): LLMs $\textit{understand}$ Math? -- 数学的推論における落とし穴を探る
- Authors: Tiasa Singha Roy, Aditeya Baral, Ayush Rajesh Jhaveri, Yusuf Baig,
- Abstract要約: 大規模言語モデル (LLM) は、様々な自然言語処理において大きな可能性を秘めているが、数学的推論において重大な課題に直面している。
そこで本研究では,誤り率,冗長性,妥当性を総合的に評価し,不一致の推論を均一に定量化するMAPLEスコア(Maple score)という評価指標を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) demonstrate considerable potential in various natural language tasks but face significant challenges in mathematical reasoning, particularly in executing precise, multi-step logic. However, current evaluation frameworks judge their performance solely based on accuracy, which only accounts for the final answer. This study explores these pitfalls by employing a novel evaluation framework. We propose an evaluation metric called the MAPLE score, which holistically quantifies reasoning misalignment by integrating error rates, redundancy, and validity.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な自然言語処理において大きな可能性を秘めているが、数学的推論、特に正確なマルチステップ論理の実行において大きな課題に直面している。
しかしながら、現在の評価フレームワークは、最終的な答えのみを考慮し、正確性のみに基づいてパフォーマンスを判断する。
本研究では,これらの落とし穴について,新しい評価枠組みを用いて検討する。
そこで本研究では,誤り率,冗長性,妥当性を総合的に評価し,不一致の推論を均一に定量化するMAPLEスコア(Maple score)という評価指標を提案する。
関連論文リスト
- Brains vs. Bytes: Evaluating LLM Proficiency in Olympiad Mathematics [2.489157527463306]
大規模言語モデル(LLM)は、数学的推論タスクにおいて顕著な進歩を示している。
大規模言語モデル(LLM)の最近の進歩は、数学的推論タスクの顕著な進歩を示している。
論文 参考訳(メタデータ) (2025-04-01T00:10:10Z) - Challenging the Boundaries of Reasoning: An Olympiad-Level Math Benchmark for Large Language Models [86.45058529521258]
OlymMATHは、LLMの複雑な推論能力を厳格にテストするために設計された、Olympiadレベルの新しい数学ベンチマークである。
OlymMATHは200の厳密にキュレートされた問題があり、それぞれが手動で検証され、英語と中国語の並行バージョンで利用可能である。
論文 参考訳(メタデータ) (2025-03-27T11:20:17Z) - Mathematical Reasoning in Large Language Models: Assessing Logical and Arithmetic Errors across Wide Numerical Ranges [0.0]
GSM-Rangesは、数学問題における数値を体系的に摂動させ、様々な数値スケールでモデルロバスト性を評価するデータセットジェネレータである。
また,論理的誤りと非論理的誤りを区別し,推論過程を計算精度以上の精度で評価する手法を提案する。
論文 参考訳(メタデータ) (2025-02-12T09:53:10Z) - Evaluating Mathematical Reasoning Beyond Accuracy [50.09931172314218]
推論ステップの品質を評価するための新しい方法論であるReasonEvalを紹介します。
ReasonEvalはメタ評価データセットのベースライン手法よりも一貫して優れていることを示す。
我々は、ReasonEvalがデータ選択において重要な役割を果たすことを観察する。
論文 参考訳(メタデータ) (2024-04-08T17:18:04Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。