論文の概要: Can LLMs $\textit{understand}$ Math? -- Exploring the Pitfalls in Mathematical Reasoning
- arxiv url: http://arxiv.org/abs/2505.15623v1
- Date: Wed, 21 May 2025 15:12:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.723427
- Title: Can LLMs $\textit{understand}$ Math? -- Exploring the Pitfalls in Mathematical Reasoning
- Title(参考訳): LLMs $\textit{understand}$ Math? -- 数学的推論における落とし穴を探る
- Authors: Tiasa Singha Roy, Aditeya Baral, Ayush Rajesh Jhaveri, Yusuf Baig,
- Abstract要約: 大規模言語モデル (LLM) は、様々な自然言語処理において大きな可能性を秘めているが、数学的推論において重大な課題に直面している。
そこで本研究では,誤り率,冗長性,妥当性を総合的に評価し,不一致の推論を均一に定量化するMAPLEスコア(Maple score)という評価指標を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) demonstrate considerable potential in various natural language tasks but face significant challenges in mathematical reasoning, particularly in executing precise, multi-step logic. However, current evaluation frameworks judge their performance solely based on accuracy, which only accounts for the final answer. This study explores these pitfalls by employing a novel evaluation framework. We propose an evaluation metric called the MAPLE score, which holistically quantifies reasoning misalignment by integrating error rates, redundancy, and validity.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な自然言語処理において大きな可能性を秘めているが、数学的推論、特に正確なマルチステップ論理の実行において大きな課題に直面している。
しかしながら、現在の評価フレームワークは、最終的な答えのみを考慮し、正確性のみに基づいてパフォーマンスを判断する。
本研究では,これらの落とし穴について,新しい評価枠組みを用いて検討する。
そこで本研究では,誤り率,冗長性,妥当性を総合的に評価し,不一致の推論を均一に定量化するMAPLEスコア(Maple score)という評価指標を提案する。
関連論文リスト
- Evaluating Intermediate Reasoning of Code-Assisted Large Language Models for Mathematics [15.695635219034328]
我々は,コード支援型LCM生成プログラムを,数理推論タスクに応答して詳細に解析する。
この結果から, モデルの性能が, 問題の解法として実装された論理に大きく影響していることが示唆された。
論文 参考訳(メタデータ) (2025-04-24T15:34:24Z) - Brains vs. Bytes: Evaluating LLM Proficiency in Olympiad Mathematics [2.489157527463306]
大規模言語モデル(LLM)は、数学的推論タスクにおいて顕著な進歩を示している。
大規模言語モデル(LLM)の最近の進歩は、数学的推論タスクの顕著な進歩を示している。
論文 参考訳(メタデータ) (2025-04-01T00:10:10Z) - Challenging the Boundaries of Reasoning: An Olympiad-Level Math Benchmark for Large Language Models [86.45058529521258]
OlymMATHは、LLMの複雑な推論能力を厳格にテストするために設計された、Olympiadレベルの新しい数学ベンチマークである。
OlymMATHは200の厳密にキュレートされた問題があり、それぞれが手動で検証され、英語と中国語の並行バージョンで利用可能である。
論文 参考訳(メタデータ) (2025-03-27T11:20:17Z) - Mathematical Reasoning in Large Language Models: Assessing Logical and Arithmetic Errors across Wide Numerical Ranges [0.0]
GSM-Rangesは、数学問題における数値を体系的に摂動させ、様々な数値スケールでモデルロバスト性を評価するデータセットジェネレータである。
また,論理的誤りと非論理的誤りを区別し,推論過程を計算精度以上の精度で評価する手法を提案する。
論文 参考訳(メタデータ) (2025-02-12T09:53:10Z) - JustLogic: A Comprehensive Benchmark for Evaluating Deductive Reasoning in Large Language Models [51.99046112135311]
LLM(Large Language Models)の厳密な評価のための合成推論ベンチマークであるJustLogicを紹介する。
JustLogicは非常に複雑で、多様な言語パターン、語彙、引数構造を生成することができる。
実験の結果, (i) LLMは人体平均値よりも同等かそれ以上に機能するが, 人体天井よりも著しく低下することがわかった。
論文 参考訳(メタデータ) (2025-01-24T15:49:10Z) - ErrorRadar: Benchmarking Complex Mathematical Reasoning of Multimodal Large Language Models Via Error Detection [60.297079601066784]
エラー検出におけるMLLMの能力を評価するために設計された最初のベンチマークであるErrorRadarを紹介する。
ErrorRadarはエラーステップ識別とエラー分類という2つのサブタスクを評価している。
2500の高品質なマルチモーダルK-12数学問題で構成され、実世界の学生相互作用から収集される。
GPT-4oの優れた性能は、まだ人間の評価に約10%遅れているため、大きな課題が残っている。
論文 参考訳(メタデータ) (2024-10-06T14:59:09Z) - Evaluating Mathematical Reasoning Beyond Accuracy [50.09931172314218]
推論ステップの品質を評価するための新しい方法論であるReasonEvalを紹介します。
ReasonEvalはメタ評価データセットのベースライン手法よりも一貫して優れていることを示す。
我々は、ReasonEvalがデータ選択において重要な役割を果たすことを観察する。
論文 参考訳(メタデータ) (2024-04-08T17:18:04Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Exploring the Reliability of Large Language Models as Customized Evaluators for Diverse NLP Tasks [65.69651759036535]
大規模言語モデル(LLM)が人間にとって信頼できる代替手段であるかどうかを解析する。
本稿では、従来のタスク(例えば、ストーリー生成)とアライメントタスク(例えば、数学推論)の両方について検討する。
LLM評価器は不要な基準を生成したり、重要な基準を省略することができる。
論文 参考訳(メタデータ) (2023-10-30T17:04:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。