論文の概要: Solving Math Word Problems Using Estimation Verification and Equation Generation
- arxiv url: http://arxiv.org/abs/2509.18565v1
- Date: Tue, 23 Sep 2025 02:41:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.660086
- Title: Solving Math Word Problems Using Estimation Verification and Equation Generation
- Title(参考訳): 推定検証と方程式生成を用いた数学単語問題の解法
- Authors: Mitchell Piehl, Dillon Wilson, Ananya Kalita, Jugal Kalita,
- Abstract要約: 大きな言語モデル(LLM)は、問題解決や質問応答など、様々なタスクに優れています。
近年の取り組みは、LLMがより複雑な数学語問題を、改良されたプロンプトで解くのに役立っている。
本研究では,まず LLM に質問の分解から方程式を生成させ,次いで外部記号方程式解法を用いて解を求める手法を提案する。
- 参考スコア(独自算出の注目度): 10.770851135821657
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) excel at various tasks, including problem-solving and question-answering. However, LLMs often find Math Word Problems (MWPs) challenging because solving them requires a range of reasoning and mathematical abilities with which LLMs seem to struggle. Recent efforts have helped LLMs solve more complex MWPs with improved prompts. This study proposes a novel method that initially prompts an LLM to create equations from a decomposition of the question, followed by using an external symbolic equation solver to produce an answer. To ensure the accuracy of the obtained answer, inspired by an established recommendation of math teachers, the LLM is instructed to solve the MWP a second time, but this time with the objective of estimating the correct answer instead of solving it exactly. The estimation is then compared to the generated answer to verify. If verification fails, an iterative rectification process is employed to ensure the correct answer is eventually found. This approach achieves new state-of-the-art results on datasets used by prior published research on numeric and algebraic MWPs, improving the previous best results by nearly two percent on average. In addition, the approach obtains satisfactory results on trigonometric MWPs, a task not previously attempted to the authors' best knowledge. This study also introduces two new datasets, SVAMPClean and Trig300, to further advance the testing of LLMs' reasoning abilities.
- Abstract(参考訳): 大きな言語モデル(LLM)は、問題解決や質問応答など、様々なタスクに優れています。
しかし、LLMは、LLMが苦戦しているように見える様々な推論と数学的能力を必要とするため、MWP(Math Word Problems)が困難であることが多い。
近年の取り組みは、LLMがより複雑なMWPを改良されたプロンプトで解くのに役立っている。
本研究では,まず LLM に質問の分解から方程式を生成させ,次いで外部記号方程式解法を用いて解を求める手法を提案する。
数学教師の推薦に触発されて得られた解の正確性を確保するため、LLMはMWPを2度目で解くように指示されるが、今回は正しい解を正確に解くのではなく、正しい解を推定する。
次に、推定結果を生成した回答と比較して検証する。
検証が失敗した場合、正しい答えが最終的に見つかることを保証するために反復的な修正プロセスが使用される。
このアプローチは、数値および代数的MWPに関する先行研究によって使用されるデータセットに対して、新しい最先端の結果を達成し、平均で2%近く改善する。
さらに、この手法は、これまで著者の最良の知識に取り組んでいなかった課題である三角MWPの満足な結果を得る。
この研究は、LSMの推論能力のテストをさらに進めるため、SVAMPCleanとTrig300という2つの新しいデータセットも導入した。
関連論文リスト
- Right Is Not Enough: The Pitfalls of Outcome Supervision in Training LLMs for Math Reasoning [35.142294794883455]
細粒度アノテーションを持つ新しいデータセットであるMathOlympiadEvalを導入し、LLMの回答の正しさとプロセスの正しさの間に大きなギャップがあることを明らかにした。
LLM-as-a-judgeのような既存の自動化手法は、これらの推論の欠陥を確実に検出するのに苦労する。
そこで我々はParaStepVerifierを提案する。ParaStepVerifierは数学的解の厳密なステップバイステップ検証のための新しい手法である。
論文 参考訳(メタデータ) (2025-06-07T17:54:56Z) - MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。
推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。
Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2024-05-25T15:07:33Z) - From Large to Tiny: Distilling and Refining Mathematical Expertise for Math Word Problems with Weakly Supervision [12.023661884821554]
本稿では,大規模言語モデルから小型言語モデルへの数学的知識の伝達を徹底的に行う,革新的な2段階のフレームワークを提案する。
提案手法は,探索型'確率方程式'ペアにおける意味理解機能を完全に活用する。
Math23KとWeak12Kデータセットでは、既存の小さなモデルメソッドと比較して大幅にパフォーマンスが向上している。
論文 参考訳(メタデータ) (2024-03-21T13:29:54Z) - GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。
1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。
このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文 参考訳(メタデータ) (2024-02-29T15:26:14Z) - Fill in the Blank: Exploring and Enhancing LLM Capabilities for Backward Reasoning in Math Word Problems [17.80128896525717]
後向きの推論は 比較的未調査です
後方推論は 前方推論の「逆」と見なすことができます
性能改善のための3つの異なる前方推論戦略のバリエーションを提案する。
論文 参考訳(メタデータ) (2023-10-03T12:03:06Z) - SelfCheck: Using LLMs to Zero-Shot Check Their Own Step-by-Step
Reasoning [55.76083560152823]
SelfCheckは、ステップバイステップの推論でエラーを認識する汎用的なゼロショット検証スキーマである。
我々は,3つのデータセット(GSM8K,MathQA,MATH)上でSelfCheckをテストし,エラーの認識に成功し,最終的な回答精度が向上することを確認した。
論文 参考訳(メタデータ) (2023-08-01T10:31:36Z) - SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。
我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。
我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-05-16T17:55:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。