論文の概要: Program of Equations Thoughts to Solve Algebra Word Problems
- arxiv url: http://arxiv.org/abs/2505.20170v1
- Date: Mon, 26 May 2025 16:12:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 19:27:26.927884
- Title: Program of Equations Thoughts to Solve Algebra Word Problems
- Title(参考訳): 代数的単語問題を解くための方程式思考プログラム
- Authors: Yunze Lin,
- Abstract要約: 方程式のプログラム(Program of Equations Thoughts)は、解を推論するタスクを、方程式を予測し、コードを生成する2段階のタスクに変換する。
PENデータセットとALG514データセットの95.3%と98.0%の精度を実現し,SOTA(State-of-the-art)を新たに設定した。
ゼロショットPOETは、DRAW-1Kデータセットで95.5%のSOTA結果も達成している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Solving algebraic word problems (AWPs) has recently emerged as an important natural language processing task. Recently, large language models (LLMs) have demonstrated powerful mathematical capabilities, and the Chain-of-Thought technique, which guides LLMs through step-by-step reasoning, has yielded impressive results. However, this reasoning ability is limited by the computational weaknesses of LLMs themselves, where calculation errors can accumulate, leading to incorrect final answers. To address this, we propose Program of Equations Thoughts (POET), which transforms the task of generating step-by-step reasoning answers into a two-stage task of predicting equations and generating code, offloading complex computations to a Python interpreter to avoid calculation errors in LLMs. Furthermore, we propose Zero-shot POET, which utilizes a manually designed template to enable LLMs to directly generate Python code for one-step solving. Our method achieves accuracies of 95.3% and 98.0% on the PEN and ALG514 datasets, respectively, setting a new state-of-the-art (SOTA). Zero-shot POET also achieves the SOTA result of 95.5% on the DRAW-1K dataset.
- Abstract(参考訳): 近年,代数的単語問題(AWP)の解決が,自然言語処理の重要な課題として浮上している。
近年,大規模言語モデル (LLM) は強力な数学的能力を示しており,ステップバイステップの推論を通じてLSMをガイドするChain-of-Thought手法は印象的な結果をもたらした。
しかし、この推論能力は計算誤差を蓄積できるLLM自体の計算弱さによって制限され、誤った最終解が導かれる。
そこで本研究では,プログラム・オブ・方程式思考(POET, Program of Equations Thoughts)を提案する。このプログラムは,ステップバイステップの推論結果を生成するタスクを,方程式の予測とコード生成という2段階のタスクに変換し,複雑な計算をPythonインタプリタにオフロードすることで,LLMの計算エラーを回避する。
さらに,手動で設計したテンプレートを用いて,LLMがPythonを直接生成して一段階の問題解決を可能にするZero-shot POETを提案する。
提案手法は, PENデータセットとALG514データセットの95.3%と98.0%の精度をそれぞれ達成し, 新たな最先端(SOTA)を設定した。
ゼロショットPOETは、DRAW-1Kデータセットで95.5%のSOTA結果も達成している。
関連論文リスト
- Achieving >97% on GSM8K: Deeply Understanding the Problems Makes LLMs Better Solvers for Math Word Problems [50.76385564061713]
CoT(Chain-of-Thought)のプロンプトにより、さまざまな推論タスクにわたるLLM(Large Language Models)のパフォーマンスが向上した。
CoTは通常、セマンティックな誤解エラー、計算エラー、ステップミスという3つの落とし穴に悩まされる。
意味的誤解の誤りに対処し,LLMの数学的問題解決能力を改善するために,DUP(Deeply Understanding the Problems)を提案する。
論文 参考訳(メタデータ) (2024-04-23T12:16:05Z) - Do Language Models Exhibit the Same Cognitive Biases in Problem Solving as Human Learners? [140.9751389452011]
本研究では,大言語モデル(LLM)の偏りを,算術語問題を解く際に,子どもに知られているものと関連づけて検討する。
我々は,これらの各テストに対して,問題特徴のきめ細かい制御を可能にするニューロシンボリックアプローチを用いて,新しい単語問題を生成する。
論文 参考訳(メタデータ) (2024-01-31T18:48:20Z) - Zero-Shot Question Answering over Financial Documents using Large
Language Models [0.18749305679160366]
我々は,財務報告に対するマルチホップ数値推論を必要とする複雑な問題に答えるために,大規模言語モデル(LLM)に基づくアプローチを導入する。
LLMを誘導する新しいゼロショットプロンプトを使用して、必要な推論をPythonプログラムやドメイン固有言語にエンコードします。
論文 参考訳(メタデータ) (2023-11-19T16:23:34Z) - SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。
我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。
我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-05-16T17:55:51Z) - MathPrompter: Mathematical Reasoning using Large Language Models [7.953723258038284]
大規模言語モデル (LLM) は算術的推論タスクを解く際の性能に制限がある。
MathPrompterはZero-shot-of- Thoughtプロンプト技術を使って複数の代数式やPython関数を生成し、異なる方法で同じ数学問題を解く。
論文 参考訳(メタデータ) (2023-03-04T04:43:49Z) - PAL: Program-aided Language Models [112.94785609781503]
自然言語問題を理解するために,プログラム支援言語モデル(PaL)を提案する。
PaLはソリューションステップをPythonインタプリタのようなプログラムランタイムにオフロードする。
私たちは12のベンチマークで新しい最先端の結果を設定しました。
論文 参考訳(メタデータ) (2022-11-18T18:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。