論文の概要: MathPrompter: Mathematical Reasoning using Large Language Models
- arxiv url: http://arxiv.org/abs/2303.05398v1
- Date: Sat, 4 Mar 2023 04:43:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-12 03:32:02.670713
- Title: MathPrompter: Mathematical Reasoning using Large Language Models
- Title(参考訳): MathPrompter: 大規模言語モデルを用いた数学的推論
- Authors: Shima Imani, Liang Du, Harsh Shrivastava
- Abstract要約: 大規模言語モデル (LLM) は算術的推論タスクを解く際の性能に制限がある。
MathPrompterはZero-shot-of- Thoughtプロンプト技術を使って複数の代数式やPython関数を生成し、異なる方法で同じ数学問題を解く。
- 参考スコア(独自算出の注目度): 7.953723258038284
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Models (LLMs) have limited performance when solving arithmetic
reasoning tasks and often provide incorrect answers. Unlike natural language
understanding, math problems typically have a single correct answer, making the
task of generating accurate solutions more challenging for LLMs. To the best of
our knowledge, we are not aware of any LLMs that indicate their level of
confidence in their responses which fuels a trust deficit in these models
impeding their adoption. To address this deficiency, we propose `MathPrompter',
a technique that improves performance of LLMs on arithmetic problems along with
increased reliance in the predictions. MathPrompter uses the Zero-shot
chain-of-thought prompting technique to generate multiple Algebraic expressions
or Python functions to solve the same math problem in different ways and
thereby raise the confidence level in the output results. This is in contrast
to other prompt based CoT methods, where there is no check on the validity of
the intermediate steps followed. Our technique improves over state-of-the-art
on the MultiArith dataset ($78.7\%\rightarrow92.5\%$) evaluated using 175B
parameter GPT-based LLM.
- Abstract(参考訳): 大規模言語モデル (LLM) は算術的推論タスクを解くときの性能に制限があり、しばしば誤った答えを与える。
自然言語理解とは異なり、数学の問題は通常1つの正しい答えを持ち、正確な解を生成する作業はllmにとってより困難である。
我々の知る限りでは、これらのモデルにおける信頼の欠如が採用を妨げるという彼らの反応に対する信頼のレベルを示すLCMを意識していません。
この欠陥に対処するため,算術問題におけるLLMの性能向上と予測への依存度の向上を両立させる手法である'MathPrompter'を提案する。
MathPrompterはZero-shot-of- Thoughtプロンプト技術を使って複数の代数式やPython関数を生成し、異なる方法で同じ数学問題を解く。
これは他のプロンプトベースのCoT法とは対照的であり、続く中間ステップの有効性のチェックがない。
提案手法は、175Bパラメータ GPT-based LLM を用いて評価した MultiArith データセット (78.7\%\rightarrow 92.5\%$) の最先端性を改善する。
関連論文リスト
- GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of
LLMs as Mathematical Problem Solvers [73.78371810664319]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。
1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。
このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文 参考訳(メタデータ) (2024-02-29T15:26:14Z) - Do Language Models Exhibit the Same Cognitive Biases in Problem Solving
as Human Learners? [118.37810735783991]
本研究では,大言語モデル(LLM)の偏りを,算術語問題を解く際に,子どもに知られているものと関連づけて検討する。
我々はこれらの各テストに対して,問題特徴のきめ細かい制御を可能にするニューロシンボリック手法を用いて,新しい単語問題セットを生成する。
論文 参考訳(メタデータ) (2024-01-31T18:48:20Z) - Fill in the Blank: Exploring and Enhancing LLM Capabilities for Backward
Reasoning in Math Word Problems [18.69394742883921]
後方推論は数学用語の問題では 比較的未発見です
4つのSOTA LLMにおける前方推論と比較して,後方推論におけるモデルの精度は著しく低下した。
PAL-Tools はプログラム支援 LLM のアイデアを組み合わせて,外部の解法で解ける方程式の集合を生成し, 作業確認は, 前方方向の精度の高い自然検証器の可用性を活用する。
論文 参考訳(メタデータ) (2023-10-03T12:03:06Z) - Evaluating Language Models for Mathematics through Interactions [116.67206980096513]
大型言語モデル(LLM)と対話し,評価するためのプロトタイププラットフォームであるCheckMateを紹介した。
我々はCheckMateと共同で3つの言語モデル(InstructGPT, ChatGPT, GPT-4)を、学部レベルの数学の証明支援として評価する研究を行った。
我々は、人間の行動の分類を導き、概して肯定的な相関にもかかわらず、正しさと知覚的有用性の間に顕著な相違点があることを明らかにする。
論文 参考訳(メタデータ) (2023-06-02T17:12:25Z) - SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。
我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。
我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-05-16T17:55:51Z) - Solving Math Word Problems by Combining Language Models With Symbolic
Solvers [28.010617102877923]
大規模言語モデル(LLM)は複雑な推論と計算を行うために外部ツールと組み合わせることができる。
本稿では,変数と方程式の集合として単語問題を段階的に形式化するLLMと,外部記号解法を併用する手法を提案する。
提案手法は,GSM8Kベンチマークにおける元のPALに匹敵する精度を達成し,ALGEBRAでPALを絶対20%上回る性能を示した。
論文 参考訳(メタデータ) (2023-04-16T04:16:06Z) - Large Language Models are Better Reasoners with Self-Verification [48.534270563880845]
大規模言語モデル(LLM)は、いくつかの自然言語処理タスクにおいて強力な推論能力を示している。
思考の連鎖(CoT)を促進させるLLMは、個別のミスに非常に敏感な、多段階のプロンプトと多段階の予測を必要とする。
また,LLMにも同様な自己検証能力があることを示す。
論文 参考訳(メタデータ) (2022-12-19T15:51:52Z) - PAL: Program-aided Language Models [112.94785609781503]
自然言語問題を理解するために,プログラム支援言語モデル(PaL)を提案する。
PaLはソリューションステップをPythonインタプリタのようなプログラムランタイムにオフロードする。
私たちは12のベンチマークで新しい最先端の結果を設定しました。
論文 参考訳(メタデータ) (2022-11-18T18:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。