論文の概要: MathPrompter: Mathematical Reasoning using Large Language Models
- arxiv url: http://arxiv.org/abs/2303.05398v1
- Date: Sat, 4 Mar 2023 04:43:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-12 03:32:02.670713
- Title: MathPrompter: Mathematical Reasoning using Large Language Models
- Title(参考訳): MathPrompter: 大規模言語モデルを用いた数学的推論
- Authors: Shima Imani, Liang Du, Harsh Shrivastava
- Abstract要約: 大規模言語モデル (LLM) は算術的推論タスクを解く際の性能に制限がある。
MathPrompterはZero-shot-of- Thoughtプロンプト技術を使って複数の代数式やPython関数を生成し、異なる方法で同じ数学問題を解く。
- 参考スコア(独自算出の注目度): 7.953723258038284
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Models (LLMs) have limited performance when solving arithmetic
reasoning tasks and often provide incorrect answers. Unlike natural language
understanding, math problems typically have a single correct answer, making the
task of generating accurate solutions more challenging for LLMs. To the best of
our knowledge, we are not aware of any LLMs that indicate their level of
confidence in their responses which fuels a trust deficit in these models
impeding their adoption. To address this deficiency, we propose `MathPrompter',
a technique that improves performance of LLMs on arithmetic problems along with
increased reliance in the predictions. MathPrompter uses the Zero-shot
chain-of-thought prompting technique to generate multiple Algebraic expressions
or Python functions to solve the same math problem in different ways and
thereby raise the confidence level in the output results. This is in contrast
to other prompt based CoT methods, where there is no check on the validity of
the intermediate steps followed. Our technique improves over state-of-the-art
on the MultiArith dataset ($78.7\%\rightarrow92.5\%$) evaluated using 175B
parameter GPT-based LLM.
- Abstract(参考訳): 大規模言語モデル (LLM) は算術的推論タスクを解くときの性能に制限があり、しばしば誤った答えを与える。
自然言語理解とは異なり、数学の問題は通常1つの正しい答えを持ち、正確な解を生成する作業はllmにとってより困難である。
我々の知る限りでは、これらのモデルにおける信頼の欠如が採用を妨げるという彼らの反応に対する信頼のレベルを示すLCMを意識していません。
この欠陥に対処するため,算術問題におけるLLMの性能向上と予測への依存度の向上を両立させる手法である'MathPrompter'を提案する。
MathPrompterはZero-shot-of- Thoughtプロンプト技術を使って複数の代数式やPython関数を生成し、異なる方法で同じ数学問題を解く。
これは他のプロンプトベースのCoT法とは対照的であり、続く中間ステップの有効性のチェックがない。
提案手法は、175Bパラメータ GPT-based LLM を用いて評価した MultiArith データセット (78.7\%\rightarrow 92.5\%$) の最先端性を改善する。
関連論文リスト
- Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - BEATS: Optimizing LLM Mathematical Capabilities with BackVerify and Adaptive Disambiguate based Efficient Tree Search [22.672130194493793]
大規模言語モデル(LLM)は、幅広いタスクやドメインで例外的なパフォーマンスを示している。
彼らは数学の厳密で論理的な性質のため、数学の問題を解くのに依然として困難に直面している。
本稿では,数学的問題解決能力を高めるための新しい手法BEATSを提案する。
論文 参考訳(メタデータ) (2024-09-26T15:47:42Z) - AI-Assisted Generation of Difficult Math Questions [78.7547836422727]
現在の訓練は、数学的推論をコア能力として位置づけている。
多様で挑戦的な数学の質問には、控えめな需要がある。
本稿では,LLMの強みとHuman-in-the-loopアプローチを組み合わせた設計枠組みを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:55:36Z) - MathDivide: Improved mathematical reasoning by large language models [0.0]
本稿では,数学的問題をより単純なサブプロブレムに分解する,MathDivideと呼ばれるプロンプト手法を提案する。
その結果、Math-prompterと呼ばれる先進的なプロンプト技術よりも、MathDivideの方がはるかに優れていたことが判明した。
論文 参考訳(メタデータ) (2024-05-12T20:21:15Z) - Achieving >97% on GSM8K: Deeply Understanding the Problems Makes LLMs Better Solvers for Math Word Problems [50.76385564061713]
CoT(Chain-of-Thought)のプロンプトにより、さまざまな推論タスクにわたるLLM(Large Language Models)のパフォーマンスが向上した。
CoTは通常、セマンティックな誤解エラー、計算エラー、ステップミスという3つの落とし穴に悩まされる。
意味的誤解の誤りに対処し,LLMの数学的問題解決能力を改善するために,DUP(Deeply Understanding the Problems)を提案する。
論文 参考訳(メタデータ) (2024-04-23T12:16:05Z) - GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。
1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。
このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文 参考訳(メタデータ) (2024-02-29T15:26:14Z) - SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。
我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。
我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-05-16T17:55:51Z) - PAL: Program-aided Language Models [112.94785609781503]
自然言語問題を理解するために,プログラム支援言語モデル(PaL)を提案する。
PaLはソリューションステップをPythonインタプリタのようなプログラムランタイムにオフロードする。
私たちは12のベンチマークで新しい最先端の結果を設定しました。
論文 参考訳(メタデータ) (2022-11-18T18:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。