論文の概要: Get an A in Math: Progressive Rectification Prompting
- arxiv url: http://arxiv.org/abs/2312.06867v1
- Date: Mon, 11 Dec 2023 22:25:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 17:57:58.796634
- Title: Get an A in Math: Progressive Rectification Prompting
- Title(参考訳): 数学でaを得る:プログレッシブな修正を促す
- Authors: Zhenyu Wu, Meng Jiang, Chao Shen
- Abstract要約: CoT(Chain-of-Thought)プロンプト法により,大規模言語モデル(LLM)が推論経路を生成し,算術語問題(MWP)を解くことが可能になった。
77.3から90.5までの8MWPデータセットの平均精度を向上させるために,PRP (Progressive Rectification Prompting) という新しい手法を提案する。
- 参考スコア(独自算出の注目度): 42.09762345892869
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chain-of-Thought (CoT) prompting methods have enabled large language models
(LLMs) to generate reasoning paths and solve math word problems (MWPs).
However, they are sensitive to mistakes in the paths, as any mistake can result
in an incorrect answer. We propose a novel method named Progressive
Rectification Prompting (PRP) to improve average accuracy on eight MWP datasets
from 77.3 to 90.5. Given an initial answer from CoT, PRP iterates a
verify-then-rectify process to progressively identify incorrect answers and
rectify the reasoning paths. With the most likely correct answer, the LLM
predicts a masked numerical value in the question; if the prediction does not
match the masked value, the answer is likely incorrect. Then the LLM is
prompted to re-generate the reasoning path hinted with a set of incorrect
answers to prevent itself from repeating previous mistakes. PRP achieves the
best performance compared against the CoT methods. Our implementation is made
publicly available at https://wzy6642.github.io/prp.github.io/.
- Abstract(参考訳): CoT(Chain-of-Thought)は,大規模言語モデル(LLM)で推論経路を生成し,数学語問題(MWP)を解く手法である。
しかし、どの誤りも誤った答えをもたらす可能性があるため、パス内の間違いに敏感である。
77.3から90.5までの8MWPデータセットの平均精度を向上させるために,PRP(Progressive Rectification Prompting)と呼ばれる新しい手法を提案する。
cotからの最初の回答が与えられると、prpはverify-then-rectifyプロセスを繰り返して、不正確な答えを段階的に識別し、推論パスを正す。
LLMは最も正しい確率で、この質問においてマスクされた数値を予測し、もし予測がマスクされた値と一致しないなら、その答えは誤っている可能性が高い。
次に、LCMは、前回のミスを繰り返しないように、誤った回答のセットで示唆された推論パスを再生成するよう促される。
PRPはCoT法と比較して最高の性能を達成する。
実装はhttps://wzy6642.github.io/prp.github.io/で公開しています。
関連論文リスト
- Recursive Chain-of-Feedback Prevents Performance Degradation from
Redundant Prompting [0.4662017507844857]
本稿では,このような反復行動とその効果について,新しい設定,CoF(Chain-of-Feedback)を定義することによって検討する。
これらの問題を緩和するために、新しい手法、Recursive Chain-of-Feedback (R-CoF)を提案する。
論文 参考訳(メタデータ) (2024-02-05T00:44:28Z) - Divide and Conquer for Large Language Models Reasoning [53.27384085738965]
本稿では,大言語モデルにDivide and Conquer戦略を適用することを提案する。
まず、統計的信頼度スコアに基づいて、質問を異なるサブセットに分割する。
そして、ほぼ解決された集合を修正し、精巧に設計された手法で要求されるニュアンス処理を克服します。
論文 参考訳(メタデータ) (2024-01-10T14:38:46Z) - Training Chain-of-Thought via Latent-Variable Inference [30.21067593018967]
大規模言語モデル(LLM)は、チェーン・オブ・シンクレットのプロンプトを使って解答ステップを実行するように指示されたときに、より正確かつ解釈可能な問題を解決する。
CoTと教師付きチューニングを組み合わせるには、正しい回答だけでなく、それらの答えにつながる詳細な根拠の監督が必要である。
そこで本研究では,CoTプロンプトを用いて正しい回答を生成することで,電子対数類似度を最大化するための微調整戦略を提案する。
論文 参考訳(メタデータ) (2023-11-28T17:47:32Z) - Learning From Mistakes Makes LLM Better Reasoner [112.83395184036023]
大規模言語モデル(LLM)は、最近数学の問題を解く際、顕著な推論能力を示した。
この研究は、LLMが人間の学習プロセスに似たMistAkes(LEMA)から学習できるかどうかを探求する。
GPT-4を「訂正者」として用い、誤りの理由を説明し、誤りを訂正し、最終的な答えを生成する。
論文 参考訳(メタデータ) (2023-10-31T17:52:22Z) - GRACE: Discriminator-Guided Chain-of-Thought Reasoning [75.35436025709049]
本稿では, 正しい推論手順を導出するために, GRACE (CorrectnEss Discriminator) を用いたチェーン・オブ・シークレット・リAsoningを提案する。
GRACEは、正しいステップと間違ったステップに対して対照的な損失で訓練された判別器を採用しており、復号時に次のステップ候補を採点するために使用される。
論文 参考訳(メタデータ) (2023-05-24T09:16:51Z) - RCOT: Detecting and Rectifying Factual Inconsistency in Reasoning by
Reversing Chain-of-Thought [56.558892336235914]
Reversing Chain-of-Thought (RCoT) は、大規模言語モデルの推論能力を改善する新しい手法である。
RCoTは生成したソリューションにおける事実の不整合を自動的に検出し、修正する。
手書きのきめ細かいフィードバックがLLMの推論能力を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-05-19T08:02:52Z) - MathPrompter: Mathematical Reasoning using Large Language Models [7.953723258038284]
大規模言語モデル (LLM) は算術的推論タスクを解く際の性能に制限がある。
MathPrompterはZero-shot-of- Thoughtプロンプト技術を使って複数の代数式やPython関数を生成し、異なる方法で同じ数学問題を解く。
論文 参考訳(メタデータ) (2023-03-04T04:43:49Z) - Large Language Models are Better Reasoners with Self-Verification [48.534270563880845]
大規模言語モデル(LLM)は、いくつかの自然言語処理タスクにおいて強力な推論能力を示している。
思考の連鎖(CoT)を促進させるLLMは、個別のミスに非常に敏感な、多段階のプロンプトと多段階の予測を必要とする。
また,LLMにも同様な自己検証能力があることを示す。
論文 参考訳(メタデータ) (2022-12-19T15:51:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。