論文の概要: Plan-and-Solve Prompting: Improving Zero-Shot Chain-of-Thought Reasoning
by Large Language Models
- arxiv url: http://arxiv.org/abs/2305.04091v1
- Date: Sat, 6 May 2023 16:34:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-09 17:38:41.370053
- Title: Plan-and-Solve Prompting: Improving Zero-Shot Chain-of-Thought Reasoning
by Large Language Models
- Title(参考訳): Plan-and-Solve Prompting:大規模言語モデルによるゼロショット連鎖推論の改善
- Authors: Lei Wang, Wanyu Xu, Yihuai Lan, Zhiqiang Hu, Yunshi Lan, Roy Ka-Wei
Lee and Ee-Peng Lim
- Abstract要約: 大規模言語モデル(LLM)の推論ステップを生成するために、手作業でステップバイステップの推論デモを作成することができる。
Zero-shot-CoTs は LLM への入力プロンプトとして "Let's Think by Step" でターゲット問題文をプロンプトする。
提案したゼロショットのプロンプトが全データセットでゼロショットCoTをはるかに上回っていることを示す。
- 参考スコア(独自算出の注目度): 23.805926737723603
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have recently been shown to deliver impressive
performance in various NLP tasks. To tackle multi-step reasoning tasks,
few-shot chain-of-thought (CoT) prompting includes a few manually crafted
step-by-step reasoning demonstrations which enable LLMs to explicitly generate
reasoning steps and improve their reasoning task accuracy. To eliminate the
manual effort, Zero-shot-CoT concatenates the target problem statement with
"Let's think step by step" as an input prompt to LLMs. Despite the success of
Zero-shot-CoT, it still suffers from three pitfalls: calculation errors,
missing-step errors, and semantic misunderstanding errors. To address the
missing-step errors, we propose Plan-and-Solve (PS) Prompting. It consists of
two components: first, devising a plan to divide the entire task into smaller
subtasks, and then carrying out the subtasks according to the plan. To address
the calculation errors and improve the quality of generated reasoning steps, we
extend PS prompting with more detailed instructions and derive PS+ prompting.
We evaluate our proposed prompting strategy on ten datasets across three
reasoning problems. The experimental results over GPT-3 show that our proposed
zero-shot prompting consistently outperforms Zero-shot-CoT across all datasets
by a large margin, is comparable to or exceeds Zero-shot-Program-of-Thought
Prompting, and has comparable performance with 8-shot CoT prompting on the math
reasoning problem. The code can be found at
https://github.com/AGI-Edgerunners/Plan-and-Solve-Prompting.
- Abstract(参考訳): 大規模言語モデル(LLM)は、最近、様々なNLPタスクで素晴らしいパフォーマンスをもたらすことが示されている。
マルチステップ推論タスクに取り組むために、数発のチェーン・オブ・シークレット(CoT)プロンプトには、LSMが推論ステップを明示的に生成し、推論タスクの正確性を改善するための、手作業によるステップバイステップ推論デモが含まれている。
手作業を排除するため、Zero-shot-CoT は LLM への入力プロンプトとして、ターゲット問題ステートメントを "Let's Think by Step" と結合する。
zero-shot-cotの成功にもかかわらず、計算エラー、欠落ステップエラー、セマンティック誤解エラーという3つの落とし穴に苦しむ。
そこで我々は,Plan-and-Solve (PS) Promptingを提案する。
まず、タスク全体を小さなサブタスクに分割する計画を考案し、次に計画に従ってサブタスクを実行する。
計算誤差に対処し、生成した推論ステップの品質を向上させるため、より詳細な指示でPSプロンプトを拡張し、PS+プロンプトを導出する。
3つの推論問題にまたがる10のデータセットについて提案手法を評価した。
GPT-3に対する実験結果から,提案したゼロショットプロンプトは,全データセットにおいてゼロショットCoTよりも常に優れており,ゼロショットProgram-of-Thought Promptingに匹敵するものか,数学推論問題に対して8ショットCoTに匹敵する性能を有することが示された。
コードはhttps://github.com/AGI-Edgerunners/Plan-and-Solve-Promptingで見ることができる。
関連論文リスト
- Instance-adaptive Zero-shot Chain-of-Thought Prompting [32.700073951068575]
Zero-shot Chain-of-Thought (CoT) は,実世界の推論タスクにおける大規模言語モデル(LLM)の性能向上のための,シンプルかつ効果的な戦略として出現する。
この研究は、良いプロンプトと悪いプロンプトを適応的に微分することで、代替のゼロショットCoT推論スキームとして、インスタンス適応プロンプトアルゴリズムを導入する。
論文 参考訳(メタデータ) (2024-09-30T16:00:34Z) - Achieving >97% on GSM8K: Deeply Understanding the Problems Makes LLMs Better Solvers for Math Word Problems [50.76385564061713]
CoT(Chain-of-Thought)のプロンプトにより、さまざまな推論タスクにわたるLLM(Large Language Models)のパフォーマンスが向上した。
CoTは通常、セマンティックな誤解エラー、計算エラー、ステップミスという3つの落とし穴に悩まされる。
意味的誤解の誤りに対処し,LLMの数学的問題解決能力を改善するために,DUP(Deeply Understanding the Problems)を提案する。
論文 参考訳(メタデータ) (2024-04-23T12:16:05Z) - Evaluating and Improving Tool-Augmented Computation-Intensive Math
Reasoning [75.74103236299477]
CoT(Chain-of- Thought prompting)とツール拡張は、大きな言語モデルを改善するための効果的なプラクティスとして検証されている。
ツールインターフェース,すなわち textbfDELI を用いた推論ステップを考慮に入れた新しい手法を提案する。
CARPと他の6つのデータセットの実験結果から、提案されたDELIは、主に競合ベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2023-06-04T17:02:59Z) - SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。
我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。
我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-05-16T17:55:51Z) - GPT is becoming a Turing machine: Here are some ways to program it [16.169056235216576]
GPT-3モデルはループを含むプログラムを実行するために起動可能であることを示す。
1つのタスクの例をカバーすることさえできないプロンプトが、アルゴリズム的な振る舞いをトリガーできることを示します。
論文 参考訳(メタデータ) (2023-03-25T00:43:41Z) - Program of Thoughts Prompting: Disentangling Computation from Reasoning
for Numerical Reasoning Tasks [108.4568236569645]
CoT(Chain-of-thinkts prompting)は、これらのタスクに対する最先端の手法である。
本稿では、言語モデルを用いて推論過程をプログラムとして表現する「思考プログラム(PoT)」を提案する。
PoTは、評価されたすべてのデータセットに対して、CoTに対する平均的なパフォーマンス向上を約12%示すことができる。
論文 参考訳(メタデータ) (2022-11-22T21:06:00Z) - PAL: Program-aided Language Models [112.94785609781503]
自然言語問題を理解するために,プログラム支援言語モデル(PaL)を提案する。
PaLはソリューションステップをPythonインタプリタのようなプログラムランタイムにオフロードする。
私たちは12のベンチマークで新しい最先端の結果を設定しました。
論文 参考訳(メタデータ) (2022-11-18T18:56:13Z) - CINS: Comprehensive Instruction for Few-shot Learning in Task-oriented
Dialog Systems [56.302581679816775]
本稿では,タスク固有の命令でPLMを利用する包括的インストラクション(CINS)を提案する。
命令のスキーマ(定義、制約、プロンプト)と、ToDの3つの重要な下流タスクに対するカスタマイズされた実現を設計する。
これらのToDタスクに対して,小さな検証データを用いた現実的な数ショット学習シナリオで実験を行った。
論文 参考訳(メタデータ) (2021-09-10T03:23:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。