論文の概要: Achieving >97% on GSM8K: Deeply Understanding the Problems Makes LLMs Perfect Reasoners
- arxiv url: http://arxiv.org/abs/2404.14963v1
- Date: Tue, 23 Apr 2024 12:16:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 14:11:34.428168
- Title: Achieving >97% on GSM8K: Deeply Understanding the Problems Makes LLMs Perfect Reasoners
- Title(参考訳): GSM8Kの97%を達成 - 問題を深く理解してLLMを完璧に共振器にする
- Authors: Qihuang Zhong, Kang Wang, Ziyang Xu, Juhua Liu, Liang Ding, Bo Du, Dacheng Tao,
- Abstract要約: 本稿では、DUP(Deeply Understanding the Problems)プロンプトと呼ばれる新しいプロンプト戦略を提案する。
1)コア質問の抽出,2)コア質問に基づく問題解決情報検索,3)大規模言語モデルによる回答の生成と抽出,の3段階から構成される。
実験の結果,DUPは全データセットでZero-Shot CoT citekojima2022largeよりも優れていた。
- 参考スコア(独自算出の注目度): 86.03285157412839
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chain of Thought prompting strategy has enhanced the performance of Large Language Models (LLMs) across various NLP tasks. However, it still has shortcomings when dealing with complex reasoning tasks, following~\citet{cot_wei}, including understanding errors, calculation errors and process errors (e.g. missing-step and hallucinations). Subsequently, Our in-depth analysis of various error types has found that deeply understanding the whole problem is critical in addressing complicated reasoning tasks. In this paper, we proposed a novel prompt strategy called Deeply Understanding the Problems (DUP) prompting, inspired by how humans solve complex reasoning problems, designed to enhance the comprehensive understanding of problems by LLMs. It consists of three stages: 1) extract the core question; 2) find out problem-solving information based on the core question; 3) generate and extract answers by LLMs. We evaluate the performance of DUP prompting on ten diverse reasoning datasets. Experimental results suggest that DUP prompting significantly outperforms Zero-Shot CoT ~\cite{kojima2022large} across all datasets. Notably, DUP achieves \textbf{state-of-the-art on SVAMP (90.4\% to 94.2\%) and GSM8K (94.6\% to 97.1\%).}
- Abstract(参考訳): The Chain of Thought prompting strategy has enhance the performance of Large Language Models (LLMs) across various NLP task。
しかし、複雑な推論タスクを扱う際には、エラーの理解、計算エラー、プロセスエラー(例えば、欠落したステップや幻覚)など、まだ欠点がある。
その後、様々なエラータイプの詳細な分析により、複雑な推論タスクに対処するためには、問題全体を深く理解することが重要であることが判明した。
本稿では,人間による複雑な推論問題の解法に触発されたDUP(Deeply Understanding the Problems)と呼ばれる新しいプロンプト戦略を提案する。
3つの段階から構成される。
1) コア質問を抽出すること。
2 中心的問題に基づく問題解決情報を見つけ出す。
3) LLM による回答の生成と抽出。
そこで本研究では,10種類の推論データセットを用いたDUPプロンプトの性能評価を行った。
実験結果から,DUPはZero-Shot CoT ~\cite{kojima2022large} を全データセットで大幅に上回っていることが示唆された。
特に DUP は SVAMP (90.4\% - 94.2\%) と GSM8K (94.6\% - 97.1\%) で \textbf{state-of-the-art を達成する。
※
関連論文リスト
- Look Before You Leap: Problem Elaboration Prompting Improves Mathematical Reasoning in Large Language Models [15.65204261844768]
本稿では,大規模言語モデル(LLM)の数学的能力を高めるために,PEPという新しい手法を提案する。
PEPは、推論の前に問題コンテキストを分解し、解明するので、コンテキストモデリングと解析効率が向上する。
論文 参考訳(メタデータ) (2024-02-24T08:40:30Z) - DCR: Divide-and-Conquer Reasoning for Multi-choice Question Answering with LLMs [9.561022942046279]
大規模言語モデル(LLM)の推論能力を高めるため,DCR(Divide and Conquer Reasoning)を提案する。
まず、信頼性スコア(mathcalCS$)に基づいて質問を2つのサブセットに分類する。
特に,質問を信頼性スコア(mathcalCS$)に基づいて2つのサブセットに分類する。
論文 参考訳(メタデータ) (2024-01-10T14:38:46Z) - Look Before You Leap: A Universal Emergent Decomposition of Retrieval
Tasks in Language Models [58.57279229066477]
本研究では,言語モデル(LM)が様々な状況下での検索タスクをどのように解決するかを検討する。
ORIONは6つのドメインにまたがる構造化された検索タスクの集合である。
LMは内部的にモジュール方式で検索タスクを分解する。
論文 参考訳(メタデータ) (2023-12-13T18:36:43Z) - Thought Propagation: An Analogical Approach to Complex Reasoning with
Large Language Models [70.76692652007469]
大規模言語モデルの複雑な推論能力を高めるために,textbftextitThought Propagation (TP)を提案する。
TP はまず LLM に対して,入力問題に関連する類似問題の集合を提案し,解決するよう促す。
TPは、類似問題の結果を再利用して、新しいソリューションを直接生成したり、スクラッチから得られた初期ソリューションを修正するための知識集約的な実行プランを導出する。
論文 参考訳(メタデータ) (2023-10-06T01:40:09Z) - TaskLAMA: Probing the Complex Task Understanding of Language Models [13.336015994186955]
構造化複雑タスク分解(Structured Complex Task Decomposition, SCTD)は、複雑な現実世界のタスクを、タスク達成に寄与する個々のステップ上の有向非巡回グラフに分解する問題である。
我々は,Large Language Models (LLMs) から抽出した知識を用いて,SCTDの精度を検証した。
実験の結果,LLMは複雑なタスクを個々のステップに効果的に分解できることがわかった。
論文 参考訳(メタデータ) (2023-08-29T13:36:45Z) - Hint of Thought prompting: an explainable and zero-shot approach to
reasoning tasks with LLMs [7.084410438286801]
本稿では、説明可能性とゼロショットの一般化を促進させる新しい思考ヒント(HoT)を提案する。
我々のHoTプロンプトは、既存のゼロショットCoTと比較してゼロショット推論タスクに大きな利点がある。
論文 参考訳(メタデータ) (2023-05-19T06:30:17Z) - SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。
我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。
我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-05-16T17:55:51Z) - Plan-and-Solve Prompting: Improving Zero-Shot Chain-of-Thought Reasoning
by Large Language Models [23.805926737723603]
大規模言語モデル(LLM)の推論ステップを生成するために、手作業でステップバイステップの推論デモを作成することができる。
Zero-shot-CoTs は LLM への入力プロンプトとして "Let's Think by Step" でターゲット問題文をプロンプトする。
提案したゼロショットのプロンプトが全データセットでゼロショットCoTをはるかに上回っていることを示す。
論文 参考訳(メタデータ) (2023-05-06T16:34:37Z) - PAL: Program-aided Language Models [112.94785609781503]
自然言語問題を理解するために,プログラム支援言語モデル(PaL)を提案する。
PaLはソリューションステップをPythonインタプリタのようなプログラムランタイムにオフロードする。
私たちは12のベンチマークで新しい最先端の結果を設定しました。
論文 参考訳(メタデータ) (2022-11-18T18:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。