論文の概要: Look Before You Leap: Problem Elaboration Prompting Improves
Mathematical Reasoning in Large Language Models
- arxiv url: http://arxiv.org/abs/2402.15764v1
- Date: Sat, 24 Feb 2024 08:40:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 17:00:40.740374
- Title: Look Before You Leap: Problem Elaboration Prompting Improves
Mathematical Reasoning in Large Language Models
- Title(参考訳): look before you leap: 大規模言語モデルの数学的推論を改善する問題解決
- Authors: Haoran Liao, Jidong Tian, Shaohua Hu, Hao He, Yaohui Jin
- Abstract要約: PEP(De problem Elaboration Prompting)という,LLMの数学的能力向上のための新しい手法を提案する。
PEPは、推論の前に問題コンテキストを分解し、解明し、グローバルなコンテキストモデリングを強化し、解析の難しさを軽減する。
データセットの実験は、複雑な推論における有望なパフォーマンスを示し、不整合問題に対する有益な影響を示す。
- 参考スコア(独自算出の注目度): 16.792230596813898
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models~(LLMs) have exhibited impressive performance across NLP
tasks. So far they still face challenges in complex reasoning tasks and can be
sensitive to input context. Despite significant efforts have been invested in
enhancing reasoning process and improving prefix-prompts robustness, the
crucial role of problem context has been overlooked. In this study, we propose
a new approach to improve the mathematical capacities of LLMs, named Problem
Elaboration Prompting~(PEP). Specifically, PEP decomposes and elucidates the
problem context before reasoning, thus enhancing the global context modeling
and reducing the parsing difficulties. Experiments on datasets demonstrate
promising performances on complex reasoning and indicate the beneficial impact
for ill-formed problems. For instance, with the GPT-3.5
model~(\texttt{text-davinci-003}), we observed a 9.93\% improvement with greedy
decoding and 8.80\% improvement with self-consistency on GSM8k compared to the
standard CoT. With ChatGPT~(\texttt{turbo}) and PEP, we achieve SOTA
performances on SVAMP with 86.2\% and GSM8k with 90.98\%.
- Abstract(参考訳): 大きな言語モデル~(LLM)は、NLPタスク全体で素晴らしいパフォーマンスを示している。
今のところ、複雑な推論タスクの課題に直面しており、入力コンテキストに敏感である。
推論プロセスの強化やプレフィックス・プロンプトの堅牢性向上に多大な努力が注がれているが、問題コンテキストの重要な役割は見過ごされている。
本研究では,LLMの数学的能力向上のための新しい手法を提案する。
具体的には、PEPは推論の前に問題コンテキストを分解、解明し、グローバルなコンテキストモデリングを強化し、解析の難しさを軽減する。
データセットの実験は、複雑な推論における有望なパフォーマンスを示し、不整合問題に対する有益な影響を示す。
例えば、GPT-3.5モデル~(\texttt{text-davinci-003})では、greedyデコードによる9.93\%の改善と、標準のCoTと比較してGSM8kでの自己整合性による8.80\%の改善が観察された。
ChatGPT~(\texttt{turbo})とPEPでは、SVAMPで86.2\%、GSM8kで90.98\%のSOTA性能を達成する。
関連論文リスト
- Self-Convinced Prompting: Few-Shot Question Answering with Repeated
Introspection [13.608076739368949]
本稿では,大規模事前学習型言語モデルの可能性を活用する新しいフレームワークを提案する。
我々のフレームワークは、典型的な数発の連鎖プロンプトの出力を処理し、応答の正しさを評価し、回答を精査し、最終的には新しい解を生成する。
論文 参考訳(メタデータ) (2023-10-08T06:36:26Z) - Extending the Frontier of ChatGPT: Code Generation and Debugging [0.0]
OpenAIが開発したChatGPTは,さまざまな問題領域に取り組むために人工知能(AI)を活用することによって,新たな時代を迎えている。
本稿では,ChatGPTのプログラミング問題に対する有効性について検討し,時間とメモリの複雑さの観点から,その解の正しさと効率性について検討する。
この研究は、ChatGPTが正しいソリューションを提供することができた問題の割合を示すため、総成功率は71.875%であることを示した。
論文 参考訳(メタデータ) (2023-07-17T06:06:58Z) - Pushing the Limits of ChatGPT on NLP Tasks [79.17291002710517]
ChatGPTの成功にもかかわらず、ほとんどのNLPタスクのパフォーマンスは教師付きベースラインよりかなり低い。
そこで本研究では,原因を調べた結果,以下の要因が原因であることが判明した。
NLPタスクにおけるChatGPTの限界を押し上げるために,これらの問題に対処する汎用モジュールの集合を提案する。
論文 参考訳(メタデータ) (2023-06-16T09:40:05Z) - Self-Polish: Enhance Reasoning in Large Language Models via Problem
Refinement [53.68527732113678]
本稿では,モデルの問題解決プロセスを容易にする新しい手法であるSelf-Polish(SP)を提案する。
SPは、無関係な情報を排除し、論理構造を再構成し、局所条件を新しいものに並列に整理するようにモデルに教える。
提案手法の有効性を明らかにするため,5つのベンチマークで徹底的な実験を行った。
論文 参考訳(メタデータ) (2023-05-23T19:58:30Z) - Text Classification via Large Language Models [63.1874290788797]
テキスト分類に関わる複雑な言語現象に対処するために、Clue And Reasoning Prompting (CARP)を導入する。
注目すべきは、CARPが5つの広く使用されているテキスト分類ベンチマークのうち4つで新しいSOTAパフォーマンスを得ることだ。
さらに重要なのは、CARPが低リソースとドメイン適応のセットアップで素晴らしい能力を提供します。
論文 参考訳(メタデータ) (2023-05-15T06:24:45Z) - Progressive-Hint Prompting Improves Reasoning in Large Language Models [45.667062653613456]
本稿では,プログレッシブ・ヒント・プロンプト(PHP)と呼ばれる新しいプロンプト手法を提案する。
事前に生成された回答をヒントとして使用することで、ユーザとLLM(Large Language Models)間の自動多元的対話を可能にする。
我々は7つのベンチマークで広範囲かつ包括的な実験を行った。その結果、PHPは高い効率を保ちながら精度を大幅に向上することが示された。
論文 参考訳(メタデータ) (2023-04-19T16:29:48Z) - How Robust is GPT-3.5 to Predecessors? A Comprehensive Study on Language
Understanding Tasks [65.7949334650854]
GPT-3.5モデルは様々な自然言語処理(NLP)タスクで顕著な性能を示した。
しかし、オープン世界の様々な複雑さに対処する堅牢性や能力はまだ検討されていない。
GPT-3.5は、不安定性、迅速な感度、数値感度など、いくつかの具体的な堅牢性課題に直面している。
論文 参考訳(メタデータ) (2023-03-01T07:39:01Z) - Is ChatGPT a General-Purpose Natural Language Processing Task Solver? [113.22611481694825]
大規模言語モデル(LLM)は、さまざまな自然言語処理(NLP)タスクをゼロショットで実行できることを実証している。
近年、ChatGPTのデビューは自然言語処理(NLP)コミュニティから大きな注目を集めている。
ChatGPTが多くのNLPタスクをゼロショットで実行できるジェネラリストモデルとして機能するかどうかはまだ分かっていない。
論文 参考訳(メタデータ) (2023-02-08T09:44:51Z) - Making Large Language Models Better Reasoners with Step-Aware Verifier [49.16750018427259]
DIVERSE(Diverse Verifier on Reasoning Step)は、言語モデルの推論能力をさらに強化する新しいアプローチである。
最新の言語モデルであるcode-davinci 上で DIVERSE を評価し,8つの推論ベンチマークのうち6つで新たな最先端結果が得られることを示す。
論文 参考訳(メタデータ) (2022-06-06T03:38:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。