論文の概要: Least-to-Most Prompting Enables Complex Reasoning in Large Language
Models
- arxiv url: http://arxiv.org/abs/2205.10625v3
- Date: Sun, 16 Apr 2023 22:08:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-19 00:41:55.169893
- Title: Least-to-Most Prompting Enables Complex Reasoning in Large Language
Models
- Title(参考訳): 大規模言語モデルにおけるLast-to-Most Promptingによる複雑な推論
- Authors: Denny Zhou, Nathanael Sch\"arli, Le Hou, Jason Wei, Nathan Scales,
Xuezhi Wang, Dale Schuurmans, Claire Cui, Olivier Bousquet, Quoc Le, Ed Chi
- Abstract要約: 本稿では, 難解な一般化の課題を克服するために, 最小限のプロンプト戦略を提案する。
最小限のプロンプトは、プロンプトで見られるものよりも難しい問題に一般化可能であることを示す。
SCANの解決を専門とする文献におけるニューラルシンボリックモデルは、15,000以上のサンプルを含むトレーニングセット全体をトレーニングする。
- 参考スコア(独自算出の注目度): 52.59923418570378
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chain-of-thought prompting has demonstrated remarkable performance on various
natural language reasoning tasks. However, it tends to perform poorly on tasks
which requires solving problems harder than the exemplars shown in the prompts.
To overcome this challenge of easy-to-hard generalization, we propose a novel
prompting strategy, least-to-most prompting. The key idea in this strategy is
to break down a complex problem into a series of simpler subproblems and then
solve them in sequence. Solving each subproblem is facilitated by the answers
to previously solved subproblems. Our experimental results on tasks related to
symbolic manipulation, compositional generalization, and math reasoning reveal
that least-to-most prompting is capable of generalizing to more difficult
problems than those seen in the prompts. A notable finding is that when the
GPT-3 code-davinci-002 model is used with least-to-most prompting, it can solve
the compositional generalization benchmark SCAN in any split (including length
split) with an accuracy of at least 99% using just 14 exemplars, compared to
only 16% accuracy with chain-of-thought prompting. This is particularly
noteworthy because neural-symbolic models in the literature that specialize in
solving SCAN are trained on the entire training set containing over 15,000
examples. We have included prompts for all the tasks in the Appendix.
- Abstract(参考訳): 思考の連鎖は様々な自然言語推論タスクにおいて顕著な性能を示した。
しかし、プロンプトに示される例よりも、問題解決が難しいタスクでは、パフォーマンスが悪くなる傾向にある。
この難易度一般化の課題を克服するため、我々は、最小限のプロンプト戦略を提案する。
この戦略の重要なアイデアは、複雑な問題を一連の単純な部分問題に分解し、それらを連続して解くことである。
各サブプロブレムの解決は、以前に解決されたサブプロブレムに対する回答によって促進される。
記号操作, 構成一般化, 数学推論に関わる課題に関する実験結果から, 最小限のプロンプトは, プロンプトで見られるよりも難しい問題に一般化できることがわかった。
注目すべき発見は、GPT-3 のコード-ダヴィンチ-002 モデルが最低限のプロンプトで使用される場合、14の例を用いて少なくとも99%の精度で合成一般化ベンチマークSCANを解き、チェーン・オブ・シンセサイティングではわずか16%の精度で解けることである。
スキャンの解決を専門とする文献のニューラルシンボリックモデルは、15,000以上のサンプルを含むトレーニングセット全体でトレーニングされるため、これは特に注目に値する。
Appendixのすべてのタスクに対するプロンプトも含んでいます。
関連論文リスト
- Chain of Thoughtlessness? An Analysis of CoT in Planning [17.329365493094542]
推論問題におけるLLM(Large Language Model)のパフォーマンスは通常、分布から一般化しない。
本稿では,古典的計画領域であるBlocksworldの問題に対する思考連鎖のケーススタディを示す。
それらのプロンプトが問題クラスに特有である場合、一連の思考プロンプトから有意義なパフォーマンス改善が得られます。
論文 参考訳(メタデータ) (2024-05-08T02:48:28Z) - An Examination on the Effectiveness of Divide-and-Conquer Prompting in Large Language Models [28.139780691709266]
本研究では,DACプロンプトが性能向上に寄与する特定のタスクの特定を支援する。
実験結果が理論解析と一致した2つのケース(大整数算術と実数検証)を提示する。
論文 参考訳(メタデータ) (2024-02-08T02:37:30Z) - A Hybrid System for Systematic Generalization in Simple Arithmetic
Problems [70.91780996370326]
本稿では,記号列に対する合成的および体系的推論を必要とする算術的問題を解くことができるハイブリッドシステムを提案する。
提案システムは,最も単純なケースを含むサブセットでのみ訓練された場合においても,ネストした数式を正確に解くことができることを示す。
論文 参考訳(メタデータ) (2023-06-29T18:35:41Z) - Faith and Fate: Limits of Transformers on Compositionality [109.79516190693415]
3つの代表的構成課題にまたがる変圧器大言語モデルの限界について検討する。
これらのタスクは、問題をサブステップに分割し、これらのステップを正確な答えに合成する必要があります。
実験結果から,多段階合成推論を線形化部分グラフマッチングに還元することにより,トランスフォーマーLLMが構成課題を解くことが示唆された。
論文 参考訳(メタデータ) (2023-05-29T23:24:14Z) - Successive Prompting for Decomposing Complex Questions [50.00659445976735]
最近の研究は、大規模言語モデル(LM)の機能を活用して、数ショットで複雑な質問応答を行う。
そこでは、複雑なタスクを単純なタスクに繰り返し分解し、それを解決し、最終解を得るまでプロセスを繰り返します。
我々の最良のモデル(逐次プロンプト付き)は、DROPデータセットの数ショットバージョンにおいて、5%の絶対F1の改善を実現します。
論文 参考訳(メタデータ) (2022-12-08T06:03:38Z) - PAL: Program-aided Language Models [112.94785609781503]
自然言語問題を理解するために,プログラム支援言語モデル(PaL)を提案する。
PaLはソリューションステップをPythonインタプリタのようなプログラムランタイムにオフロードする。
私たちは12のベンチマークで新しい最先端の結果を設定しました。
論文 参考訳(メタデータ) (2022-11-18T18:56:13Z) - Complexity-Based Prompting for Multi-Step Reasoning [72.0057198610614]
大規模言語モデルに対して,多段階推論を行うための課題について検討する。
中心的な疑問は、どの推論例が最も効果的なプロンプトを作るかである。
多段階推論のためのシンプルで効果的な例選択方式である複雑性ベースのプロンプトを提案する。
論文 参考訳(メタデータ) (2022-10-03T05:33:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。