Fugu-MT 論文翻訳(概要): Least-to-Most Prompting Enables Complex Reasoning in Large Language Models

論文の概要: Least-to-Most Prompting Enables Complex Reasoning in Large Language Models

arxiv url: http://arxiv.org/abs/2205.10625v3
Date: Sun, 16 Apr 2023 22:08:08 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-19 00:41:55.169893
Title: Least-to-Most Prompting Enables Complex Reasoning in Large Language Models
Title（参考訳）: 大規模言語モデルにおけるLast-to-Most Promptingによる複雑な推論
Authors: Denny Zhou, Nathanael Sch\"arli, Le Hou, Jason Wei, Nathan Scales, Xuezhi Wang, Dale Schuurmans, Claire Cui, Olivier Bousquet, Quoc Le, Ed Chi
Abstract要約: 本稿では, 難解な一般化の課題を克服するために, 最小限のプロンプト戦略を提案する。最小限のプロンプトは、プロンプトで見られるものよりも難しい問題に一般化可能であることを示す。 SCANの解決を専門とする文献におけるニューラルシンボリックモデルは、15,000以上のサンプルを含むトレーニングセット全体をトレーニングする。
参考スコア（独自算出の注目度）: 52.59923418570378
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Chain-of-thought prompting has demonstrated remarkable performance on various natural language reasoning tasks. However, it tends to perform poorly on tasks which requires solving problems harder than the exemplars shown in the prompts. To overcome this challenge of easy-to-hard generalization, we propose a novel prompting strategy, least-to-most prompting. The key idea in this strategy is to break down a complex problem into a series of simpler subproblems and then solve them in sequence. Solving each subproblem is facilitated by the answers to previously solved subproblems. Our experimental results on tasks related to symbolic manipulation, compositional generalization, and math reasoning reveal that least-to-most prompting is capable of generalizing to more difficult problems than those seen in the prompts. A notable finding is that when the GPT-3 code-davinci-002 model is used with least-to-most prompting, it can solve the compositional generalization benchmark SCAN in any split (including length split) with an accuracy of at least 99% using just 14 exemplars, compared to only 16% accuracy with chain-of-thought prompting. This is particularly noteworthy because neural-symbolic models in the literature that specialize in solving SCAN are trained on the entire training set containing over 15,000 examples. We have included prompts for all the tasks in the Appendix.
Abstract（参考訳）: 思考の連鎖は様々な自然言語推論タスクにおいて顕著な性能を示した。しかし、プロンプトに示される例よりも、問題解決が難しいタスクでは、パフォーマンスが悪くなる傾向にある。この難易度一般化の課題を克服するため、我々は、最小限のプロンプト戦略を提案する。この戦略の重要なアイデアは、複雑な問題を一連の単純な部分問題に分解し、それらを連続して解くことである。各サブプロブレムの解決は、以前に解決されたサブプロブレムに対する回答によって促進される。記号操作, 構成一般化, 数学推論に関わる課題に関する実験結果から, 最小限のプロンプトは, プロンプトで見られるよりも難しい問題に一般化できることがわかった。注目すべき発見は、GPT-3 のコード-ダヴィンチ-002 モデルが最低限のプロンプトで使用される場合、14の例を用いて少なくとも99%の精度で合成一般化ベンチマークSCANを解き、チェーン・オブ・シンセサイティングではわずか16%の精度で解けることである。スキャンの解決を専門とする文献のニューラルシンボリックモデルは、15,000以上のサンプルを含むトレーニングセット全体でトレーニングされるため、これは特に注目に値する。 Appendixのすべてのタスクに対するプロンプトも含んでいます。

関連論文リスト

Frontier LLMs Still Struggle with Simple Reasoning Tasks [53.497499123166804]
この研究は、フロンティア言語モデルの性能を、幅広い「容易」推論問題に対して研究する。計算,一階述語論理,証明木,旅行計画など,手続き的に生成された単純な推論タスクのスイートを作成します。最先端の思考モデルでさえ、このような問題や同様の理由で一貫して失敗することを示します。
論文参考訳（メタデータ） (2025-07-09T22:22:49Z)
How Well do LLMs Compress Their Own Chain-of-Thought? A Token Complexity Approach [4.055489363682199]
推論長とモデル性能の関係について,最初の系統的研究を行った。このトレードオフは、非常に明確な推論チェーンにまたがって持続することを示す。提案手法は, 理論的な限界から遠く離れていることを示す。
論文参考訳（メタデータ） (2025-03-03T03:48:20Z)
Why is prompting hard? Understanding prompts on binary sequence predictors [19.855572748273236]
大規模言語モデル(LLM)は多くのタスクを実行するように促すことができる。良いプロンプトを見つけることは必ずしも容易ではないし、パフォーマンスのプロンプトを理解するのも容易ではない。
論文参考訳（メタデータ） (2025-02-15T10:55:47Z)
Task Facet Learning: A Structured Approach to Prompt Optimization [13.423478909210353]
本稿では,タスクの複数の面をトレーニング例から学習するアルゴリズムを提案する。提案アルゴリズムであるUniPromptは、入力空間をクラスタ化し、クラスタ化されたバッチを使用する。複数のデータセットと実世界のタスクに対する経験的評価は、ショートネームを用いて生成されたプロンプトが、人間のチューニングしたプロンプトと最先端の手法によるプロンプトよりも高い精度が得られることを示している。
論文参考訳（メタデータ） (2024-06-15T04:54:26Z)
Chain of Thoughtlessness? An Analysis of CoT in Planning [17.329365493094542]
推論問題におけるLLM(Large Language Model)のパフォーマンスは通常、分布から一般化しない。本稿では,古典的計画領域であるBlocksworldの問題に対する思考連鎖のケーススタディを示す。それらのプロンプトが問題クラスに特有である場合、一連の思考プロンプトから有意義なパフォーマンス改善が得られます。
論文参考訳（メタデータ） (2024-05-08T02:48:28Z)
An Examination on the Effectiveness of Divide-and-Conquer Prompting in Large Language Models [28.139780691709266]
本研究では,DACプロンプトが性能向上に寄与する特定のタスクの特定を支援する。実験結果が理論解析と一致した2つのケース(大整数算術と実数検証)を提示する。
論文参考訳（メタデータ） (2024-02-08T02:37:30Z)
A Hybrid System for Systematic Generalization in Simple Arithmetic Problems [70.91780996370326]
本稿では,記号列に対する合成的および体系的推論を必要とする算術的問題を解くことができるハイブリッドシステムを提案する。提案システムは,最も単純なケースを含むサブセットでのみ訓練された場合においても,ネストした数式を正確に解くことができることを示す。
論文参考訳（メタデータ） (2023-06-29T18:35:41Z)
Faith and Fate: Limits of Transformers on Compositionality [109.79516190693415]
3つの代表的構成課題にまたがる変圧器大言語モデルの限界について検討する。これらのタスクは、問題をサブステップに分割し、これらのステップを正確な答えに合成する必要があります。実験結果から,多段階合成推論を線形化部分グラフマッチングに還元することにより,トランスフォーマーLLMが構成課題を解くことが示唆された。
論文参考訳（メタデータ） (2023-05-29T23:24:14Z)
Successive Prompting for Decomposing Complex Questions [50.00659445976735]
最近の研究は、大規模言語モデル(LM)の機能を活用して、数ショットで複雑な質問応答を行う。そこでは、複雑なタスクを単純なタスクに繰り返し分解し、それを解決し、最終解を得るまでプロセスを繰り返します。我々の最良のモデル(逐次プロンプト付き)は、DROPデータセットの数ショットバージョンにおいて、5%の絶対F1の改善を実現します。
論文参考訳（メタデータ） (2022-12-08T06:03:38Z)
PAL: Program-aided Language Models [112.94785609781503]
自然言語問題を理解するために,プログラム支援言語モデル(PaL)を提案する。 PaLはソリューションステップをPythonインタプリタのようなプログラムランタイムにオフロードする。私たちは12のベンチマークで新しい最先端の結果を設定しました。
論文参考訳（メタデータ） (2022-11-18T18:56:13Z)
Complexity-Based Prompting for Multi-Step Reasoning [72.0057198610614]
大規模言語モデルに対して,多段階推論を行うための課題について検討する。中心的な疑問は、どの推論例が最も効果的なプロンプトを作るかである。多段階推論のためのシンプルで効果的な例選択方式である複雑性ベースのプロンプトを提案する。
論文参考訳（メタデータ） (2022-10-03T05:33:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。