論文の概要: GPT-4 Doesn't Know It's Wrong: An Analysis of Iterative Prompting for
Reasoning Problems
- arxiv url: http://arxiv.org/abs/2310.12397v1
- Date: Thu, 19 Oct 2023 00:56:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-20 17:26:51.558924
- Title: GPT-4 Doesn't Know It's Wrong: An Analysis of Iterative Prompting for
Reasoning Problems
- Title(参考訳): GPT-4は誤りを知らない: 推論問題に対する反復的プロンプトの解析
- Authors: Kaya Stechly, Matthew Marquez, Subbarao Kambhampati
- Abstract要約: 本稿では,グラフ着色事例の解決や候補着色点の正当性検証における GPT4 の性能に関する実証的研究について述べる。
本研究は,プロンプトの上位kの完備化において,正しい解が存在することによる有効性の増大が主な原因であることを示す。
- 参考スコア(独自算出の注目度): 16.284360949127723
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There has been considerable divergence of opinion on the reasoning abilities
of Large Language Models (LLMs). While the initial optimism that reasoning
might emerge automatically with scale has been tempered thanks to a slew of
counterexamples, a wide spread belief in their iterative self-critique
capabilities persists. In this paper, we set out to systematically investigate
the effectiveness of iterative prompting of LLMs in the context of Graph
Coloring, a canonical NP-complete reasoning problem that is related to
propositional satisfiability as well as practical problems like scheduling and
allocation. We present a principled empirical study of the performance of GPT4
in solving graph coloring instances or verifying the correctness of candidate
colorings. In iterative modes, we experiment with the model critiquing its own
answers and an external correct reasoner verifying proposed solutions. In both
cases, we analyze whether the content of the criticisms actually affects bottom
line performance. The study seems to indicate that (i) LLMs are bad at solving
graph coloring instances (ii) they are no better at verifying a solution--and
thus are not effective in iterative modes with LLMs critiquing LLM-generated
solutions (iii) the correctness and content of the criticisms--whether by LLMs
or external solvers--seems largely irrelevant to the performance of iterative
prompting. We show that the observed increase in effectiveness is largely due
to the correct solution being fortuitously present in the top-k completions of
the prompt (and being recognized as such by an external verifier). Our results
thus call into question claims about the self-critiquing capabilities of state
of the art LLMs.
- Abstract(参考訳): 大規模言語モデル(llm)の推論能力については、多くの意見が分かれている。
推論がスケールとともに自動的に現れるという最初の楽観主義は、反例の多さによって誘惑されたが、その反復的自己批判能力に対する広く信じられている。
本稿では,命題充足可能性に関連する正準np完全推論問題であるグラフカラー化の文脈におけるllmの反復的プロンプトの有効性とスケジューリングやアロケーションといった実用的な問題について体系的に検討する。
本稿では,グラフ着色事例の解決や候補着色精度の検証において,GPT4の性能に関する実証的研究を行った。
反復モードでは,自答を批判するモデルと,提案する解を検証する外部正解法を実験する。
いずれの場合も、批判の内容がボトムラインのパフォーマンスに実際に影響を及ぼすかどうかを分析する。
その研究はそれを示唆しているようだ
i) LLM はグラフカラー化の解決に不適である
(二) 解の検証は良くなく、かつ、LCM生成解を基準とした反復モードでは有効ではない。
(iii) 批判の正しさと内容--llms や外部解法によって---は、反復的プロンプトの実行とほとんど無関係である。
本研究は,プロンプトの上位kの完備化(外部検証器による認識)において,正しい解が存在することによる有効性の増大が主な原因であることを示す。
この結果から,LLMの自己評価能力について疑問が持たれている。
関連論文リスト
- Not All LLM Reasoners Are Created Equal [58.236453890457476]
小学校数学におけるLLMの解答能力の深さについて検討する。
既存の数式語問題に対して,それらの性能を併用して評価する。
論文 参考訳(メタデータ) (2024-10-02T17:01:10Z) - Deconfounded Causality-aware Parameter-Efficient Fine-Tuning for Problem-Solving Improvement of LLMs [12.48241058167222]
大規模言語モデル(LLM)は、人間の指示に基づいて様々なタスクに取り組む際に、顕著な効率性を示した。
しかし、数学や物理学の限界など、推論を必要とするタスクに苦しむことが研究によって明らかになっている。
このことは、LLMが組み込み知識を本当に理解しているか、それとも、コンテンツに対する真の理解なしにトークン分布を複製することを学ぶだけなのかという疑問を提起する。
モデルの推論能力を高めるために,新しいパラメータ効率細調整法であるDecon Causal Adaptation (DCA)を提案する。
論文 参考訳(メタデータ) (2024-09-04T13:17:09Z) - Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。
提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z) - When Can LLMs Actually Correct Their Own Mistakes? A Critical Survey of Self-Correction of LLMs [29.295135832861522]
自己補正(Self-correction)は、LLMを用いて推論中に応答を精製することで、大きな言語モデル(LLM)からの応答を改善するアプローチである。
これまでの作業では,自己評価や外部からのフィードバックなど,さまざまなフィードバック源を用いたさまざまな自己補正フレームワークが提案されていた。
我々は幅広い論文を批判的に調査し、自己補正を成功させるために必要な条件について議論する。
論文 参考訳(メタデータ) (2024-06-03T13:05:46Z) - On the Self-Verification Limitations of Large Language Models on Reasoning and Planning Tasks [17.329365493094542]
ゲーム・オブ・24(Game of 24)とグラフカラー化(Graph Coloring)とSTRIPSプランニング(STRIPS Planning)の3分野において,GPT-4の性能に関する実証的研究を行った。
我々は,自己批判による顕著なパフォーマンス崩壊と,音外検証による顕著なパフォーマンス向上を観察した。
論文 参考訳(メタデータ) (2024-02-12T23:11:01Z) - Self-Contrast: Better Reflection Through Inconsistent Solving Perspectives [45.87069217634753]
研究によると、外部からのフィードバックがなければ、Large Language Modelの本質的なリフレクションは不安定である。
我々の調査によると、重要なボトルネックは自己評価されたフィードバックの品質である。
要求に合わせて様々な解決の観点を適応的に探求し、相違点を対比し、これらの相違点を再検討し、相違点を排除するために使用できるチェックリストにまとめます。
論文 参考訳(メタデータ) (2024-01-04T00:32:33Z) - The ART of LLM Refinement: Ask, Refine, and Trust [85.75059530612882]
ART: Ask, Refine, and Trust と呼ばれる改良目標を用いた推論を提案する。
LLMがいつその出力を洗練すべきかを決めるために必要な質問を尋ねる。
自己補充ベースラインよりも+5ポイントの性能向上を達成する。
論文 参考訳(メタデータ) (2023-11-14T07:26:32Z) - A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。
本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文 参考訳(メタデータ) (2023-11-14T07:13:10Z) - Large Language Models Cannot Self-Correct Reasoning Yet [78.16697476530994]
LLM(Large Language Models)は、非並列テキスト生成機能を備えた画期的な技術として登場した。
生成したコンテンツの正確性と適切性に関する懸念が続いている。
現代の方法論である自己補正がこれらの問題に対する対策として提案されている。
論文 参考訳(メタデータ) (2023-10-03T04:56:12Z) - GraphReason: Enhancing Reasoning Capabilities of Large Language Models through A Graph-Based Verification Approach [0.0]
大きな言語モデル(LLM)は印象的な推論機能を示しています。
本稿では,LLMの推論能力をさらに向上するグラフベースの新しい手法を提案する。
論文 参考訳(メタデータ) (2023-08-18T03:12:59Z) - Automatically Correcting Large Language Models: Surveying the landscape
of diverse self-correction strategies [104.32199881187607]
大規模言語モデル(LLM)は、幅広いNLPタスクで顕著な性能を示した。
これらの欠陥を正すための有望なアプローチは自己補正であり、LLM自体が自身の出力で問題を修正するために誘導される。
本稿では,この新技術について概観する。
論文 参考訳(メタデータ) (2023-08-06T18:38:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。