論文の概要: On the Self-Verification Limitations of Large Language Models on
Reasoning and Planning Tasks
- arxiv url: http://arxiv.org/abs/2402.08115v1
- Date: Mon, 12 Feb 2024 23:11:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 17:05:06.445497
- Title: On the Self-Verification Limitations of Large Language Models on
Reasoning and Planning Tasks
- Title(参考訳): 推論・計画課題における大規模言語モデルの自己検証限界について
- Authors: Kaya Stechly, Karthik Valmeekam, Subbarao Kambhampati
- Abstract要約: ゲーム・オブ・24(Game of 24)とグラフカラー化(Graph Coloring)とSTRIPSプランニング(STRIPS Planning)の3分野において,GPT-4の性能に関する実証的研究を行った。
自己批判による顕著なパフォーマンス崩壊と,外部検証による顕著なパフォーマンス向上を観察するが,批判の内容がシステムの性能にどう影響するかは問わない。
- 参考スコア(独自算出の注目度): 19.476470154121188
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There has been considerable divergence of opinion on the reasoning abilities
of Large Language Models (LLMs). While the initial optimism that reasoning
might emerge automatically with scale has been tempered thanks to a slew of
counterexamples--ranging from multiplication to simple planning--there persists
a wide spread belief that LLMs can self-critique and improve their own
solutions in an iterative fashion. This belief seemingly rests on the
assumption that verification of correctness should be easier than generation--a
rather classical argument from computational complexity--which should be
irrelevant to LLMs to the extent that what they are doing is approximate
retrieval. In this paper, we set out to systematically investigate the
effectiveness of iterative prompting in the context of reasoning and planning.
We present a principled empirical study of the performance of GPT-4 in three
domains: Game of 24, Graph Coloring, and STRIPS planning. We experiment both
with the model critiquing its own answers and with an external correct reasoner
verifying proposed solutions. In each case, we analyze whether the content of
criticisms actually affects bottom line performance, and whether we can ablate
elements of the augmented system without losing performance. We observe
significant performance collapse with self-critique, significant performance
gains with sound external verification, but that the content of critique
doesn't matter to the performance of the system. In fact, merely re-prompting
with a sound verifier maintains most of the benefits of more involved setups.
- Abstract(参考訳): 大規模言語モデル(llm)の推論能力については、多くの意見が分かれている。
論法がスケールで自動的に現れるという最初の楽観主義は、乗法から単純な計画へと展開する反例の多さによって誘惑を受けてきたが、LLMが自己批判し、反復的な方法で独自のソリューションを改善できるという考えは広範に広まっている。
この信念は、正しさの検証は生成よりも容易であるべきだという仮定にかかっているように見える - 計算複雑性からのむしろ古典的な議論 - llmとは無関係で、彼らが行っていることは近似検索である。
本稿では,推論と計画の文脈における反復的プロンプトの有効性を体系的に検討する。
本報告では,gpt-4の3つの領域における性能に関する原理実証研究として,24のゲーム,グラフ彩色,ストリップ計画について述べる。
我々は,自答を批判するモデルと,提案する解の検証を行う外部正解法を用いて実験を行った。
いずれの場合も,批判の内容がボトムラインのパフォーマンスに実際に影響を及ぼすのか,また,性能を損なうことなく拡張システムの要素を省略できるのかを分析した。
我々は,自己批判による著しいパフォーマンス崩壊,健全な外部検証による大幅なパフォーマンス向上を観察するが,批判の内容はシステムのパフォーマンスに関係しない。
実際、単にサウンド検証器で再入力するだけで、より関連するセットアップの利点のほとんどを維持できる。
関連論文リスト
- Debiasing Large Visual Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。
これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - Premise Order Matters in Reasoning with Large Language Models [62.474338448731345]
大規模言語モデル (LLM) は,前提の順序に驚くほど脆弱であることを示す。
前提順序が中間的推論ステップで要求されるコンテキストと一致した場合, LLM が最高の性能を達成することを観察する。
論文 参考訳(メタデータ) (2024-02-14T04:50:18Z) - The ART of LLM Refinement: Ask, Refine, and Trust [85.75059530612882]
ART: Ask, Refine, and Trust と呼ばれる改良目標を用いた推論を提案する。
LLMがいつその出力を洗練すべきかを決めるために必要な質問を尋ねる。
自己補充ベースラインよりも+5ポイントの性能向上を達成する。
論文 参考訳(メタデータ) (2023-11-14T07:26:32Z) - A Closer Look at the Self-Verification Abilities of Large Language
Models in Logical Reasoning [79.14479982371984]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。
本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文 参考訳(メタデータ) (2023-11-14T07:13:10Z) - Sentiment Analysis through LLM Negotiations [58.67939611291001]
感情分析の標準的なパラダイムは、単一のLCMに依存して、その決定を1ラウンドで行うことである。
本稿では,感情分析のためのマルチLLMネゴシエーションフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-03T12:35:29Z) - GPT-4 Doesn't Know It's Wrong: An Analysis of Iterative Prompting for
Reasoning Problems [16.284360949127723]
本稿では,グラフ着色事例の解決や候補着色点の正当性検証における GPT4 の性能に関する実証的研究について述べる。
本研究は,プロンプトの上位kの完備化において,正しい解が存在することによる有効性の増大が主な原因であることを示す。
論文 参考訳(メタデータ) (2023-10-19T00:56:37Z) - Can Large Language Models Really Improve by Self-critiquing Their Own
Plans? [19.476470154121188]
本研究では,大規模言語モデルの検証・評価能力について,計画の文脈で検討する。
現状のLCMであるGPT-4を用いて, 自己評価が計画生成性能を低下させることが明らかとなった。
論文 参考訳(メタデータ) (2023-10-12T08:22:37Z) - Large Language Models Cannot Self-Correct Reasoning Yet [78.16697476530994]
LLM(Large Language Models)は、非並列テキスト生成機能を備えた画期的な技術として登場した。
生成したコンテンツの正確性と適切性に関する懸念が続いている。
現代の方法論である自己補正がこれらの問題に対する対策として提案されている。
論文 参考訳(メタデータ) (2023-10-03T04:56:12Z) - Faithful Reasoning Using Large Language Models [12.132449274592668]
因果構造が問題の根底にある論理構造を反映するプロセスを通じて、LMを忠実な多段階推論を行う方法を示す。
我々の手法は、各ステップが2つの微調整されたLMへの呼び出しから得られる推論ステップをチェーンすることで機能する。
我々は,多段階論理推論と科学的質問応答におけるモデルの有効性を実証し,最終的な解答精度のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-08-30T13:44:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。