論文の概要: On the Self-Verification Limitations of Large Language Models on
Reasoning and Planning Tasks
- arxiv url: http://arxiv.org/abs/2402.08115v1
- Date: Mon, 12 Feb 2024 23:11:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 17:05:06.445497
- Title: On the Self-Verification Limitations of Large Language Models on
Reasoning and Planning Tasks
- Title(参考訳): 推論・計画課題における大規模言語モデルの自己検証限界について
- Authors: Kaya Stechly, Karthik Valmeekam, Subbarao Kambhampati
- Abstract要約: ゲーム・オブ・24(Game of 24)とグラフカラー化(Graph Coloring)とSTRIPSプランニング(STRIPS Planning)の3分野において,GPT-4の性能に関する実証的研究を行った。
自己批判による顕著なパフォーマンス崩壊と,外部検証による顕著なパフォーマンス向上を観察するが,批判の内容がシステムの性能にどう影響するかは問わない。
- 参考スコア(独自算出の注目度): 19.476470154121188
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There has been considerable divergence of opinion on the reasoning abilities
of Large Language Models (LLMs). While the initial optimism that reasoning
might emerge automatically with scale has been tempered thanks to a slew of
counterexamples--ranging from multiplication to simple planning--there persists
a wide spread belief that LLMs can self-critique and improve their own
solutions in an iterative fashion. This belief seemingly rests on the
assumption that verification of correctness should be easier than generation--a
rather classical argument from computational complexity--which should be
irrelevant to LLMs to the extent that what they are doing is approximate
retrieval. In this paper, we set out to systematically investigate the
effectiveness of iterative prompting in the context of reasoning and planning.
We present a principled empirical study of the performance of GPT-4 in three
domains: Game of 24, Graph Coloring, and STRIPS planning. We experiment both
with the model critiquing its own answers and with an external correct reasoner
verifying proposed solutions. In each case, we analyze whether the content of
criticisms actually affects bottom line performance, and whether we can ablate
elements of the augmented system without losing performance. We observe
significant performance collapse with self-critique, significant performance
gains with sound external verification, but that the content of critique
doesn't matter to the performance of the system. In fact, merely re-prompting
with a sound verifier maintains most of the benefits of more involved setups.
- Abstract(参考訳): 大規模言語モデル(llm)の推論能力については、多くの意見が分かれている。
論法がスケールで自動的に現れるという最初の楽観主義は、乗法から単純な計画へと展開する反例の多さによって誘惑を受けてきたが、LLMが自己批判し、反復的な方法で独自のソリューションを改善できるという考えは広範に広まっている。
この信念は、正しさの検証は生成よりも容易であるべきだという仮定にかかっているように見える - 計算複雑性からのむしろ古典的な議論 - llmとは無関係で、彼らが行っていることは近似検索である。
本稿では,推論と計画の文脈における反復的プロンプトの有効性を体系的に検討する。
本報告では,gpt-4の3つの領域における性能に関する原理実証研究として,24のゲーム,グラフ彩色,ストリップ計画について述べる。
我々は,自答を批判するモデルと,提案する解の検証を行う外部正解法を用いて実験を行った。
いずれの場合も,批判の内容がボトムラインのパフォーマンスに実際に影響を及ぼすのか,また,性能を損なうことなく拡張システムの要素を省略できるのかを分析した。
我々は,自己批判による著しいパフォーマンス崩壊,健全な外部検証による大幅なパフォーマンス向上を観察するが,批判の内容はシステムのパフォーマンスに関係しない。
実際、単にサウンド検証器で再入力するだけで、より関連するセットアップの利点のほとんどを維持できる。
関連論文リスト
- Reflective Instruction Tuning: Mitigating Hallucinations in Large Vision-Language Models [36.119299938503936]
大規模視覚言語モデル(LVLM)は様々な視覚言語タスクにおいて有望な性能を示す。
幻覚に敏感であり、視覚内容や指示と不一致な出力を生成する。
本稿では,理科学習を視覚的指導調律に統合した反射的指導調律を提案する。
論文 参考訳(メタデータ) (2024-07-16T06:32:45Z) - Small Language Models Need Strong Verifiers to Self-Correct Reasoning [69.94251699982388]
大規模言語モデル(LLM)の推論性能を高めるための有望なソリューションとして自己補正が登場した。
この研究は、小さい(=13B)言語モデル(LM)が、より強いLMから最小の入力で推論タスクを自己補正できるかどうかを考察する。
論文 参考訳(メタデータ) (2024-04-26T03:41:28Z) - Distilling Reasoning Ability from Large Language Models with Adaptive Thinking [54.047761094420174]
思考の微調整(cot-finetuning)の連鎖は、小さな言語モデル(SLM)を特定のタスクに対するパフォーマンス向上の推論能力で実現することを目的としている。
既存のコトファインタニング法の多くは事前に考えられたメカニズムを採用しており、SLMは答えを出す前に理性を生成することができる。
このメカニズムにより、SLMは複雑な質問を分析して考えることができるが、答えの正しさは論理的に小さな誤りに非常に敏感になる。
理性よりも先に回答を生成するための頑健な後思考機構を提案する。
論文 参考訳(メタデータ) (2024-04-14T07:19:27Z) - Learning From Correctness Without Prompting Makes LLM Efficient Reasoner [30.203952806009717]
大規模言語モデル(LLM)は様々なタスクで優れた性能を示してきたが、幻覚、不誠実な推論、有害な内容などの制限がまだ残っている。
人間のフィードバックや外部ツール,手工芸のプロンプトを不要にする,本質的な自己修正推論フレームワークをLLMに導入する。
論文 参考訳(メタデータ) (2024-03-28T02:12:49Z) - The ART of LLM Refinement: Ask, Refine, and Trust [85.75059530612882]
ART: Ask, Refine, and Trust と呼ばれる改良目標を用いた推論を提案する。
LLMがいつその出力を洗練すべきかを決めるために必要な質問を尋ねる。
自己補充ベースラインよりも+5ポイントの性能向上を達成する。
論文 参考訳(メタデータ) (2023-11-14T07:26:32Z) - A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。
本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文 参考訳(メタデータ) (2023-11-14T07:13:10Z) - Sentiment Analysis through LLM Negotiations [58.67939611291001]
感情分析の標準的なパラダイムは、単一のLCMに依存して、その決定を1ラウンドで行うことである。
本稿では,感情分析のためのマルチLLMネゴシエーションフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-03T12:35:29Z) - GPT-4 Doesn't Know It's Wrong: An Analysis of Iterative Prompting for
Reasoning Problems [16.284360949127723]
本稿では,グラフ着色事例の解決や候補着色点の正当性検証における GPT4 の性能に関する実証的研究について述べる。
本研究は,プロンプトの上位kの完備化において,正しい解が存在することによる有効性の増大が主な原因であることを示す。
論文 参考訳(メタデータ) (2023-10-19T00:56:37Z) - Can Large Language Models Really Improve by Self-critiquing Their Own
Plans? [19.476470154121188]
本研究では,大規模言語モデルの検証・評価能力について,計画の文脈で検討する。
現状のLCMであるGPT-4を用いて, 自己評価が計画生成性能を低下させることが明らかとなった。
論文 参考訳(メタデータ) (2023-10-12T08:22:37Z) - Concise and Organized Perception Facilitates Reasoning in Large Language Models [32.71672086718057]
大規模言語モデル (LLM) は, 推論作業における乱雑な内容や無関係な内容を扱う際に, 人間の認知バイアスに類似した障害パターンを示す。
コンシス・アンド・オーガナイズド・パーセプション(COP)という新しい推論手法を提案する。
COPは与えられたステートメントを慎重に分析し、冗長性を効率的に排除しながら、最も関連する情報を識別する。
論文 参考訳(メタデータ) (2023-10-05T04:47:49Z) - Large Language Models Cannot Self-Correct Reasoning Yet [78.16697476530994]
LLM(Large Language Models)は、非並列テキスト生成機能を備えた画期的な技術として登場した。
生成したコンテンツの正確性と適切性に関する懸念が続いている。
現代の方法論である自己補正がこれらの問題に対する対策として提案されている。
論文 参考訳(メタデータ) (2023-10-03T04:56:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。