論文の概要: Can Large Language Models Really Improve by Self-critiquing Their Own
Plans?
- arxiv url: http://arxiv.org/abs/2310.08118v1
- Date: Thu, 12 Oct 2023 08:22:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-14 12:23:33.307994
- Title: Can Large Language Models Really Improve by Self-critiquing Their Own
Plans?
- Title(参考訳): 大規模言語モデルは、独自のプランを自己記述することによって、本当に改善できるのか?
- Authors: Karthik Valmeekam, Matthew Marquez, Subbarao Kambhampati
- Abstract要約: 本研究では,大規模言語モデルの検証・評価能力について,計画の文脈で検討する。
現状のLCMであるGPT-4を用いて, 自己評価が計画生成性能を低下させることが明らかとなった。
- 参考スコア(独自算出の注目度): 19.476470154121188
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There have been widespread claims about Large Language Models (LLMs) being
able to successfully verify or self-critique their candidate solutions in
reasoning problems in an iterative mode. Intrigued by those claims, in this
paper we set out to investigate the verification/self-critiquing abilities of
large language models in the context of planning. We evaluate a planning system
that employs LLMs for both plan generation and verification. We assess the
verifier LLM's performance against ground-truth verification, the impact of
self-critiquing on plan generation, and the influence of varying feedback
levels on system performance. Using GPT-4, a state-of-the-art LLM, for both
generation and verification, our findings reveal that self-critiquing appears
to diminish plan generation performance, especially when compared to systems
with external, sound verifiers and the LLM verifiers in that system produce a
notable number of false positives, compromising the system's reliability.
Additionally, the nature of feedback, whether binary or detailed, showed
minimal impact on plan generation. Collectively, our results cast doubt on the
effectiveness of LLMs in a self-critiquing, iterative framework for planning
tasks.
- Abstract(参考訳): LLM(Large Language Models)は、反復的モードの問題を推論する上で、候補ソリューションの検証や自己批判に成功できるという主張が広まっている。
これらの主張に興味をそそられ,本稿では,大規模言語モデルの検証/自己批判能力について,計画の文脈で検討する。
計画生成と検証の両方にLLMを利用する計画システムを評価する。
検証者llmの地上検証に対する性能,自己批判が計画生成に与える影響,フィードバックレベルの変化がシステム性能に及ぼす影響を評価した。
現状のLCMであるGPT-4を用いて、外部の音響検証器やLPM検証器を用いたシステムと比較して、自己評価がプラン生成性能を低下させることが明らかとなり、システムの信頼性を損なう結果となった。
さらに、バイナリであれ詳細であれ、フィードバックの性質は、計画生成に最小限の影響しか示さなかった。
本研究の結果は,自己記述型反復型枠組みにおけるLCMの有効性に疑問を呈するものである。
関連論文リスト
- Embodied Agent Interface: Benchmarking LLMs for Embodied Decision Making [85.24399869971236]
我々は,大規模言語モデル(LLM)を具体的意思決定のために評価することを目指している。
既存の評価は最終的な成功率にのみ依存する傾向がある。
本稿では,様々なタスクの形式化を支援する汎用インタフェース (Embodied Agent Interface) を提案する。
論文 参考訳(メタデータ) (2024-10-09T17:59:00Z) - Can We Rely on LLM Agents to Draft Long-Horizon Plans? Let's Take TravelPlanner as an Example [3.102303947219617]
大規模言語モデル(LLM)は、自律エージェントを人工知能(AGI)に近づけた
そこで本研究では,エージェントが複数の制約を満たして正確な計画を生成する,現実的なベンチマークであるTravelPlannerを用いて検討を行った。
論文 参考訳(メタデータ) (2024-08-12T17:39:01Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - Exploring and Benchmarking the Planning Capabilities of Large Language Models [57.23454975238014]
この研究は、大規模言語モデル(LLM)の計画能力を改善するための基礎を築いた。
我々は、古典的な計画ベンチマークと自然言語シナリオの両方を含む包括的なベンチマークスイートを構築した。
本研究は,LLM計画の強化を目的としたマルチショットインコンテキスト学習について検討し,文脈長の増大と計画性能の向上の関係について検討する。
論文 参考訳(メタデータ) (2024-06-18T22:57:06Z) - Evaluating Uncertainty-based Failure Detection for Closed-Loop LLM Planners [10.746821861109176]
大型言語モデル(LLM)は、ロボットタスクのためのゼロショットタスクプランナーとして、目覚ましいパフォーマンスをみせている。
しかし、以前の研究のオープンループの性質は、LSMベースの計画がエラーを起こしやすく、脆弱である。
本研究では,不確実性に基づくMLLM故障検出装置をベースとした,閉ループLLMに基づくKnowLoop計画のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-01T12:52:06Z) - Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [70.09561665520043]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。
強化学習における重み付き回帰を多エージェントシステムに拡張して理論的解析を行う。
Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文 参考訳(メタデータ) (2024-05-23T08:33:19Z) - On the Self-Verification Limitations of Large Language Models on Reasoning and Planning Tasks [17.329365493094542]
ゲーム・オブ・24(Game of 24)とグラフカラー化(Graph Coloring)とSTRIPSプランニング(STRIPS Planning)の3分野において,GPT-4の性能に関する実証的研究を行った。
我々は,自己批判による顕著なパフォーマンス崩壊と,音外検証による顕著なパフォーマンス向上を観察した。
論文 参考訳(メタデータ) (2024-02-12T23:11:01Z) - Automatically Correcting Large Language Models: Surveying the landscape
of diverse self-correction strategies [104.32199881187607]
大規模言語モデル(LLM)は、幅広いNLPタスクで顕著な性能を示した。
これらの欠陥を正すための有望なアプローチは自己補正であり、LLM自体が自身の出力で問題を修正するために誘導される。
本稿では,この新技術について概観する。
論文 参考訳(メタデータ) (2023-08-06T18:38:52Z) - On the Planning Abilities of Large Language Models : A Critical
Investigation [34.262740442260515]
我々は,LLMがコモンセンス計画タスクにおいて自律的に計画を作成する上での有効性を評価する。
LLM-Modulo設定では、LLM生成したプランは、基礎となる音響プランナの探索プロセスを改善することができることを示す。
論文 参考訳(メタデータ) (2023-05-25T06:32:23Z) - On the Risk of Misinformation Pollution with Large Language Models [127.1107824751703]
本稿では,現代大規模言語モデル (LLM) の誤用の可能性について検討する。
本研究は, LLMが効果的な誤情報発生器として機能し, DOQAシステムの性能が著しく低下することを明らかにする。
論文 参考訳(メタデータ) (2023-05-23T04:10:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。