論文の概要: On the Planning Abilities of Large Language Models : A Critical
Investigation
- arxiv url: http://arxiv.org/abs/2305.15771v2
- Date: Mon, 6 Nov 2023 07:00:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 22:30:33.208886
- Title: On the Planning Abilities of Large Language Models : A Critical
Investigation
- Title(参考訳): 大規模言語モデルの計画能力について : 批判的考察
- Authors: Karthik Valmeekam, Matthew Marquez, Sarath Sreedharan, Subbarao
Kambhampati
- Abstract要約: 我々は,LLMがコモンセンス計画タスクにおいて自律的に計画を作成する上での有効性を評価する。
LLM-Modulo設定では、LLM生成したプランは、基礎となる音響プランナの探索プロセスを改善することができることを示す。
- 参考スコア(独自算出の注目度): 34.262740442260515
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Intrigued by the claims of emergent reasoning capabilities in LLMs trained on
general web corpora, in this paper, we set out to investigate their planning
capabilities. We aim to evaluate (1) the effectiveness of LLMs in generating
plans autonomously in commonsense planning tasks and (2) the potential of LLMs
in LLM-Modulo settings where they act as a source of heuristic guidance for
external planners and verifiers. We conduct a systematic study by generating a
suite of instances on domains similar to the ones employed in the International
Planning Competition and evaluate LLMs in two distinct modes: autonomous and
heuristic. Our findings reveal that LLMs' ability to generate executable plans
autonomously is rather limited, with the best model (GPT-4) having an average
success rate of ~12% across the domains. However, the results in the LLM-Modulo
setting show more promise. In the LLM-Modulo setting, we demonstrate that
LLM-generated plans can improve the search process for underlying sound
planners and additionally show that external verifiers can help provide
feedback on the generated plans and back-prompt the LLM for better plan
generation.
- Abstract(参考訳): 本稿では,一般ウェブコーパスで学習したLCMにおける創発的推論能力の主張に着目し,その計画能力について検討した。
本研究の目的は,(1)コモンセンス計画における自律的計画作成におけるllmの有効性と,(2)外部計画者や検証者に対するヒューリスティックな指導の源として機能するllm-modulo設定におけるllmの可能性を評価することである。
我々は、国際計画コンペティションで採用されているものと類似したドメインの一連のインスタンスを生成し、自律とヒューリスティックの2つの異なるモードでllmを評価することにより、体系的な研究を行う。
その結果,llmsが自律的に実行可能な計画を生成する能力は限定的であり,最適モデル (gpt-4) の平均成功率は約12%であった。
しかし、LSM-Modulo設定の結果はより有望である。
LLM-Modulo設定では、LLM生成したプランは、基礎となる音響プランナの探索プロセスを改善し、外部検証器が生成したプランに対するフィードバックを提供し、LLMをバックプロンプトしてプラン生成を改善することを実証する。
関連論文リスト
- On the Roles of LLMs in Planning: Embedding LLMs into Planning Graphs [13.854158637408647]
市販の計画フレームワークにおける大規模言語モデル(LLM)の計画能力について考察する。
LLMを2段階の計画グラフに組み込んだ新しいLLMベースの計画フレームワークを提案する。
様々な計画領域において提案手法の有効性を実証的に示す。
論文 参考訳(メタデータ) (2024-02-18T15:53:32Z) - Understanding the planning of LLM agents: A survey [98.82513390811148]
本調査では, LLMをベースとしたエージェント計画の体系的考察を行い, 計画能力の向上を目的とした最近の成果について報告する。
各方向について総合的な分析を行い、研究分野におけるさらなる課題について論じる。
論文 参考訳(メタデータ) (2024-02-05T04:25:24Z) - Knowledge Fusion of Large Language Models [73.28202188100646]
本稿では,大規模言語モデル(LLM)における知識融合の概念を紹介する。
我々は、それらの集合的知識と独特な強みを外部化し、それによってターゲットモデルの能力が、どのソースLLMよりも高められるようにします。
この結果から,LLMの融合により,推論やコモンセンス,コード生成など,対象モデルの性能が向上することが確認された。
論文 参考訳(メタデータ) (2024-01-19T05:02:46Z) - Small LLMs Are Weak Tool Learners: A Multi-LLM Agent [73.54562551341454]
大規模言語モデル(LLM)エージェントはスタンドアロンのLLMの機能を大幅に拡張する。
本稿では、上記の機能をプランナー、呼び出し元、要約器に分解する新しい手法を提案する。
このモジュール化されたフレームワークは、個々の更新と、それぞれの機能を構築するための小さなLLMの潜在的な使用を容易にする。
論文 参考訳(メタデータ) (2024-01-14T16:17:07Z) - LgTS: Dynamic Task Sampling using LLM-generated sub-goals for
Reinforcement Learning Agents [10.936460061405157]
LgTS (LLM-Guided Teacher-Student Learning) を提案する。
提案手法では,提案したサブゴールを達成するための事前訓練されたポリシーも必要としない。
論文 参考訳(メタデータ) (2023-10-14T00:07:03Z) - Can Large Language Models Really Improve by Self-critiquing Their Own
Plans? [19.476470154121188]
本研究では,大規模言語モデルの検証・評価能力について,計画の文脈で検討する。
現状のLCMであるGPT-4を用いて, 自己評価が計画生成性能を低下させることが明らかとなった。
論文 参考訳(メタデータ) (2023-10-12T08:22:37Z) - Survey on Factuality in Large Language Models: Knowledge, Retrieval and
Domain-Specificity [61.54815512469125]
本調査は,大規模言語モデル(LLM)における事実性の重要課題に対処する。
LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。
論文 参考訳(メタデータ) (2023-10-11T14:18:03Z) - AdaPlanner: Adaptive Planning from Feedback with Language Models [56.367020818139665]
大規模言語モデル(LLM)は、最近、シーケンシャルな意思決定タスクの自律的エージェントとして機能する可能性を実証している。
本研究では,LLMエージェントが環境フィードバックに応じて自己生成計画を適応的に改善することのできるクローズドループアプローチであるAdaPlannerを提案する。
幻覚を緩和するために,様々なタスク,環境,エージェント機能にまたがる計画生成を容易にするコードスタイルのLCMプロンプト構造を開発した。
論文 参考訳(メタデータ) (2023-05-26T05:52:27Z) - Learning to Plan with Natural Language [111.76828049344839]
大規模言語モデル(LLM)は、様々な基本自然言語タスクにおいて顕著な性能を示している。
複雑なタスクを完了するためには、ステップごとに特定のソリューションを生成するためにLCMをガイドするタスクの計画が必要です。
本研究では,(1)第1学習課題計画フェーズにおいて,LCMが学習エラーフィードバックから導出するように促した新たなステップバイステップのソリューションと行動指示を用いてタスク計画を反復的に更新する,という2つの段階を含む学習計画手法を提案する。
論文 参考訳(メタデータ) (2023-04-20T17:09:12Z) - On the Planning Abilities of Large Language Models (A Critical
Investigation with a Proposed Benchmark) [30.223130782579336]
我々は,国際計画コンペティションで採用されるドメインの種類に基づいて,ベンチマークスイートを開発する。
LLMを3つのモードで評価する: 自律型, ループ型, ループ型, ループ型, ループ型である。
以上の結果から, LLMが自律的に実行可能な計画を生成する能力は極めて高く, 平均的な成功率は3%程度に過ぎなかった。
論文 参考訳(メタデータ) (2023-02-13T21:37:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。