論文の概要: On the Planning Abilities of Large Language Models -- A Critical
Investigation
- arxiv url: http://arxiv.org/abs/2305.15771v1
- Date: Thu, 25 May 2023 06:32:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 16:56:00.890456
- Title: On the Planning Abilities of Large Language Models -- A Critical
Investigation
- Title(参考訳): 大規模言語モデルの計画能力について -批判的考察-
- Authors: Karthik Valmeekam, Matthew Marquez, Sarath Sreedharan, Subbarao
Kambhampati
- Abstract要約: 我々は,コモンセンス計画タスクにおける自律的な計画作成におけるLCMの有効性を評価することを目的とする。
外部検証器は、生成した計画に対するフィードバックを提供するのに役立ち、より優れた計画生成のためにLLMをバックプロンプトすることを示します。
- 参考スコア(独自算出の注目度): 29.00207434040124
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Intrigued by the claims of emergent reasoning capabilities in LLMs trained on
general web corpora, in this paper, we set out to investigate their planning
capabilities. We aim to evaluate (1) the effectiveness of LLMs in generating
plans autonomously in commonsense planning tasks and (2) the potential of LLMs
as a source of heuristic guidance for other agents (AI planners) in their
planning tasks. We conduct a systematic study by generating a suite of
instances on domains similar to the ones employed in the International Planning
Competition and evaluate LLMs in two distinct modes: autonomous and heuristic.
Our findings reveal that LLMs' ability to generate executable plans
autonomously is rather limited, with the best model (GPT-4) having an average
success rate of ~12% across the domains. However, the results in the heuristic
mode show more promise. In the heuristic mode, we demonstrate that
LLM-generated plans can improve the search process for underlying sound
planners and additionally show that external verifiers can help provide
feedback on the generated plans and back-prompt the LLM for better plan
generation.
- Abstract(参考訳): 本稿では,一般ウェブコーパスで学習したLCMにおける創発的推論能力の主張に着目し,その計画能力について検討した。
本研究の目的は,(1)コモンセンス計画における自律的計画作成におけるllmの有効性と,(2)他のエージェント(aiプランナー)の計画作業におけるヒューリスティックな指導の源としてのllmの可能性を評価することである。
我々は、国際計画コンペティションで採用されているものと類似したドメインの一連のインスタンスを生成し、自律とヒューリスティックの2つの異なるモードでllmを評価することにより、体系的な研究を行う。
その結果,llmsが自律的に実行可能な計画を生成する能力は限定的であり,最適モデル (gpt-4) の平均成功率は約12%であった。
しかし、ヒューリスティックモードの結果はより有望である。
ヒューリスティックモードでは、llm生成のプランが基礎となるサウンドプランナーの探索プロセスを改善できること、さらに、外部検証者が生成したプランに対するフィードバックを提供し、より優れたプラン生成のためにllmをバックプロンプトできることを実証する。
関連論文リスト
- Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - Exploring and Benchmarking the Planning Capabilities of Large Language Models [57.23454975238014]
この研究は、大規模言語モデル(LLM)の計画能力を改善するための基礎を築いた。
我々は、古典的な計画ベンチマークと自然言語シナリオの両方を含む包括的なベンチマークスイートを構築した。
本研究は,LLM計画の強化を目的としたマルチショットインコンテキスト学習について検討し,文脈長の増大と計画性能の向上の関係について検討する。
論文 参考訳(メタデータ) (2024-06-18T22:57:06Z) - Efficient Prompting for LLM-based Generative Internet of Things [88.84327500311464]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示しており、最近、IoT(Internet of Things)アプリケーションにLLMの能力を統合することが研究の注目を集めている。
セキュリティ上の懸念から、多くの機関は最先端の商用LLMサービスへのアクセスを避け、ローカルネットワーク環境でのオープンソースLLMのデプロイと利用を必要としている。
本研究では,LLMを用いた生成IoT(Generative IoT)システムを提案する。
論文 参考訳(メタデータ) (2024-06-14T19:24:00Z) - From Words to Actions: Unveiling the Theoretical Underpinnings of LLM-Driven Autonomous Systems [59.40480894948944]
大規模言語モデル (LLM) は、物理世界の意思決定問題を解くことができる。
このモデルの下で、LLM Plannerは、プロンプトを介して言語ベースのサブゴールを反復的に生成することにより、部分的に観測可能なマルコフ決定プロセス(POMDP)をナビゲートする。
我々は,事前学習したLLMプランナーが,文脈内学習を通じてベイズ的集計模倣学習(BAIL)を効果的に行うことを証明した。
論文 参考訳(メタデータ) (2024-05-30T09:42:54Z) - On the Roles of LLMs in Planning: Embedding LLMs into Planning Graphs [12.326862964753694]
市販の計画フレームワークにおける大規模言語モデル(LLM)の計画能力について考察する。
LLMを2段階の計画グラフに組み込んだ新しいLLMベースの計画フレームワークを提案する。
様々な計画領域において提案手法の有効性を実証的に示す。
論文 参考訳(メタデータ) (2024-02-18T15:53:32Z) - Understanding the planning of LLM agents: A survey [98.82513390811148]
本調査では, LLMをベースとしたエージェント計画の体系的考察を行い, 計画能力の向上を目的とした最近の成果について報告する。
各方向について総合的な分析を行い、研究分野におけるさらなる課題について論じる。
論文 参考訳(メタデータ) (2024-02-05T04:25:24Z) - Survey on Factuality in Large Language Models: Knowledge, Retrieval and
Domain-Specificity [61.54815512469125]
本調査は,大規模言語モデル(LLM)における事実性の重要課題に対処する。
LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。
論文 参考訳(メタデータ) (2023-10-11T14:18:03Z) - On the Planning Abilities of Large Language Models (A Critical
Investigation with a Proposed Benchmark) [30.223130782579336]
我々は,国際計画コンペティションで採用されるドメインの種類に基づいて,ベンチマークスイートを開発する。
LLMを3つのモードで評価する: 自律型, ループ型, ループ型, ループ型, ループ型である。
以上の結果から, LLMが自律的に実行可能な計画を生成する能力は極めて高く, 平均的な成功率は3%程度に過ぎなかった。
論文 参考訳(メタデータ) (2023-02-13T21:37:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。