論文の概要: On the Planning Abilities of Large Language Models (A Critical
Investigation with a Proposed Benchmark)
- arxiv url: http://arxiv.org/abs/2302.06706v1
- Date: Mon, 13 Feb 2023 21:37:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-15 17:07:31.394094
- Title: On the Planning Abilities of Large Language Models (A Critical
Investigation with a Proposed Benchmark)
- Title(参考訳): 大規模言語モデルの計画能力について(提案ベンチマークによる批判的考察)
- Authors: Karthik Valmeekam, Sarath Sreedharan, Matthew Marquez, Alberto Olmo,
Subbarao Kambhampati
- Abstract要約: 我々は,国際計画コンペティションで採用されるドメインの種類に基づいて,ベンチマークスイートを開発する。
LLMを3つのモードで評価する: 自律型, ループ型, ループ型, ループ型, ループ型である。
以上の結果から, LLMが自律的に実行可能な計画を生成する能力は極めて高く, 平均的な成功率は3%程度に過ぎなかった。
- 参考スコア(独自算出の注目度): 30.223130782579336
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Intrigued by the claims of emergent reasoning capabilities in LLMs trained on
general web corpora, in this paper, we set out to investigate their planning
capabilities. We aim to evaluate (1) how good LLMs are by themselves in
generating and validating simple plans in commonsense planning tasks (of the
type that humans are generally quite good at) and (2) how good LLMs are in
being a source of heuristic guidance for other agents--either AI planners or
human planners--in their planning tasks. To investigate these questions in a
systematic rather than anecdotal manner, we start by developing a benchmark
suite based on the kinds of domains employed in the International Planning
Competition. On this benchmark, we evaluate LLMs in three modes: autonomous,
heuristic and human-in-the-loop. Our results show that LLM's ability to
autonomously generate executable plans is quite meager, averaging only about 3%
success rate. The heuristic and human-in-the-loop modes show slightly more
promise. In addition to these results, we also make our benchmark and
evaluation tools available to support investigations by research community.
- Abstract(参考訳): 本稿では,一般ウェブコーパスで学習したLCMにおける創発的推論能力の主張に着目し,その計画能力について検討した。
本研究の目的は,1)コモンセンス計画タスクにおける簡単な計画の作成と検証において,LLMがいかに優れているかを評価すること,2)AIプランナーやヒューマンプランナーが計画タスクにおいて,他のエージェントに対するヒューリスティックガイダンスの源泉として,LLMがいかに優れているかを評価することである。
これらの質問を体系的に検討するため,我々は,国際計画コンペティションで採用されるドメインの種類を基準としたベンチマークスイートの開発から始める。
本ベンチマークでは,LLMを自律性,ヒューリスティック性,ループ内人間性という3つのモードで評価する。
以上の結果から, LLMが自律的に実行可能な計画を生成する能力は極めて高く, 平均的な成功率は3%に過ぎなかった。
ヒューリスティックと人間のループモードは、もう少し期待できる。
これらの結果に加えて,研究コミュニティによる調査を支援するためのベンチマークと評価ツールも提供する。
関連論文リスト
- MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs [97.94579295913606]
MLLM(Multimodal Large Language Models)は、産業と学術の両方から注目を集めている。
開発プロセスでは、モデルの改善に関する直感的なフィードバックとガイダンスを提供するため、評価が重要である。
この研究は、研究者に異なるニーズに応じてMLLMを効果的に評価する方法を簡単に把握し、より良い評価方法を促すことを目的としている。
論文 参考訳(メタデータ) (2024-11-22T18:59:54Z) - Can We Rely on LLM Agents to Draft Long-Horizon Plans? Let's Take TravelPlanner as an Example [3.102303947219617]
大規模言語モデル(LLM)は、自律エージェントを人工知能(AGI)に近づけた
そこで本研究では,エージェントが複数の制約を満たして正確な計画を生成する,現実的なベンチマークであるTravelPlannerを用いて検討を行った。
論文 参考訳(メタデータ) (2024-08-12T17:39:01Z) - WorkArena++: Towards Compositional Planning and Reasoning-based Common Knowledge Work Tasks [85.95607119635102]
大型言語モデル(LLM)は人間のような知性を模倣することができる。
WorkArena++は、Webエージェントの計画、問題解決、論理的/論理的推論、検索、コンテキスト的理解能力を評価するように設計されている。
論文 参考訳(メタデータ) (2024-07-07T07:15:49Z) - Exploring and Benchmarking the Planning Capabilities of Large Language Models [57.23454975238014]
この研究は、大規模言語モデル(LLM)の計画能力を改善するための基礎を築いた。
我々は、古典的な計画ベンチマークと自然言語シナリオの両方を含む包括的なベンチマークスイートを構築した。
本研究は,LLM計画の強化を目的としたマルチショットインコンテキスト学習について検討し,文脈長の増大と計画性能の向上の関係について検討する。
論文 参考訳(メタデータ) (2024-06-18T22:57:06Z) - Agent Planning with World Knowledge Model [88.4897773735576]
エージェント計画を容易にするためにパラメトリック世界知識モデル(WKM)を導入する。
我々はWKMを開発し,グローバルプランニングと動的状態知識を指導し,地域プランニングを支援する。
本手法は, 各種の強靭なベースラインと比較して, 優れた性能が得られる。
論文 参考訳(メタデータ) (2024-05-23T06:03:19Z) - Understanding the planning of LLM agents: A survey [98.82513390811148]
本調査では, LLMをベースとしたエージェント計画の体系的考察を行い, 計画能力の向上を目的とした最近の成果について報告する。
各方向について総合的な分析を行い、研究分野におけるさらなる課題について論じる。
論文 参考訳(メタデータ) (2024-02-05T04:25:24Z) - SayCanPay: Heuristic Planning with Large Language Models using Learnable
Domain Knowledge [14.024233628092167]
大規模言語モデル(LLM)は、その膨大な「世界知識」により、優れた計画能力を示した。
しかし、近年の進歩にもかかわらず、実現可能な(手頃な)プランと費用対効果(プラン長)の両方のプランの獲得は依然として課題である。
これは、ドメイン知識(PDDLのようなアクションモデルで形式化された)と検索を使って実現可能な最適な計画を生成する計画手法とは対照的である。
論文 参考訳(メタデータ) (2023-08-24T09:47:28Z) - On the Planning Abilities of Large Language Models : A Critical
Investigation [34.262740442260515]
我々は,LLMがコモンセンス計画タスクにおいて自律的に計画を作成する上での有効性を評価する。
LLM-Modulo設定では、LLM生成したプランは、基礎となる音響プランナの探索プロセスを改善することができることを示す。
論文 参考訳(メタデータ) (2023-05-25T06:32:23Z) - PlanBench: An Extensible Benchmark for Evaluating Large Language Models
on Planning and Reasoning about Change [34.93870615625937]
PlanBenchは、自動計画コミュニティで使用されるドメインの種類に基づいたベンチマークスイートである。
PlanBenchはタスクドメインと特定の計画機能の両方に十分な多様性を提供します。
論文 参考訳(メタデータ) (2022-06-21T16:15:27Z) - ElitePLM: An Empirical Study on General Language Ability Evaluation of
Pretrained Language Models [78.08792285698853]
本稿では,事前学習型言語モデル(ElitePLM)の汎用言語能力評価に関する大規模実証的研究について述べる。
実験の結果,(1)訓練対象の異なるPLMは異なる能力試験に適しており,(2)下流タスクの微調整PLMはデータサイズや分布に敏感であり,(3)PLMは類似タスク間の転送性に優れていた。
論文 参考訳(メタデータ) (2022-05-03T14:18:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。