論文の概要: Generalized Planning in PDDL Domains with Pretrained Large Language
Models
- arxiv url: http://arxiv.org/abs/2305.11014v2
- Date: Mon, 18 Dec 2023 19:44:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 02:14:45.746621
- Title: Generalized Planning in PDDL Domains with Pretrained Large Language
Models
- Title(参考訳): 事前学習型大規模言語モデルを用いたPDDLドメインの汎用計画
- Authors: Tom Silver, Soham Dan, Kavitha Srinivas, Joshua B. Tenenbaum, Leslie
Pack Kaelbling, Michael Katz
- Abstract要約: PDDLドメインを考慮し、GPT-4を用いてPythonプログラムを合成する。
7つのPDDLドメインでこのアプローチを評価し、4つのアブレーションと4つのベースラインと比較した。
- 参考スコア(独自算出の注目度): 82.24479434984426
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work has considered whether large language models (LLMs) can function
as planners: given a task, generate a plan. We investigate whether LLMs can
serve as generalized planners: given a domain and training tasks, generate a
program that efficiently produces plans for other tasks in the domain. In
particular, we consider PDDL domains and use GPT-4 to synthesize Python
programs. We also consider (1) Chain-of-Thought (CoT) summarization, where the
LLM is prompted to summarize the domain and propose a strategy in words before
synthesizing the program; and (2) automated debugging, where the program is
validated with respect to the training tasks, and in case of errors, the LLM is
re-prompted with four types of feedback. We evaluate this approach in seven
PDDL domains and compare it to four ablations and four baselines. Overall, we
find that GPT-4 is a surprisingly powerful generalized planner. We also
conclude that automated debugging is very important, that CoT summarization has
non-uniform impact, that GPT-4 is far superior to GPT-3.5, and that just two
training tasks are often sufficient for strong generalization.
- Abstract(参考訳): 最近の研究は、大きな言語モデル(LLM)がプランナーとして機能するかどうかを検討してきた。
ドメインとトレーニングタスクが与えられた場合、LLMはドメイン内の他のタスクの計画を効率的に生成するプログラムを生成する。
特に、PDDLドメインを検討し、GPT-4を用いてPythonプログラムを合成する。
また、(1) llmがドメインを要約し、プログラムを合成する前に言葉で戦略を提案する連鎖的思考(cot)要約、(2)プログラムがトレーニングタスクに関して検証される自動デバッグ、そしてエラーの場合、llmは4種類のフィードバックで再入力される。
このアプローチを7つのpddlドメインで評価し,4つのアブレーションと4つのベースラインと比較した。
全体として、GPT-4は驚くほど強力な一般化プランナーである。
また,自動デバッギングは非常に重要であること,CoTの要約が一様でないこと,GPT-4がGPT-3.5よりはるかに優れていること,そして2つのトレーニングタスクだけが強力な一般化に十分であることも結論した。
関連論文リスト
- NL2Plan: Robust LLM-Driven Planning from Minimal Text Descriptions [8.004470925893957]
ドメインに依存しない初めてのオフラインLCM駆動計画システムであるNL2Planを提案する。
我々はNL2Planを4つの計画領域で評価し、15のタスクのうち10を解くことを発見した。
エンド・ツー・エンドモードでのNL2Planの使用に加えて、ユーザは中間結果の検査と修正が可能である。
論文 参考訳(メタデータ) (2024-05-07T11:27:13Z) - PPTC-R benchmark: Towards Evaluating the Robustness of Large Language
Models for PowerPoint Task Completion [96.47420221442397]
文,意味,多言語レベルでユーザ命令を攻撃することにより,逆ユーザ命令を構築する。
我々は、ロバストネス設定を組み込んだベンチマークを用いて、3つのクローズドソースと4つのオープンソースLCMをテストする。
GPT-4は我々のベンチマークで最も高い性能と強靭性を示す。
論文 参考訳(メタデータ) (2024-03-06T15:33:32Z) - PROC2PDDL: Open-Domain Planning Representations from Texts [56.627183903841164]
Proc2PDDLは、専門家によるPDDL表現と組み合わせたオープンドメインの手続きテキストを含む最初のデータセットである。
以上の結果から, GPT-3.5は0%, GPT-4は35%, Proc2PDDLは極めて困難であることが示唆された。
論文 参考訳(メタデータ) (2024-02-29T19:40:25Z) - Benchmarking GPT-4 on Algorithmic Problems: A Systematic Evaluation of Prompting Strategies [47.129504708849446]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらした。
LLMは体系的な一般化を欠き、学習された統計正則をトレーニング分布の外へ外挿することができる。
本稿では,最も先進的なLCMの1つであるGPT-4の系統的なベンチマークを行う。
論文 参考訳(メタデータ) (2024-02-27T10:44:52Z) - TAT-LLM: A Specialized Language Model for Discrete Reasoning over Tabular and Textual Data [73.29220562541204]
我々は,言語モデル(LLM)の驚くべきパワーを活用して課題を解決することを検討する。
LLaMA2を微調整し,既存のエキスパートアノテートデータセットから自動生成したトレーニングデータを用いてTAT-LLM言語モデルを開発する。
論文 参考訳(メタデータ) (2024-01-24T04:28:50Z) - Reformulating Domain Adaptation of Large Language Models as Adapt-Retrieve-Revise: A Case Study on Chinese Legal Domain [32.11522364248498]
GPT-4は、中国法のような特定の領域における幻覚を伴うコンテンツを生成し、これらの領域におけるそれらの適用を妨げる。
本稿では,生成をtextbfadapt-retrieve-revise プロセスとして再構成することで,GPT-4 の簡易かつ効果的なドメイン適応フレームワークを提案する。
中国の4つの法的タスクのゼロショット設定では、GPT-4による直接生成と比較して精度が33.3%向上する。
論文 参考訳(メタデータ) (2023-10-05T05:55:06Z) - Struc-Bench: Are Large Language Models Really Good at Generating Complex Structured Data? [49.688233418425995]
Struc-Benchは、大きな言語モデル(LLM)を特徴とする包括的なベンチマークである。
Pスコア(Prompting Score)とHスコア(Heuristical Score)の2つの革新的な指標を提案する。
実験の結果,LLaMA-7Bに構造認識の微調整を適用すると,性能が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2023-09-16T11:31:58Z) - Leveraging Pre-trained Large Language Models to Construct and Utilize
World Models for Model-based Task Planning [39.29964085305846]
事前訓練済みの大規模言語モデルをプランナーとして直接使用する方法は、計画の正確性に限界があるため、現在は実用的ではない。
本研究では,ドメイン定義言語(PDDL)の計画において,明示的な世界(ドメイン)モデルを構築し,ドメインに依存しないプランナで計画する新たなパラダイムを提案する。
論文 参考訳(メタデータ) (2023-05-24T08:59:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。