Fugu-MT 論文翻訳(概要): Leveraging Pre-trained Large Language Models to Construct and Utilize World Models for Model-based Task Planning

論文の概要: Leveraging Pre-trained Large Language Models to Construct and Utilize World Models for Model-based Task Planning

arxiv url: http://arxiv.org/abs/2305.14909v2
Date: Thu, 2 Nov 2023 03:06:19 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-03 17:48:15.198122
Title: Leveraging Pre-trained Large Language Models to Construct and Utilize World Models for Model-based Task Planning
Title（参考訳）: 事前学習型大規模言語モデルを活用したモデルベースタスク計画のための世界モデルの構築と活用
Authors: Lin Guan, Karthik Valmeekam, Sarath Sreedharan, Subbarao Kambhampati
Abstract要約: 事前訓練済みの大規模言語モデルをプランナーとして直接使用する方法は、計画の正確性に限界があるため、現在は実用的ではない。本研究では,ドメイン定義言語(PDDL)の計画において,明示的な世界(ドメイン)モデルを構築し,ドメインに依存しないプランナで計画する新たなパラダイムを提案する。
参考スコア（独自算出の注目度）: 39.29964085305846
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: There is a growing interest in applying pre-trained large language models (LLMs) to planning problems. However, methods that use LLMs directly as planners are currently impractical due to several factors, including limited correctness of plans, strong reliance on feedback from interactions with simulators or even the actual environment, and the inefficiency in utilizing human feedback. In this work, we introduce a novel alternative paradigm that constructs an explicit world (domain) model in planning domain definition language (PDDL) and then uses it to plan with sound domain-independent planners. To address the fact that LLMs may not generate a fully functional PDDL model initially, we employ LLMs as an interface between PDDL and sources of corrective feedback, such as PDDL validators and humans. For users who lack a background in PDDL, we show that LLMs can translate PDDL into natural language and effectively encode corrective feedback back to the underlying domain model. Our framework not only enjoys the correctness guarantee offered by the external planners but also reduces human involvement by allowing users to correct domain models at the beginning, rather than inspecting and correcting (through interactive prompting) every generated plan as in previous work. On two IPC domains and a Household domain that is more complicated than commonly used benchmarks such as ALFWorld, we demonstrate that GPT-4 can be leveraged to produce high-quality PDDL models for over 40 actions, and the corrected PDDL models are then used to successfully solve 48 challenging planning tasks. Resources, including the source code, are released at: https://guansuns.github.io/pages/llm-dm.
Abstract（参考訳）: 計画問題に事前訓練された大規模言語モデル(LLM)を適用することへの関心が高まっている。しかし、プランナーとして直接llmを使用する方法は、現在、計画の正確さの制限、シミュレータや実際の環境とのインタラクションからのフィードバックへの強い依存、人間フィードバックの活用の非効率など、いくつかの要因により実用的ではない。本研究では,ドメイン定義言語(PDDL)の計画において,明示的な世界(ドメイン)モデルを構築し,ドメインに依存しないプランナで計画する新たなパラダイムを提案する。 LLMが最初に完全に機能するPDDLモデルを生成できないという事実に対処するため、PDDLとPDDLバリデータや人間などの修正フィードバック源とのインタフェースとしてLLMを用いる。 PDDLの背景を欠いているユーザに対しては、LDMがPDDLを自然言語に変換し、基礎となるドメインモデルへの修正フィードバックを効果的にエンコードできることを示す。私たちのフレームワークは、外部プランナーが提供する正確性保証を享受するだけでなく、ユーザが前回の作業のように生成されたすべてのプランを検査し(インタラクティブなプロンプトを通じて)修正するのではなく、最初にドメインモデルを修正できるようにすることによって、人間による関与を低減します。 2つのIPCドメインと、ALFWorldのような一般的なベンチマークよりも複雑であるハウスドメインにおいて、GPT-4が40以上のアクションに対して高品質なPDDLモデルを生成するために活用できることを示し、修正されたPDDLモデルを用いて48の課題計画タスクの解決に成功した。ソースコードを含むリソースは、https://guansuns.github.io/pages/llm-dm。

関連論文リスト

Addressing the Challenges of Planning Language Generation [6.209697341255856]
我々は,500億パラメータ未満のオープンソースモデルを用いて,PDDL生成パイプラインを8種類設計し,評価する。その結果,高リソース言語ラッパーや文法付き制約付き復号法などの直感的な手法は性能を低下させるが,解法や計画検証器からのフィードバックによる修正などの推論時間スケーリング手法は性能を2倍以上に抑えることがわかった。
論文参考訳（メタデータ） (2025-05-20T17:25:23Z)
Learning to Reason and Navigate: Parameter Efficient Action Planning with Large Language Models [63.765846080050906]
本稿では,大規模言語モデル (PEAP-LLM) を用いたパラメータ効率の高いアクションプランナを提案する。実験により,提案したREVERIEモデルが従来の最先端モデルよりも優れていることが示された。
論文参考訳（メタデータ） (2025-05-12T12:38:20Z)
An Extensive Evaluation of PDDL Capabilities in off-the-shelf LLMs [11.998185452551878]
大規模言語モデル(LLM)は、コード生成とチェーン・オブ・シークレット推論に習熟している。本研究では,計画ドメイン定義言語(PDDL)の理解と生成のためのLLMの可能性を評価する。
論文参考訳（メタデータ） (2025-02-27T15:13:07Z)
LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。 LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。 LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文参考訳（メタデータ） (2025-02-15T02:55:22Z)
Generating Symbolic World Models via Test-time Scaling of Large Language Models [28.258707611580643]
計画ドメイン定義言語(PDDL)は、正確な状態記述と正式な状態記述を可能にする計画抽象化として利用されます。提案手法は,まずまずBest-of-Nサンプリング手法を用いて初期解の質を向上し,その解を言語化された機械学習で微妙に洗練する。本手法はPDDL ドメインの生成において O1-mini よりも優れ,2つのタスクで50% 以上の成功率を達成した。
論文参考訳（メタデータ） (2025-02-07T07:52:25Z)
Leveraging Environment Interaction for Automated PDDL Translation and Planning with Large Language Models [7.3238629831871735]
大規模言語モデル(LLM)は、様々な自然言語タスクにおいて顕著な性能を示している。潜在的な解決策として、計画ドメイン定義言語(PDDL)へのプランニングの問題が提案されている。 LLMと環境フィードバックを利用してPDDLドメインと問題記述ファイルを自動生成する手法を提案する。
論文参考訳（メタデータ） (2024-07-17T19:50:51Z)
From Words to Actions: Unveiling the Theoretical Underpinnings of LLM-Driven Autonomous Systems [59.40480894948944]
大規模言語モデル (LLM) は、物理世界の意思決定問題を解くことができる。このモデルの下で、LLM Plannerは、プロンプトを介して言語ベースのサブゴールを反復的に生成することにより、部分的に観測可能なマルコフ決定プロセス(POMDP)をナビゲートする。我々は,事前学習したLLMプランナーが,文脈内学習を通じてベイズ的集計模倣学習(BAIL)を効果的に行うことを証明した。
論文参考訳（メタデータ） (2024-05-30T09:42:54Z)
Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。 MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文参考訳（メタデータ） (2024-05-26T00:29:04Z)
NL2Plan: Robust LLM-Driven Planning from Minimal Text Descriptions [8.004470925893957]
ドメインに依存しない初めてのオフラインLCM駆動計画システムであるNL2Planを提案する。我々はNL2Planを4つの計画領域で評価し、15のタスクのうち10を解くことを発見した。エンド・ツー・エンドモードでのNL2Planの使用に加えて、ユーザは中間結果の検査と修正が可能である。
論文参考訳（メタデータ） (2024-05-07T11:27:13Z)
Generating consistent PDDL domains with Large Language Models [4.8551773468225745]
LLM(Large Language Models)は、自然言語のドメイン記述をPDDLマークアップに変換する能力を持つ。生成プロセス中に自動整合性チェックを行うことにより,LCM生成のPDDLモデルの品質を大幅に向上させる新しい概念を提案する。提案した整合性チェック戦略は、生成したモデルの絶対的正当性を保証することはできないが、ループ内の人間から期待される補正努力の量を減らす貴重なフィードバック源として機能することができる。
論文参考訳（メタデータ） (2024-04-11T13:48:48Z)
Real-World Planning with PDDL+ and Beyond [55.73913765642435]
我々は、軽量さ、単純さ、そして最も重要なのは適応性を強調するために作られた新しいPDDL+プランナーであるNyxを紹介する。 Nyxは、ある種のAIプランニングを必要とする事実上の現実世界のアプリケーションに合わせることができ、現実の問題を解決するための計画手法をより広く採用するための道を開くことができる。
論文参考訳（メタデータ） (2024-02-19T07:35:49Z)
TIC: Translate-Infer-Compile for accurate "text to plan" using LLMs and Logical Representations [0.0]
本研究では,自然言語計画タスク要求の計画作成の問題について検討する。本手法は,LLMを用いて自然言語タスク記述の解釈可能な中間表現を生成する。中間表現のみを出力するためにLLMを用いると、LLMの誤差が大幅に減少する。
論文参考訳（メタデータ） (2024-02-09T18:39:13Z)
Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。 SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文参考訳（メタデータ） (2024-01-02T18:53:13Z)
Automating the Generation of Prompts for LLM-based Action Choice in PDDL Planning [59.543858889996024]
大規模言語モデル(LLM)は、様々なNLPタスクに革命をもたらした。 LLMを利用してPDDL入力からNLプロンプトを自動的に生成する方法を示す。
論文参考訳（メタデータ） (2023-11-16T11:55:27Z)
Unleashing the Power of Pre-trained Language Models for Offline Reinforcement Learning [54.682106515794864]
オフライン強化学習(RL)は、事前コンパイルされたデータセットを使用して、ほぼ最適ポリシーを見つけることを目的としている。本稿では、オフラインRLに事前学習言語モデル(LM)を使用するための決定変換器に基づく一般的なフレームワークである、$textbfMo$tion Control用の$textbfLanguage Models(textbfLaMo$)を紹介する。経験的な結果から、$textbfLaMo$はスパース・リワードタスクで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2023-10-31T16:24:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。