論文の概要: L3M+P: Lifelong Planning with Large Language Models
- arxiv url: http://arxiv.org/abs/2508.01917v1
- Date: Sun, 03 Aug 2025 21:01:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.117785
- Title: L3M+P: Lifelong Planning with Large Language Models
- Title(参考訳): L3M+P:大規模言語モデルによる生涯計画
- Authors: Krish Agarwal, Yuqian Jiang, Jiaheng Hu, Bo Liu, Peter Stone,
- Abstract要約: 本稿では,世界状態の表現として外部知識グラフを用いるフレームワークであるL3M+Pを紹介する。
計画時には、タスクの自然言語記述が与えられた場合、L3M+Pは知識グラフからコンテキストを検索し、古典的なプランナーのための問題定義を生成する。
- 参考スコア(独自算出の注目度): 33.88987644905278
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: By combining classical planning methods with large language models (LLMs), recent research such as LLM+P has enabled agents to plan for general tasks given in natural language. However, scaling these methods to general-purpose service robots remains challenging: (1) classical planning algorithms generally require a detailed and consistent specification of the environment, which is not always readily available; and (2) existing frameworks mainly focus on isolated planning tasks, whereas robots are often meant to serve in long-term continuous deployments, and therefore must maintain a dynamic memory of the environment which can be updated with multi-modal inputs and extracted as planning knowledge for future tasks. To address these two issues, this paper introduces L3M+P (Lifelong LLM+P), a framework that uses an external knowledge graph as a representation of the world state. The graph can be updated from multiple sources of information, including sensory input and natural language interactions with humans. L3M+P enforces rules for the expected format of the absolute world state graph to maintain consistency between graph updates. At planning time, given a natural language description of a task, L3M+P retrieves context from the knowledge graph and generates a problem definition for classical planners. Evaluated on household robot simulators and on a real-world service robot, L3M+P achieves significant improvement over baseline methods both on accurately registering natural language state changes and on correctly generating plans, thanks to the knowledge graph retrieval and verification.
- Abstract(参考訳): 古典的計画手法と大規模言語モデル(LLM)を組み合わせることで、LLM+Pのような最近の研究により、自然言語で与えられた一般的なタスクを計画できる。
しかし,これらの手法を汎用サービスロボットに拡張することは依然として困難であり,(1) 従来の計画アルゴリズムでは必ずしも容易に利用できない環境の詳細な一貫した仕様が必要であり,(2) 既存のフレームワークは孤立した計画タスクに重点を置いているのに対し,ロボットは長期的な継続的展開を意図していることが多いため,マルチモーダル入力で更新可能な環境の動的メモリを維持し,将来のタスクの計画知識として抽出する必要がある。
この2つの問題に対処するため,世界状態の表現として外部知識グラフを用いたL3M+P(Lifelong LLM+P)を提案する。
このグラフは、感覚入力や人間との自然言語インタラクションなど、複数の情報ソースから更新することができる。
L3M+Pは、絶対世界状態グラフの期待されるフォーマットのルールを適用して、グラフ更新間の一貫性を維持する。
計画時には、タスクの自然言語記述が与えられた場合、L3M+Pは知識グラフからコンテキストを検索し、古典的なプランナーのための問題定義を生成する。
L3M+Pは,家庭用ロボットシミュレータと実世界のサービスロボットで評価され,自然言語の状態変化の正確な登録と,知識グラフの検索と検証による計画の正確な生成において,ベースライン手法よりも大幅に改善されている。
関連論文リスト
- LODGE: Joint Hierarchical Task Planning and Learning of Domain Models with Grounded Execution [16.16223684887115]
大型言語モデル(LLM)は、暗黙の世界知識を用いた自然言語命令からのプランニングを可能にする。
最近の手法は、古典的なプランナーを用いて、異なる目標状態に対して解決可能な問題領域を学習することを目的としている。
低レベルの述語と行動が上位の述語に構成される階層的なドメインを学習することで、この欠点に対処する。
論文 参考訳(メタデータ) (2025-05-15T20:23:21Z) - A Temporal Planning Framework for Multi-Agent Systems via LLM-Aided Knowledge Base Management [5.548477348501636]
本稿では,大規模言語モデル(LLM)とPrologベースの知識管理とマルチロボットタスクの計画を統合したPLANTORという新しいフレームワークを提案する。
その結果,LLMは人間からのフィードバックの少ない正確な知識ベースを生成でき,Prologは形式的正当性と説明可能性を保証することがわかった。
このアプローチは、柔軟でスケーラブルで人間に理解可能な計画を必要とする高度なロボティクスタスクのためのLLM統合の可能性を強調している。
論文 参考訳(メタデータ) (2025-02-26T13:51:28Z) - Plan-over-Graph: Towards Parallelable LLM Agent Schedule [53.834646147919436]
大規模言語モデル(LLM)はタスク計画の推論において例外的な能力を示した。
本稿では,まず実生活のテキストタスクを実行可能なサブタスクに分解し,抽象的なタスクグラフを構築する,新しいパラダイムであるプランオーバーグラフを提案する。
モデルはこのタスクグラフを入力として理解し、並列実行計画を生成する。
論文 参考訳(メタデータ) (2025-02-20T13:47:51Z) - EgoPlan-Bench2: A Benchmark for Multimodal Large Language Model Planning in Real-World Scenarios [53.26658545922884]
EgoPlan-Bench2は,MLLMの計画能力を評価するためのベンチマークである。
我々は,21の競争的MLLMを評価し,その限界を詳細に分析した結果,実世界の計画において大きな課題に直面していることが明らかとなった。
EgoPlan-Bench2におけるGPT-4Vの10.24倍の性能向上を図る。
論文 参考訳(メタデータ) (2024-12-05T18:57:23Z) - DKPROMPT: Domain Knowledge Prompting Vision-Language Models for Open-World Planning [9.31108717722043]
視覚言語モデル(VLM)はロボットのタスク計画問題に適用されている。
DKPROMPTは、オープンワールドにおける古典的計画のためのPDDLにおけるドメイン知識の利用を促すVLMを自動化する。
論文 参考訳(メタデータ) (2024-06-25T15:49:47Z) - Learning adaptive planning representations with natural language
guidance [90.24449752926866]
本稿では,タスク固有の計画表現を自動構築するフレームワークであるAdaについて述べる。
Adaは、プランナー互換の高レベルアクション抽象化と、特定の計画タスク領域に適応した低レベルコントローラのライブラリを対話的に学習する。
論文 参考訳(メタデータ) (2023-12-13T23:35:31Z) - Embodied Task Planning with Large Language Models [86.63533340293361]
本研究では,現場制約を考慮した地上計画のための具体的タスクにおけるTAsk Planing Agent (TaPA)を提案する。
推論の際には,オープンボキャブラリオブジェクト検出器を様々な場所で収集された多視点RGB画像に拡張することにより,シーン内の物体を検出する。
実験の結果,我々のTaPAフレームワークから生成されたプランは,LLaVAやGPT-3.5よりも大きなマージンで高い成功率が得られることがわかった。
論文 参考訳(メタデータ) (2023-07-04T17:58:25Z) - Learning to Reason over Scene Graphs: A Case Study of Finetuning GPT-2
into a Robot Language Model for Grounded Task Planning [45.51792981370957]
本研究では,ロボットタスク計画における小クラス大規模言語モデル(LLM)の適用性について,計画立案者が順次実行するためのサブゴール仕様にタスクを分解することを学ぶことによって検討する。
本手法は,シーングラフとして表現される領域上でのLLMの入力に基づいて,人間の要求を実行可能なロボット計画に変換する。
本研究は,LLMに格納された知識を長期タスクプランニングに効果的に活用できることを示唆し,ロボット工学におけるニューロシンボリックプランニング手法の今後の可能性を示すものである。
論文 参考訳(メタデータ) (2023-05-12T18:14:32Z) - Sequential Manipulation Planning on Scene Graph [90.28117916077073]
我々は,効率的な逐次タスク計画のための3次元シーングラフ表現であるコンタクトグラフ+(cg+)を考案する。
ゴール設定は、自然にコンタクトグラフに指定され、最適化法を用いて遺伝的アルゴリズムによって作成することができる。
次に、初期接触グラフと目標設定との間のグラフ編集距離(GED)を計算してタスクプランを簡潔化し、ロボット動作に対応するグラフ編集操作を生成する。
論文 参考訳(メタデータ) (2022-07-10T02:01:33Z) - iCORPP: Interleaved Commonsense Reasoning and Probabilistic Planning on
Robots [46.13039152809055]
我々はiCORPPと呼ばれる新しいアルゴリズムを提案し、現在の世界状態を同時に推定し、世界ダイナミクスの推論を行い、タスク指向のコントローラを構築する。
結果は、競合するベースラインと比較して、スケーラビリティ、効率、適応性が大幅に改善されたことを示している。
論文 参考訳(メタデータ) (2020-04-18T17:46:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。