論文の概要: Interactive Task Planning with Language Models
- arxiv url: http://arxiv.org/abs/2310.10645v2
- Date: Sat, 08 Feb 2025 20:22:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 17:38:03.831129
- Title: Interactive Task Planning with Language Models
- Title(参考訳): 言語モデルを用いた対話型タスクプランニング
- Authors: Boyi Li, Philipp Wu, Pieter Abbeel, Jitendra Malik,
- Abstract要約: 対話型ロボットフレームワークは、長期のタスクプランニングを達成し、実行中であっても、新しい目標や異なるタスクに容易に一般化することができる。
最近の大規模言語モデルに基づくアプローチは、よりオープンな計画を可能にするが、しばしば、重いプロンプトエンジニアリングまたはドメイン固有の事前訓練されたモデルを必要とする。
言語モデルを用いた対話型タスクプランニングを実現するための,高レベルプランニングと低レベルスキル実行を併用したシンプルなフレームワークを提案する。
- 参考スコア(独自算出の注目度): 89.5839216871244
- License:
- Abstract: An interactive robot framework accomplishes long-horizon task planning and can easily generalize to new goals and distinct tasks, even during execution. However, most traditional methods require predefined module design, making it hard to generalize to different goals. Recent large language model based approaches can allow for more open-ended planning but often require heavy prompt engineering or domain specific pretrained models. To tackle this, we propose a simple framework that achieves interactive task planning with language models by incorporating both high-level planning and low-level skill execution through function calling, leveraging pretrained vision models to ground the scene in language. We verify the robustness of our system on the real world task of making milk tea drinks. Our system is able to generate novel high-level instructions for unseen objectives and successfully accomplishes user tasks. Furthermore, when the user sends a new request, our system is able to replan accordingly with precision based on the new request, task guidelines and previously executed steps. Our approach is easy to adapt to different tasks by simply substituting the task guidelines, without the need for additional complex prompt engineering. Please check more details on our https://wuphilipp.github.io/itp_site and https://youtu.be/TrKLuyv26_g.
- Abstract(参考訳): 対話型ロボットフレームワークは、長期のタスクプランニングを達成し、実行中であっても、新しい目標や異なるタスクに容易に一般化することができる。
しかし、ほとんどの伝統的な手法は事前に定義されたモジュール設計を必要としており、異なる目標に一般化することは困難である。
最近の大規模言語モデルに基づくアプローチは、よりオープンな計画を可能にするが、しばしば、重いプロンプトエンジニアリングまたはドメイン固有の事前訓練されたモデルを必要とする。
そこで本稿では,言語モデルを用いた対話型タスクプランニングを実現するための,関数呼び出しによる高レベルプランニングと低レベルスキル実行の両方を取り入れたシンプルなフレームワークを提案する。
ミルクティードリンクの現実的課題に対する我々のシステムの堅牢性を検証する。
本システムでは、未確認目的のための新しいハイレベルな命令を生成でき、ユーザタスクの達成に成功している。
さらに,ユーザが新しい要求を送信した場合,新たな要求,タスクガイドライン,以前に実行されたステップに基づいて,精度に応じて再計画を行うことができる。
我々のアプローチは、複雑なプロンプトエンジニアリングを必要とせずに、単にタスクガイドラインを置き換えることによって、さまざまなタスクに適応するのが容易です。
詳細はhttps://wuphilipp.github.io/itp_siteとhttps://youtu.be/TrKLuyv26_gを参照してください。
関連論文リスト
- Plan-Seq-Learn: Language Model Guided RL for Solving Long Horizon Robotics Tasks [50.27313829438866]
Plan-Seq-Learn (PSL) は、抽象言語と学習した低レベル制御の間のギャップを埋めるためにモーションプランニングを使用するモジュラーアプローチである。
PSLは85%以上の成功率、言語ベース、古典的、エンドツーエンドのアプローチを達成している。
論文 参考訳(メタデータ) (2024-05-02T17:59:31Z) - Learning adaptive planning representations with natural language
guidance [90.24449752926866]
本稿では,タスク固有の計画表現を自動構築するフレームワークであるAdaについて述べる。
Adaは、プランナー互換の高レベルアクション抽象化と、特定の計画タスク領域に適応した低レベルコントローラのライブラリを対話的に学習する。
論文 参考訳(メタデータ) (2023-12-13T23:35:31Z) - Generalizable Long-Horizon Manipulations with Large Language Models [91.740084601715]
本研究は,Large Language Models (LLMs) の機能を活用して,汎用可能な長距離操作のための原始的なタスク条件を生成するフレームワークを導入する。
我々は,Pybulletに基づくロボット操作タスクスイートを作成し,長期作業評価を行う。
論文 参考訳(メタデータ) (2023-10-03T17:59:46Z) - AutoTAMP: Autoregressive Task and Motion Planning with LLMs as Translators and Checkers [20.857692296678632]
人間とロボットの効果的なインタラクションには、ロボットは複雑な長期的タスクを理解し、計画し、実行する必要がある。
大規模言語モデルの最近の進歩は、自然言語をロボットのアクションシーケンスに変換することを約束している。
本研究では,複雑なタスク領域において,LLMをプランナとして用いる手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-10T21:58:29Z) - Robot Task Planning Based on Large Language Model Representing Knowledge
with Directed Graph Structures [2.3698227130544547]
本研究では,人間の専門知識をLLMと組み合わせたタスクプランニング手法を提案し,LLMプロンプトテンプレートであるThink_Net_Promptを設計した。
さらに,タスクを段階的に分解し,タスクツリーを生成して各タスクの計画量を削減する手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T13:10:00Z) - Improving Generalization in Task-oriented Dialogues with Workflows and
Action Plans [1.0499611180329804]
タスク指向の対話は、ユーザ意図を理解し、ユーザから情報を収集し、API呼び出しを実行し、流動的な応答を生成するため、部分的には難しい。
本研究では,多段階のタスク指向対話エージェントを作成するために,大規模な事前学習言語モデルをエンドツーエンドに微調整できることを示す。
実験により,本手法はトレーニング中に見つからない新しいマルチステップタスクを確実に実行できないことを確認した。
論文 参考訳(メタデータ) (2023-06-02T17:54:36Z) - PlaSma: Making Small Language Models Better Procedural Knowledge Models for (Counterfactual) Planning [77.03847056008598]
PlaSmaは、手続き的な知識と(制約のある)言語計画能力を持つ小さな言語モデルを実現するための、新しい2段階のアプローチである。
我々は,小言語モデルにおけるコモンセンス知識を高めるための記号的手続き的知識蒸留法と,より構造化された正確な推論を容易にする推論時アルゴリズムを開発する。
論文 参考訳(メタデータ) (2023-05-31T00:55:40Z) - ProgPrompt: Generating Situated Robot Task Plans using Large Language
Models [68.57918965060787]
大規模言語モデル(LLM)は、タスク計画中の潜在的な次のアクションを評価するために使用することができる。
本稿では, プログラム型LCMプロンプト構造を用いて, 配置環境間での計画生成機能を実現する。
論文 参考訳(メタデータ) (2022-09-22T20:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。