論文の概要: RoboGPT: an intelligent agent of making embodied long-term decisions for daily instruction tasks
- arxiv url: http://arxiv.org/abs/2311.15649v2
- Date: Sun, 30 Jun 2024 14:28:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-02 15:37:58.296954
- Title: RoboGPT: an intelligent agent of making embodied long-term decisions for daily instruction tasks
- Title(参考訳): RoboGPT : 日常指導における長期的意思決定を具体化する知的エージェント
- Authors: Yaran Chen, Wenbo Cui, Yuanwen Chen, Mining Tan, Xinyao Zhang, Dongbin Zhao, He Wang,
- Abstract要約: 自然言語処理における大規模言語モデル(LLM)は、複雑なロボット計画にLLMを使うことに刺激を与えている。
本稿では,日常業務の長期的決定を具体化するRoboGPTエージェントを提案する。
提案するRoboGPTエージェントは、ALFRED日々のタスクにおいてSOTAメソッドよりも優れている。
- 参考スコア(独自算出の注目度): 13.29302304547683
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robotic agents must master common sense and long-term sequential decisions to solve daily tasks through natural language instruction. The developments in Large Language Models (LLMs) in natural language processing have inspired efforts to use LLMs in complex robot planning. Despite LLMs' great generalization and comprehension of instruction tasks, LLMs-generated task plans sometimes lack feasibility and correctness. To address the problem, we propose a RoboGPT agent\footnote{our code and dataset will be released soon} for making embodied long-term decisions for daily tasks, with two modules: 1) LLMs-based planning with re-plan to break the task into multiple sub-goals; 2) RoboSkill individually designed for sub-goals to learn better navigation and manipulation skills. The LLMs-based planning is enhanced with a new robotic dataset and re-plan, called RoboGPT. The new robotic dataset of 67k daily instruction tasks is gathered for fine-tuning the Llama model and obtaining RoboGPT. RoboGPT planner with strong generalization can plan hundreds of daily instruction tasks. Additionally, a low-computational Re-Plan module is designed to allow plans to flexibly adapt to the environment, thereby addressing the nomenclature diversity challenge. The proposed RoboGPT agent outperforms SOTA methods on the ALFRED daily tasks. Moreover, RoboGPT planner exceeds SOTA LLM-based planners like ChatGPT in task-planning rationality for hundreds of unseen daily tasks, and even other domain tasks, while keeping the large model's original broad application and generality.
- Abstract(参考訳): ロボットエージェントは、自然言語による日々のタスクを解決するために、常識と長期的なシーケンシャルな決定をマスターする必要がある。
自然言語処理におけるLarge Language Models (LLMs) の発展は、複雑なロボット計画においてLLMを使うことへの取り組みにインスピレーションを与えている。
LLMの大きな一般化と命令タスクの理解にもかかわらず、LLMの生成したタスクプランは実現可能性と正確性に欠けることがある。
この問題に対処するため、RoboGPTエージェント\footnote{our code and dataset will released} for embodied long-term decision for daily tasks with two module。
1) 業務を複数のサブゴールに分割する再計画によるLCMに基づく計画
2)RoboSkillは,より優れたナビゲーションと操作技術を学ぶために,サブゴール用に個別に設計されている。
LLMsベースのプランニングは、RoboGPTと呼ばれる新しいロボットデータセットと再計画によって強化されている。
新しいロボットデータセットは、Llamaモデルを微調整し、RoboGPTを取得するために、毎日67万のトレーニングタスクを収集する。
強力な一般化のRoboGPTプランナは、毎日数百の命令タスクを計画できる。
さらに、低計算のRe-Planモジュールは、計画が環境に柔軟に適応できるように設計されており、命名上の多様性の課題に対処している。
提案するRoboGPTエージェントは、ALFRED日々のタスクにおいてSOTAメソッドよりも優れている。
さらに、RoboGPTプランナーは、数百の目に見えない日々のタスクやドメインタスクのタスク計画合理性において、ChatGPTのようなSOTA LLMベースのプランナーを超え、大きなモデルの本来の広範な応用と汎用性を維持している。
関連論文リスト
- Interactive and Expressive Code-Augmented Planning with Large Language Models [62.799579304821826]
大きな言語モデル(LLM)は、常識的推論と対話的な意思決定において強力な能力を示す。
近年,制御フローなどのコード・アジャセント技術を用いてLCM出力を構造化し,計画性能を向上させる技術が提案されている。
完全コード表現で動的なLEM計画手法であるREPL-Planを提案する。
論文 参考訳(メタデータ) (2024-11-21T04:23:17Z) - ReLEP: A Novel Framework for Real-world Long-horizon Embodied Planning [7.668848364013772]
本稿では,RelePについて紹介する。
コアには細調整された大きな視覚言語モデルがあり、プランをスキル機能のシーケンスとして定式化している。
ReLEPは、幅広い日々のタスクをこなし、他の最先端のベースラインメソッドより優れている。
論文 参考訳(メタデータ) (2024-09-24T01:47:23Z) - Scaling Up Natural Language Understanding for Multi-Robots Through the Lens of Hierarchy [8.180994118420053]
長期計画には不確実性蓄積、計算複雑性、遅延報酬、不完全情報といった課題が伴う。
本研究では,タスク階層を人間の指示から活用し,マルチロボット計画を容易にする手法を提案する。
論文 参考訳(メタデータ) (2024-08-15T14:46:13Z) - Plan-Seq-Learn: Language Model Guided RL for Solving Long Horizon Robotics Tasks [50.27313829438866]
Plan-Seq-Learn (PSL) は、抽象言語と学習した低レベル制御の間のギャップを埋めるためにモーションプランニングを使用するモジュラーアプローチである。
PSLは85%以上の成功率、言語ベース、古典的、エンドツーエンドのアプローチを達成している。
論文 参考訳(メタデータ) (2024-05-02T17:59:31Z) - DELTA: Decomposed Efficient Long-Term Robot Task Planning using Large Language Models [5.385540718118656]
大規模言語モデル(LLM)に基づく新しいタスク計画手法であるDELTAを紹介する。
シーングラフをLLM内の環境表現として使用することにより、DELTAは正確な計画問題記述を迅速に生成する。
DELTAは効率的かつ完全に自動化されたタスク計画パイプラインを実現し、高い計画成功率と、最先端技術と比較して計画時間を大幅に短縮できることを示す。
論文 参考訳(メタデータ) (2024-04-04T07:59:24Z) - Consolidating Trees of Robotic Plans Generated Using Large Language
Models to Improve Reliability [6.4111574364474215]
LLM(Large Language Models)の固有の確率論的性質は、予測不可能な要素を導入している。
本稿では,多様な現実の要求やシナリオに対して,適切なロボットタスク計画を作成することを目的とした,革新的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-01-15T18:01:59Z) - Learning adaptive planning representations with natural language
guidance [90.24449752926866]
本稿では,タスク固有の計画表現を自動構築するフレームワークであるAdaについて述べる。
Adaは、プランナー互換の高レベルアクション抽象化と、特定の計画タスク領域に適応した低レベルコントローラのライブラリを対話的に学習する。
論文 参考訳(メタデータ) (2023-12-13T23:35:31Z) - Embodied Task Planning with Large Language Models [86.63533340293361]
本研究では,現場制約を考慮した地上計画のための具体的タスクにおけるTAsk Planing Agent (TaPA)を提案する。
推論の際には,オープンボキャブラリオブジェクト検出器を様々な場所で収集された多視点RGB画像に拡張することにより,シーン内の物体を検出する。
実験の結果,我々のTaPAフレームワークから生成されたプランは,LLaVAやGPT-3.5よりも大きなマージンで高い成功率が得られることがわかった。
論文 参考訳(メタデータ) (2023-07-04T17:58:25Z) - Learning to Reason over Scene Graphs: A Case Study of Finetuning GPT-2
into a Robot Language Model for Grounded Task Planning [45.51792981370957]
本研究では,ロボットタスク計画における小クラス大規模言語モデル(LLM)の適用性について,計画立案者が順次実行するためのサブゴール仕様にタスクを分解することを学ぶことによって検討する。
本手法は,シーングラフとして表現される領域上でのLLMの入力に基づいて,人間の要求を実行可能なロボット計画に変換する。
本研究は,LLMに格納された知識を長期タスクプランニングに効果的に活用できることを示唆し,ロボット工学におけるニューロシンボリックプランニング手法の今後の可能性を示すものである。
論文 参考訳(メタデータ) (2023-05-12T18:14:32Z) - Plan, Eliminate, and Track -- Language Models are Good Teachers for
Embodied Agents [99.17668730578586]
事前訓練された大言語モデル(LLM)は、世界に関する手続き的な知識をキャプチャする。
Plan, Eliminate, and Track (PET)フレームワークはタスク記述をハイレベルなサブタスクのリストに変換する。
PETフレームワークは、人間の目標仕様への一般化のために、SOTAよりも15%改善されている。
論文 参考訳(メタデータ) (2023-05-03T20:11:22Z) - Learning to Plan with Natural Language [111.76828049344839]
大規模言語モデル(LLM)は、様々な基本自然言語タスクにおいて顕著な性能を示している。
複雑なタスクを完了するためには、ステップごとに特定のソリューションを生成するためにLCMをガイドするタスクの計画が必要です。
本研究では,(1)第1学習課題計画フェーズにおいて,LCMが学習エラーフィードバックから導出するように促した新たなステップバイステップのソリューションと行動指示を用いてタスク計画を反復的に更新する,という2つの段階を含む学習計画手法を提案する。
論文 参考訳(メタデータ) (2023-04-20T17:09:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。