論文の概要: Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks
- arxiv url: http://arxiv.org/abs/2312.06876v1
- Date: Mon, 11 Dec 2023 22:54:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 17:59:55.919480
- Title: Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks
- Title(参考訳): 部分可観測ロボットタスクのための大規模言語モデルを用いた対話型計画
- Authors: Lingfeng Sun, Devesh K. Jha, Chiori Hori, Siddarth Jain, Radu
Corcodel, Xinghao Zhu, Masayoshi Tomizuka, Diego Romeres
- Abstract要約: 大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
- 参考スコア(独自算出の注目度): 54.60571399091711
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Designing robotic agents to perform open vocabulary tasks has been the
long-standing goal in robotics and AI. Recently, Large Language Models (LLMs)
have achieved impressive results in creating robotic agents for performing open
vocabulary tasks. However, planning for these tasks in the presence of
uncertainties is challenging as it requires \enquote{chain-of-thought}
reasoning, aggregating information from the environment, updating state
estimates, and generating actions based on the updated state estimates. In this
paper, we present an interactive planning technique for partially observable
tasks using LLMs. In the proposed method, an LLM is used to collect missing
information from the environment using a robot and infer the state of the
underlying problem from collected observations while guiding the robot to
perform the required actions. We also use a fine-tuned Llama 2 model via
self-instruct and compare its performance against a pre-trained LLM like GPT-4.
Results are demonstrated on several tasks in simulation as well as real-world
environments. A video describing our work along with some results could be
found here.
- Abstract(参考訳): オープン語彙タスクを実行するロボットエージェントを設計することは、ロボット工学とAIの長年の目標だった。
近年,Large Language Models (LLMs) は,オープン語彙タスクを実行するロボットエージェントの開発において,目覚ましい成果を上げている。
しかしながら、不確実性が存在する場合のこれらのタスクの計画には、‘enquote{chain-of- Thought’推論、環境からの情報の集約、状態推定の更新、更新された状態推定に基づくアクションの生成が必要であるため、難しい。
本稿では,llmsを用いた部分可観測タスクのためのインタラクティブな計画手法を提案する。
提案手法では,LLMを用いてロボットを用いて環境から不足情報を収集し,必要な動作を指示しながら,収集した観測結果から根底にある問題の状態を推定する。
また、自己指示による微調整Llama 2モデルを使用し、その性能をGPT-4のような事前学習LLMと比較する。
実環境と同様にシミュレーションのいくつかのタスクで結果が示される。
私たちの研究といくつかの成果を説明したビデオがここにある。
関連論文リスト
- MOKA: Open-Vocabulary Robotic Manipulation through Mark-Based Visual
Prompting [106.53784213239479]
Moka(Marking Open-vocabulary Keypoint Affordances)は,視覚言語モデルを用いたロボット操作タスクの解法である。
我々のアプローチの核心は、物理的世界におけるVLMのRGB画像とロボットの動きの予測を橋渡しする、手頃さと動きのコンパクトなポイントベース表現である。
我々は,自由形式の言語記述によって規定される様々な操作タスクに対して,Mokaの性能を評価し,分析する。
論文 参考訳(メタデータ) (2024-03-05T18:08:45Z) - EgoPlan-Bench: Benchmarking Egocentric Embodied Planning with Multimodal
Large Language Models [87.8282946526824]
EgoPlan-Benchという人間のアノテーションを用いたベンチマークを導入し,MLLMの具体的タスクプランナとしての可能性について定量的に検討する。
各種オープンソースMLLMを評価し,これらのモデルがまだ具体化された計画ジェネラリストに進化していないことを明らかにした。
我々は,高レベルのタスクプランニングの学習を容易にするために,人間とオブジェクトのインタラクションのビデオから指導学習データセットEgoPlan-ITを構築した。
論文 参考訳(メタデータ) (2023-12-11T03:35:58Z) - VoxPoser: Composable 3D Value Maps for Robotic Manipulation with
Language Models [38.503337052122234]
大規模言語モデル(LLM)は、ロボット操作のために抽出できる豊富な行動可能な知識を持っていることが示されている。
我々は,オープンな命令セットとオープンなオブジェクトセットが与えられた様々な操作タスクに対して,ロボット軌道を合成することを目指している。
筆者らは,接触に富んだインタラクションを含むシーンのダイナミックスモデルを効率的に学習することで,提案フレームワークがオンライン体験の恩恵を享受できることを実証する。
論文 参考訳(メタデータ) (2023-07-12T07:40:48Z) - Language to Rewards for Robotic Skill Synthesis [37.21434094015743]
我々は,大規模言語モデル(LLM)を利用して,様々なロボットタスクを最適化し,達成可能な報酬パラメータを定義する新しいパラダイムを提案する。
LLMが生成する中間インタフェースとして報酬を用いることで、ハイレベルな言語命令と修正のギャップを、低レベルなロボット動作に効果的に埋めることができる。
論文 参考訳(メタデータ) (2023-06-14T17:27:10Z) - AutoTAMP: Autoregressive Task and Motion Planning with LLMs as
Translators and Checkers [22.10114075378893]
人間とロボットの効果的なインタラクションには、ロボットは複雑な長期的タスクを理解し、計画し、実行する必要がある。
大規模言語モデルの最近の進歩は、自然言語をロボットのアクションシーケンスに変換することを約束している。
本研究では,複雑なタスク領域において,LLMをプランナとして用いる手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-10T21:58:29Z) - AlphaBlock: Embodied Finetuning for Vision-Language Reasoning in Robot
Manipulation [50.737355245505334]
本稿では,ロボット操作タスクにおける高レベル認知能力を学習するための新しいフレームワークを提案する。
得られたデータセットAlphaBlockは、多段階のテキストプランとペア観測による35の包括的なハイレベルタスクで構成されている。
論文 参考訳(メタデータ) (2023-05-30T09:54:20Z) - Instruct2Act: Mapping Multi-modality Instructions to Robotic Actions
with Large Language Model [63.66204449776262]
Instruct2Actは、ロボット操作タスクのシーケンシャルアクションにマルチモーダル命令をマッピングするフレームワークである。
我々のアプローチは、様々な命令のモダリティや入力タイプを調節する上で、調整可能で柔軟なものである。
我々のゼロショット法は、いくつかのタスクにおいて、最先端の学習ベースのポリシーよりも優れていた。
論文 参考訳(メタデータ) (2023-05-18T17:59:49Z) - Chat with the Environment: Interactive Multimodal Perception Using Large
Language Models [19.623070762485494]
大型言語モデル(LLM)は、数発のロボット計画において顕著な推論能力を示している。
本研究は,LLMがマルチモーダル環境下での対話型ロボットの動作を制御し,高レベルな計画と推論能力を提供することを示す。
論文 参考訳(メタデータ) (2023-03-14T23:01:27Z) - ProgPrompt: Generating Situated Robot Task Plans using Large Language
Models [68.57918965060787]
大規模言語モデル(LLM)は、タスク計画中の潜在的な次のアクションを評価するために使用することができる。
本稿では, プログラム型LCMプロンプト構造を用いて, 配置環境間での計画生成機能を実現する。
論文 参考訳(メタデータ) (2022-09-22T20:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。