論文の概要: Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks
- arxiv url: http://arxiv.org/abs/2312.06876v1
- Date: Mon, 11 Dec 2023 22:54:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 17:59:55.919480
- Title: Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks
- Title(参考訳): 部分可観測ロボットタスクのための大規模言語モデルを用いた対話型計画
- Authors: Lingfeng Sun, Devesh K. Jha, Chiori Hori, Siddarth Jain, Radu
Corcodel, Xinghao Zhu, Masayoshi Tomizuka, Diego Romeres
- Abstract要約: 大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
- 参考スコア(独自算出の注目度): 54.60571399091711
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Designing robotic agents to perform open vocabulary tasks has been the
long-standing goal in robotics and AI. Recently, Large Language Models (LLMs)
have achieved impressive results in creating robotic agents for performing open
vocabulary tasks. However, planning for these tasks in the presence of
uncertainties is challenging as it requires \enquote{chain-of-thought}
reasoning, aggregating information from the environment, updating state
estimates, and generating actions based on the updated state estimates. In this
paper, we present an interactive planning technique for partially observable
tasks using LLMs. In the proposed method, an LLM is used to collect missing
information from the environment using a robot and infer the state of the
underlying problem from collected observations while guiding the robot to
perform the required actions. We also use a fine-tuned Llama 2 model via
self-instruct and compare its performance against a pre-trained LLM like GPT-4.
Results are demonstrated on several tasks in simulation as well as real-world
environments. A video describing our work along with some results could be
found here.
- Abstract(参考訳): オープン語彙タスクを実行するロボットエージェントを設計することは、ロボット工学とAIの長年の目標だった。
近年,Large Language Models (LLMs) は,オープン語彙タスクを実行するロボットエージェントの開発において,目覚ましい成果を上げている。
しかしながら、不確実性が存在する場合のこれらのタスクの計画には、‘enquote{chain-of- Thought’推論、環境からの情報の集約、状態推定の更新、更新された状態推定に基づくアクションの生成が必要であるため、難しい。
本稿では,llmsを用いた部分可観測タスクのためのインタラクティブな計画手法を提案する。
提案手法では,LLMを用いてロボットを用いて環境から不足情報を収集し,必要な動作を指示しながら,収集した観測結果から根底にある問題の状態を推定する。
また、自己指示による微調整Llama 2モデルを使用し、その性能をGPT-4のような事前学習LLMと比較する。
実環境と同様にシミュレーションのいくつかのタスクで結果が示される。
私たちの研究といくつかの成果を説明したビデオがここにある。
関連論文リスト
- Solving Robotics Problems in Zero-Shot with Vision-Language Models [0.0]
ゼロショット方式でロボットの問題を解くために設計された多エージェント視覚大言語モデル(VLLM)フレームワークであるWonderful Teamを紹介した。
我々の文脈では、ゼロショットは、新しい環境において、ロボットの周囲のイメージとタスク記述を備えたVLLMを提供することを意味する。
私たちのシステムは、操作、ゴールリーチ、視覚的推論といった多様なタスクを、すべてゼロショットで処理できる能力を示しています。
論文 参考訳(メタデータ) (2024-07-26T21:18:57Z) - WorkArena++: Towards Compositional Planning and Reasoning-based Common Knowledge Work Tasks [85.95607119635102]
大型言語モデル(LLM)は人間のような知性を模倣することができる。
WorkArena++は、Webエージェントの計画、問題解決、論理的/論理的推論、検索、コンテキスト的理解能力を評価するように設計されている。
論文 参考訳(メタデータ) (2024-07-07T07:15:49Z) - LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
視覚言語モデル(VLM)は、状態情報を視覚的テキストのプロンプトとして処理し、テキスト内のポリシー決定に応答することができる。
LLaRA:Large Language and Robotics Assistantは,ロボットの行動ポリシーを会話として定式化するフレームワークである。
論文 参考訳(メタデータ) (2024-06-28T17:59:12Z) - LLARVA: Vision-Action Instruction Tuning Enhances Robot Learning [50.99807031490589]
LLARVAは,ロボット学習タスク,シナリオ,環境を統一するための,新しい指導指導法で訓練されたモデルである。
我々は,Open X-Embodimentデータセットから8.5Mの画像-視覚的トレースペアを生成し,モデルを事前学習する。
実験によって強い性能が得られ、LLARVAは現代のいくつかのベースラインと比較してよく機能することを示した。
論文 参考訳(メタデータ) (2024-06-17T17:55:29Z) - VoxPoser: Composable 3D Value Maps for Robotic Manipulation with
Language Models [38.503337052122234]
大規模言語モデル(LLM)は、ロボット操作のために抽出できる豊富な行動可能な知識を持っていることが示されている。
我々は,オープンな命令セットとオープンなオブジェクトセットが与えられた様々な操作タスクに対して,ロボット軌道を合成することを目指している。
筆者らは,接触に富んだインタラクションを含むシーンのダイナミックスモデルを効率的に学習することで,提案フレームワークがオンライン体験の恩恵を享受できることを実証する。
論文 参考訳(メタデータ) (2023-07-12T07:40:48Z) - AutoTAMP: Autoregressive Task and Motion Planning with LLMs as Translators and Checkers [20.857692296678632]
人間とロボットの効果的なインタラクションには、ロボットは複雑な長期的タスクを理解し、計画し、実行する必要がある。
大規模言語モデルの最近の進歩は、自然言語をロボットのアクションシーケンスに変換することを約束している。
本研究では,複雑なタスク領域において,LLMをプランナとして用いる手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-10T21:58:29Z) - Instruct2Act: Mapping Multi-modality Instructions to Robotic Actions
with Large Language Model [63.66204449776262]
Instruct2Actは、ロボット操作タスクのシーケンシャルアクションにマルチモーダル命令をマッピングするフレームワークである。
我々のアプローチは、様々な命令のモダリティや入力タイプを調節する上で、調整可能で柔軟なものである。
我々のゼロショット法は、いくつかのタスクにおいて、最先端の学習ベースのポリシーよりも優れていた。
論文 参考訳(メタデータ) (2023-05-18T17:59:49Z) - Chat with the Environment: Interactive Multimodal Perception Using Large
Language Models [19.623070762485494]
大型言語モデル(LLM)は、数発のロボット計画において顕著な推論能力を示している。
本研究は,LLMがマルチモーダル環境下での対話型ロボットの動作を制御し,高レベルな計画と推論能力を提供することを示す。
論文 参考訳(メタデータ) (2023-03-14T23:01:27Z) - ProgPrompt: Generating Situated Robot Task Plans using Large Language
Models [68.57918965060787]
大規模言語モデル(LLM)は、タスク計画中の潜在的な次のアクションを評価するために使用することができる。
本稿では, プログラム型LCMプロンプト構造を用いて, 配置環境間での計画生成機能を実現する。
論文 参考訳(メタデータ) (2022-09-22T20:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。