論文の概要: Open-vocabulary Queryable Scene Representations for Real World Planning
- arxiv url: http://arxiv.org/abs/2209.09874v1
- Date: Tue, 20 Sep 2022 17:29:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-21 18:01:34.350445
- Title: Open-vocabulary Queryable Scene Representations for Real World Planning
- Title(参考訳): 実世界計画のためのオープンボキャブラリクエリー可能なシーン表現
- Authors: Boyuan Chen and Fei Xia and Brian Ichter and Kanishka Rao and
Keerthana Gopalakrishnan and Michael S. Ryoo and Austin Stone and Daniel
Kappler
- Abstract要約: 大規模言語モデル(LLM)は、ヒューマンインストラクションからタスクプランニングの新しい機能を解放した。
しかし、LLMを現実世界のロボットタスクに適用しようとする以前の試みは、周囲のシーンでの接地不足によって制限されている。
我々は,この問題を解決するために,オープンな語彙とクエリ可能なシーン表現であるNLMapを開発した。
- 参考スコア(独自算出の注目度): 56.175724306976505
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have unlocked new capabilities of task planning
from human instructions. However, prior attempts to apply LLMs to real-world
robotic tasks are limited by the lack of grounding in the surrounding scene. In
this paper, we develop NLMap, an open-vocabulary and queryable scene
representation to address this problem. NLMap serves as a framework to gather
and integrate contextual information into LLM planners, allowing them to see
and query available objects in the scene before generating a
context-conditioned plan. NLMap first establishes a natural language queryable
scene representation with Visual Language models (VLMs). An LLM based object
proposal module parses instructions and proposes involved objects to query the
scene representation for object availability and location. An LLM planner then
plans with such information about the scene. NLMap allows robots to operate
without a fixed list of objects nor executable options, enabling real robot
operation unachievable by previous methods. Project website:
https://nlmap-saycan.github.io
- Abstract(参考訳): 大規模言語モデル(LLM)は、人間の指示からタスク計画の新しい機能を解放した。
しかし、LLMを現実世界のロボットタスクに適用しようとする以前の試みは、周囲のシーンでの接地不足によって制限されている。
本稿では,この問題に対処するオープン語彙およびクエリ可能なシーン表現であるNLMapを開発する。
NLMapは、LLMプランナにコンテキスト情報を収集、統合するためのフレームワークとして機能し、コンテキスト条件のプランを生成する前に、シーンで利用可能なオブジェクトを閲覧、クエリすることができる。
NLMapはまず、ビジュアル言語モデル(VLM)を用いた自然言語クエリ可能なシーン表現を確立する。
LLMベースのオブジェクト提案モジュールは命令を解析し、オブジェクトの可用性と位置に関するシーン表現をクエリする関連オブジェクトを提案する。
LLMプランナーは、そのシーンに関するそのような情報を計画する。
NLMapは、固定されたオブジェクトのリストや実行可能なオプションなしでロボットを動作させることができる。
プロジェクトサイト: https://nlmap-saycan.github.io
関連論文リスト
- Tag Map: A Text-Based Map for Spatial Reasoning and Navigation with Large Language Models [15.454856838083511]
大言語モデル(LLM)は、ロボットが共通感覚推論を用いてタスクプランを生成するためのツールとして登場した。
最近の研究は、固定された意味クラスを持つ明示的な写像から暗黙的なオープンな語彙マップへと移行している。
LLMと簡単に統合しながら、数千のセマンティッククラスを表現できる明示的なテキストベースのマップを提案する。
論文 参考訳(メタデータ) (2024-09-23T18:26:19Z) - LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
視覚言語モデル(VLM)は、状態情報を視覚的テキストのプロンプトとして処理し、テキスト内のポリシー決定に応答することができる。
LLaRA:Large Language and Robotics Assistantは,ロボットの行動ポリシーを会話として定式化するフレームワークである。
論文 参考訳(メタデータ) (2024-06-28T17:59:12Z) - LLM-Grounder: Open-Vocabulary 3D Visual Grounding with Large Language
Model as an Agent [23.134180979449823]
3Dビジュアルグラウンドティングは、家庭用ロボットにとって重要なスキルであり、その環境に基づいて、オブジェクトをナビゲートし、操作し、質問に答えることを可能にする。
LLM-Grounderは,LLM(Large Language Model)をベースとした新しいゼロショット・オープンボキャブラリである。
以上の結果から,LLMは,特に複雑な言語クエリにおいて,グラウンド化能力を大幅に向上することが示唆された。
論文 参考訳(メタデータ) (2023-09-21T17:59:45Z) - March in Chat: Interactive Prompting for Remote Embodied Referring
Expression [33.64407469423714]
本稿では,新たに提案されたRoom-and-Object Aware Scene Perceiver (ROASP) に基づいて,LLMとリアルタイムで対話し,動的に計画を行うことができる3-in-Chat(MiC)モデルを提案する。
我々のMiCモデルは、REVERIEベンチマークにおいて、SPLとRGSPLの指標により、これまでの最先端よりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2023-08-20T03:00:20Z) - Embodied Task Planning with Large Language Models [86.63533340293361]
本研究では,現場制約を考慮した地上計画のための具体的タスクにおけるTAsk Planing Agent (TaPA)を提案する。
推論の際には,オープンボキャブラリオブジェクト検出器を様々な場所で収集された多視点RGB画像に拡張することにより,シーン内の物体を検出する。
実験の結果,我々のTaPAフレームワークから生成されたプランは,LLaVAやGPT-3.5よりも大きなマージンで高い成功率が得られることがわかった。
論文 参考訳(メタデータ) (2023-07-04T17:58:25Z) - A Picture is Worth a Thousand Words: Language Models Plan from Pixels [53.85753597586226]
計画は, 実環境下で長時間の作業を行う人工エージェントの重要な機能である。
本研究では,事前学習型言語モデル(PLM)を用いて,具体的視覚環境におけるテキスト命令からのプランシーケンスを推論する。
論文 参考訳(メタデータ) (2023-03-16T02:02:18Z) - ProgPrompt: Generating Situated Robot Task Plans using Large Language
Models [68.57918965060787]
大規模言語モデル(LLM)は、タスク計画中の潜在的な次のアクションを評価するために使用することができる。
本稿では, プログラム型LCMプロンプト構造を用いて, 配置環境間での計画生成機能を実現する。
論文 参考訳(メタデータ) (2022-09-22T20:29:49Z) - Language Models as Zero-Shot Planners: Extracting Actionable Knowledge
for Embodied Agents [111.33545170562337]
自然言語で表現された高レベルなタスクを、選択された実行可能なステップのセットに基底付ける可能性について検討する。
事前学習したLMが十分に大きく、適切に誘導された場合、ハイレベルなタスクを効果的に低レベルな計画に分解できることがわかった。
本稿では,既存の実演の条件を規定し,計画が許容可能な行動に意味的に変換される手順を提案する。
論文 参考訳(メタデータ) (2022-01-18T18:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。