論文の概要: CARTIER: Cartographic lAnguage Reasoning Targeted at Instruction
Execution for Robots
- arxiv url: http://arxiv.org/abs/2307.11865v2
- Date: Fri, 6 Oct 2023 15:41:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 05:31:48.660129
- Title: CARTIER: Cartographic lAnguage Reasoning Targeted at Instruction
Execution for Robots
- Title(参考訳): cartier: ロボットの命令実行を目的とした地図言語推論
- Authors: Dmitriy Rivkin, Nikhil Kakodkar, Francois Hogan, Bobak H. Baghi,
Gregory Dudek
- Abstract要約: 本研究は、空間計画とナビゲーションのための自然言語インタフェースの交わりにおける問題に対処する大規模言語モデルの能力について考察する。
我々は3DシミュレータAI2Thorを利用して、大規模かつ反復可能なシナリオを作成し、40のオブジェクトタイプに対して複雑な言語クエリを追加することで拡張する。
- 参考スコア(独自算出の注目度): 9.393951367344894
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work explores the capacity of large language models (LLMs) to address
problems at the intersection of spatial planning and natural language
interfaces for navigation.Our focus is on following relatively complex
instructions that are more akin to natural conversation than traditional
explicit procedural directives seen in robotics. Unlike most prior work, where
navigation directives are provided as imperative commands (e.g., go to the
fridge), we examine implicit directives within conversational interactions. We
leverage the 3D simulator AI2Thor to create complex and repeatable scenarios at
scale, and augment it by adding complex language queries for 40 object types.
We demonstrate that a robot can better parse descriptive language queries than
existing methods by using an LLM to interpret the user interaction in the
context of a list of the objects in the scene.
- Abstract(参考訳): 本研究は、空間計画とナビゲーションのための自然言語インタフェースの交点における問題に対処する大規模言語モデル(LLM)の能力について検討し、ロボット工学で見られる従来の明示的な手続き的指示よりも自然な会話に類似した比較的複雑な指示に従うことに焦点を当てる。
ナビゲーションディレクティブが命令コマンド(例えば冷蔵庫に行くなど)として提供される以前のほとんどの作業とは異なり、会話の相互作用の中で暗黙のディレクティブを調べる。
我々は3DシミュレータAI2Thorを利用して、大規模かつ反復可能なシナリオを作成し、40のオブジェクトタイプに対して複雑な言語クエリを追加することで拡張する。
llmを用いてシーン内のオブジェクトのリストのコンテキストにおけるユーザインタラクションを解釈することにより,ロボットは既存の手法よりも記述型言語クエリを解析できることを実証する。
関連論文リスト
- In-Context Learning Enables Robot Action Prediction in LLMs [52.285739178561705]
本稿では,ロボットの動作を直接予測する,オフザシェルフテキストのみの大規模言語モデルを実現するフレームワークであるRoboPromptを紹介する。
われわれのアプローチはまず、エピソードから重要な瞬間を捉えている。
我々は、初期オブジェクトのポーズだけでなく、エンドエフェクタアクションも抽出し、どちらもテキスト記述に変換する。
これにより、LLMはテスト時にロボットの動作を直接予測できる。
論文 参考訳(メタデータ) (2024-10-16T17:56:49Z) - Integrating Disambiguation and User Preferences into Large Language Models for Robot Motion Planning [1.9912315834033756]
フレームワークは、時間要素を含む人間のナビゲーションコマンドを解釈し、自然言語命令をロボットの動き計画に変換する。
本稿では,自然言語命令のあいまいさを解消し,ユーザの好みを捉える手法を提案する。
論文 参考訳(メタデータ) (2024-04-22T19:38:37Z) - Verifiably Following Complex Robot Instructions with Foundation Models [16.564788361518197]
人々は、柔軟に制約を表現し、任意のランドマークを参照し、ロボットに指示する際の検証を望みます。
本稿では,ロボットが表現的かつ複雑なオープンエンド命令を確実に追従できるような,動き計画のための言語指導基盤を提案する。
LIMは、インストラクターの意図したロボットのアライメントを明らかにする象徴的な指示表現を構築する。
論文 参考訳(メタデータ) (2024-02-18T08:05:54Z) - Object-Centric Instruction Augmentation for Robotic Manipulation [29.491990994901666]
我々は,高度にセマンティックで情報に富んだ言語命令を位置情報で拡張するために,textitObject-Centric Instruction Augmentation (OCI)フレームワークを導入する。
MLLM(Multi-modal Large Language Model)を用いて,オブジェクト位置の知識を自然言語に織り込む。
我々は,ロボットマニピュレータの模倣政策が,従来の言語指導にのみ依存する者よりも優れていることを実証した。
論文 参考訳(メタデータ) (2024-01-05T13:54:45Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - Instruct2Act: Mapping Multi-modality Instructions to Robotic Actions
with Large Language Model [63.66204449776262]
Instruct2Actは、ロボット操作タスクのシーケンシャルアクションにマルチモーダル命令をマッピングするフレームワークである。
我々のアプローチは、様々な命令のモダリティや入力タイプを調節する上で、調整可能で柔軟なものである。
我々のゼロショット法は、いくつかのタスクにおいて、最先端の学習ベースのポリシーよりも優れていた。
論文 参考訳(メタデータ) (2023-05-18T17:59:49Z) - ProgPrompt: Generating Situated Robot Task Plans using Large Language
Models [68.57918965060787]
大規模言語モデル(LLM)は、タスク計画中の潜在的な次のアクションを評価するために使用することができる。
本稿では, プログラム型LCMプロンプト構造を用いて, 配置環境間での計画生成機能を実現する。
論文 参考訳(メタデータ) (2022-09-22T20:29:49Z) - LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language,
Vision, and Action [76.71101507291473]
本稿では,無注釈の大規模軌跡データに対するトレーニングの恩恵を享受するロボットナビゲーションシステムLM-Navを提案する。
本研究では,ナビゲーション(ViNG),画像言語アソシエーション(CLIP),言語モデリング(GPT-3)の事前学習モデルから構築可能なシステムについて述べる。
論文 参考訳(メタデータ) (2022-07-10T10:41:50Z) - A Persistent Spatial Semantic Representation for High-level Natural
Language Instruction Execution [54.385344986265714]
本稿では,言語行動とロボット行動のギャップを埋めるために,永続的な空間意味表現法を提案する。
一般的なステップバイステップ命令を完全に回避しながら、ALFREDベンチマークに対する我々のアプローチを評価し、最先端の結果を得る。
論文 参考訳(メタデータ) (2021-07-12T17:47:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。