論文の概要: Language Understanding for Field and Service Robots in a Priori Unknown
Environments
- arxiv url: http://arxiv.org/abs/2105.10396v1
- Date: Fri, 21 May 2021 15:13:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-25 03:21:20.021802
- Title: Language Understanding for Field and Service Robots in a Priori Unknown
Environments
- Title(参考訳): 事前未知環境における現場・サービスロボットのための言語理解
- Authors: Matthew R. Walter, Siddharth Patki, Andrea F. Daniele, Ethan
Fahnestock, Felix Duvallet, Sachithra Hemachandra, Jean Oh, Anthony Stentz,
Nicholas Roy, and Thomas M. Howard
- Abstract要約: 本稿では,フィールドロボットとサービスロボットによる自然言語命令の解釈と実行を可能にする,新しい学習フレームワークを提案する。
自然言語の発話において、空間的、位相的、意味的な情報を暗黙的に推測する。
本研究では,この分布を確率論的言語基底モデルに組み込んで,ロボットの行動空間のシンボル表現上の分布を推定する。
- 参考スコア(独自算出の注目度): 29.16936249846063
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Contemporary approaches to perception, planning, estimation, and control have
allowed robots to operate robustly as our remote surrogates in uncertain,
unstructured environments. There is now an opportunity for robots to operate
not only in isolation, but also with and alongside humans in our complex
environments. Natural language provides an efficient and flexible medium
through which humans can communicate with collaborative robots. Through
significant progress in statistical methods for natural language understanding,
robots are now able to interpret a diverse array of free-form navigation,
manipulation, and mobile manipulation commands. However, most contemporary
approaches require a detailed prior spatial-semantic map of the robot's
environment that models the space of possible referents of the utterance.
Consequently, these methods fail when robots are deployed in new, previously
unknown, or partially observed environments, particularly when mental models of
the environment differ between the human operator and the robot. This paper
provides a comprehensive description of a novel learning framework that allows
field and service robots to interpret and correctly execute natural language
instructions in a priori unknown, unstructured environments. Integral to our
approach is its use of language as a "sensor" -- inferring spatial,
topological, and semantic information implicit in natural language utterances
and then exploiting this information to learn a distribution over a latent
environment model. We incorporate this distribution in a probabilistic language
grounding model and infer a distribution over a symbolic representation of the
robot's action space. We use imitation learning to identify a belief space
policy that reasons over the environment and behavior distributions. We
evaluate our framework through a variety of different navigation and mobile
manipulation experiments.
- Abstract(参考訳): 認識、計画、推定、制御に対する現代のアプローチにより、ロボットは不確実で非構造的な環境において、我々のリモートサロゲートとして堅牢に動作することができた。
現在、ロボットは孤立した環境だけでなく、複雑な環境の中で人間と一緒に活動する機会があります。
自然言語は、人間が協調ロボットとコミュニケーションできる効率的で柔軟な媒体を提供する。
自然言語理解のための統計的手法の大幅な進歩により、ロボットは様々な自由形式のナビゲーション、操作、移動操作コマンドを解釈できるようになった。
しかし、現代のほとんどのアプローチでは、発話の可能な参照者の空間をモデル化するロボット環境の詳細な空間意味マップが必要である。
その結果、ロボットが新しい、以前は知られていなかった、あるいは部分的に観察された環境に展開された場合、特に環境のメンタルモデルが人間とロボットの間で異なる場合、これらの方法は失敗する。
本稿では,フィールドロボットとサービスロボットが,未知の非構造環境下で自然言語命令を解釈し,正しく実行できるようにする,新しい学習フレームワークの包括的記述を提供する。
自然言語の発話で暗黙的に空間的、位相的、意味的な情報を推測し、この情報を利用して潜伏環境モデル上の分布を学習する。
本研究では,この分布を確率論的言語基底モデルに組み込んで,ロボットの行動空間のシンボル表現上の分布を推定する。
我々は,環境や行動分布の理由となる信念空間政策を模倣学習を用いて同定する。
我々は,様々なナビゲーションおよびモバイル操作実験を通じて,我々のフレームワークを評価する。
関連論文リスト
- Exploring Large Language Models to Facilitate Variable Autonomy for
Human-Robot Teaming [5.371337604556312]
本稿では,VR(Unity Virtual Reality)設定に基づく,GPTを利用したマルチロボットテストベッド環境のための新しいフレームワークを提案する。
このシステムにより、ユーザーは自然言語でロボットエージェントと対話でき、それぞれが個々のGPTコアで動く。
12人の参加者によるユーザスタディでは、GPT-4の有効性と、さらに重要なのは、マルチロボット環境で自然言語で会話する機会を与えられる際のユーザ戦略について検討している。
論文 参考訳(メタデータ) (2023-12-12T12:26:48Z) - Navigation with Large Language Models: Semantic Guesswork as a Heuristic
for Planning [73.0990339667978]
不慣れな環境でのナビゲーションは、ロボットにとって大きな課題となる。
言語モデルを用いて、新しい現実世界環境のバイアス探索を行う。
実環境におけるLFGの評価とシミュレーションベンチマークを行った。
論文 参考訳(メタデータ) (2023-10-16T06:21:06Z) - Pave the Way to Grasp Anything: Transferring Foundation Models for
Universal Pick-Place Robots [50.73735524550534]
そこで本稿では,最先端基礎モデルによって生成された言語基底セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
マスクから伝達される正確なセマンティクスとジオメトリを多視点ポリシーモデルに統合することにより、正確なオブジェクトのポーズを認識し、サンプル効率のよい学習を可能にする。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - Open-World Object Manipulation using Pre-trained Vision-Language Models [72.87306011500084]
ロボットが人からの指示に従うためには、人間の語彙の豊かな意味情報を繋げなければならない。
我々は、事前学習された視覚言語モデルを利用して、オブジェクト識別情報を抽出するシンプルなアプローチを開発する。
実際の移動マニピュレータにおける様々な実験において、MOOはゼロショットを様々な新しいオブジェクトカテゴリや環境に一般化する。
論文 参考訳(メタデータ) (2023-03-02T01:55:10Z) - "No, to the Right" -- Online Language Corrections for Robotic
Manipulation via Shared Autonomy [70.45420918526926]
LILACは、実行中に自然言語の修正をオンラインで実施し、適応するためのフレームワークである。
LILACは人間とロボットを個別にターンテイクする代わりに、人間とロボットの間にエージェンシーを分割する。
提案手法は,タスク完了率が高く,ユーザによって主観的に好まれることを示す。
論文 参考訳(メタデータ) (2023-01-06T15:03:27Z) - Enhancing Interpretability and Interactivity in Robot Manipulation: A
Neurosymbolic Approach [0.0]
本稿では,言語誘導型視覚推論とロボット操作を結合したニューロシンボリックアーキテクチャを提案する。
非熟練の人間ユーザは、制約のない自然言語を用いてロボットに刺激を与え、参照表現(REF)、質問(VQA)、把握動作指示を提供する。
シミュレーション環境では,3次元視覚と言語によるテーブルトップシーンの合成データセットを作成し,我々のアプローチを訓練し,合成シーンと実世界のシーンの両方で広範な評価を行う。
論文 参考訳(メタデータ) (2022-10-03T12:21:45Z) - What Matters in Language Conditioned Robotic Imitation Learning [26.92329260907805]
オフラインのフリーフォーム模倣データセットから言語条件付きポリシーを学習する際の最も重要な課題について検討する。
本稿では,CALVINベンチマークを用いて,言語条件の難易度を向上する手法を提案する。
論文 参考訳(メタデータ) (2022-04-13T08:45:32Z) - Do As I Can, Not As I Say: Grounding Language in Robotic Affordances [119.29555551279155]
大規模な言語モデルは、世界に関する豊富な意味知識を符号化することができる。
このような知識は、自然言語で表現された高レベルで時間的に拡張された命令を動作させようとするロボットにとって極めて有用である。
低レベルのスキルを大規模言語モデルと組み合わせることで,言語モデルが複雑かつ時間的に拡張された命令を実行する手順について高いレベルの知識を提供することを示す。
論文 参考訳(メタデータ) (2022-04-04T17:57:11Z) - Reshaping Robot Trajectories Using Natural Language Commands: A Study of
Multi-Modal Data Alignment Using Transformers [33.7939079214046]
我々は、人間とロボットのコラボレーションのための柔軟な言語ベースのインタフェースを提供する。
我々は、ユーザコマンドをエンコードする大規模言語モデルの分野における最近の進歩を生かしている。
言語コマンドによって修正されたロボット軌跡を含むデータセット上で、模倣学習を用いてモデルを訓練する。
論文 参考訳(メタデータ) (2022-03-25T01:36:56Z) - Learning Language-Conditioned Robot Behavior from Offline Data and
Crowd-Sourced Annotation [80.29069988090912]
本研究では,ロボットインタラクションの大規模なオフラインデータセットから視覚に基づく操作タスクを学習する問題について検討する。
クラウドソースの自然言語ラベルを用いたオフラインロボットデータセットの活用を提案する。
提案手法は目標画像仕様と言語条件付き模倣技術の両方を25%以上上回っていることがわかった。
論文 参考訳(メタデータ) (2021-09-02T17:42:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。