論文の概要: The RobotSlang Benchmark: Dialog-guided Robot Localization and
Navigation
- arxiv url: http://arxiv.org/abs/2010.12639v1
- Date: Fri, 23 Oct 2020 19:58:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 21:23:26.650174
- Title: The RobotSlang Benchmark: Dialog-guided Robot Localization and
Navigation
- Title(参考訳): RobotSlangベンチマーク: 対話誘導型ロボットのローカライゼーションとナビゲーション
- Authors: Shurjo Banerjee, Jesse Thomason, Jason J. Corso
- Abstract要約: 本稿では,ロボットを制御する人間ドライバーと,ナビゲーション目標へのガイダンスを提供する人間コマンドとの間の169の自然言語ダイアログのベンチマークを示す。
それぞれのトライアルでは、まずロボットがコマンドに見えるグローバルマップ上でローカライズされ、次にドライバーはコマンドに従ってロボットを対象のオブジェクトのシーケンスに移動させる。
NDHタスクの初期モデルを示し、シミュレーションで訓練されたエージェントが、物理ロボットプラットフォームを制御するためのRobotSlangダイアログベースのナビゲーション指示に従うことができることを示す。
- 参考スコア(独自算出の注目度): 35.0500437688086
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous robot systems for applications from search and rescue to assistive
guidance should be able to engage in natural language dialog with people. To
study such cooperative communication, we introduce Robot Simultaneous
Localization and Mapping with Natural Language (RobotSlang), a benchmark of 169
natural language dialogs between a human Driver controlling a robot and a human
Commander providing guidance towards navigation goals. In each trial, the pair
first cooperates to localize the robot on a global map visible to the
Commander, then the Driver follows Commander instructions to move the robot to
a sequence of target objects. We introduce a Localization from Dialog History
(LDH) and a Navigation from Dialog History (NDH) task where a learned agent is
given dialog and visual observations from the robot platform as input and must
localize in the global map or navigate towards the next target object,
respectively. RobotSlang is comprised of nearly 5k utterances and over 1k
minutes of robot camera and control streams. We present an initial model for
the NDH task, and show that an agent trained in simulation can follow the
RobotSlang dialog-based navigation instructions for controlling a physical
robot platform. Code and data are available at https://umrobotslang.github.io/.
- Abstract(参考訳): 検索・救助から支援指導まで,自律型ロボットシステムは,人と自然言語対話を行うことができるはずである。
このような協調的なコミュニケーションを研究するために,ロボットドライバとナビゲーション目標へのガイダンスを提供する人間コマンドとの間の169の自然言語ダイアログのベンチマークであるRobotSlang(Robot Simultaneous Localization and Mapping with Natural Language)を紹介した。
各試行で、まず2人は協力して、指揮官が見えるグローバルマップ上にロボットをローカライズし、その後、ドライバーは司令命令に従ってロボットを目標の一連のオブジェクトに移動させる。
対話履歴(ldh)からのローカライズと、学習エージェントが入力としてダイアログを与えられる対話履歴(ndh)タスクからのナビゲーションと、ロボットプラットフォームから視覚的な観察を行い、それぞれグローバルマップにローカライズするか、あるいは次のターゲットオブジェクトに向かってナビゲートする必要がある。
RobotSlangは、約5kの発話と1k分以上のロボットカメラと制御ストリームで構成されている。
NDHタスクの初期モデルを示し、シミュレーションで訓練されたエージェントが、物理ロボットプラットフォームを制御するためのRobotSlangダイアログベースのナビゲーション指示に従うことができることを示す。
コードとデータはhttps://umrobotslang.github.io/で入手できる。
関連論文リスト
- RoboScript: Code Generation for Free-Form Manipulation Tasks across Real
and Simulation [77.41969287400977]
本稿では,コード生成を利用したデプロイ可能なロボット操作パイプラインのためのプラットフォームである textbfRobotScript を提案する。
自由形自然言語におけるロボット操作タスクのためのコード生成ベンチマークも提案する。
我々は,Franka と UR5 のロボットアームを含む,複数のロボットエボディメントにまたがるコード生成フレームワークの適応性を実証した。
論文 参考訳(メタデータ) (2024-02-22T15:12:00Z) - Dobby: A Conversational Service Robot Driven by GPT-4 [22.701223191699412]
この研究は、対話型AIエージェントをサービスタスクの具体化システムに組み込むロボティクスプラットフォームを導入する。
このエージェントは、膨大な一般知識のコーパスから学んだ、大きな言語モデルに由来する。
本発明のエージェントは対話生成に加えて、ロボットのコマンドを呼び出し、物理世界と対話することができる。
論文 参考訳(メタデータ) (2023-10-10T04:34:00Z) - Incremental Learning of Humanoid Robot Behavior from Natural Interaction and Large Language Models [23.945922720555146]
本研究では,自然相互作用から複雑な行動の漸進的な学習を実現するシステムを提案する。
本システムは,ヒューマノイドロボットARMAR-6のロボット認知アーキテクチャに組み込まれている。
論文 参考訳(メタデータ) (2023-09-08T13:29:05Z) - WALL-E: Embodied Robotic WAiter Load Lifting with Large Language Model [92.90127398282209]
本稿では,最新のLarge Language Models(LLM)と既存のビジュアルグラウンドとロボットグルーピングシステムを統合する可能性について検討する。
本稿では,この統合の例としてWALL-E (Embodied Robotic WAiter load lifting with Large Language model)を紹介する。
我々は,このLCMを利用したシステムを物理ロボットに展開し,よりユーザフレンドリなインタフェースで指導誘導型把握タスクを実現する。
論文 参考訳(メタデータ) (2023-08-30T11:35:21Z) - HuBo-VLM: Unified Vision-Language Model designed for HUman roBOt
interaction tasks [5.057755436092344]
人間のロボットのインタラクションは、人間の指示に従ってロボットを誘導する、エキサイティングなタスクだ。
HuBo-VLMは人間のロボットのインタラクションに関連する知覚課題に取り組むために提案されている。
論文 参考訳(メタデータ) (2023-08-24T03:47:27Z) - Open-World Object Manipulation using Pre-trained Vision-Language Models [72.87306011500084]
ロボットが人からの指示に従うためには、人間の語彙の豊かな意味情報を繋げなければならない。
我々は、事前学習された視覚言語モデルを利用して、オブジェクト識別情報を抽出するシンプルなアプローチを開発する。
実際の移動マニピュレータにおける様々な実験において、MOOはゼロショットを様々な新しいオブジェクトカテゴリや環境に一般化する。
論文 参考訳(メタデータ) (2023-03-02T01:55:10Z) - LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language,
Vision, and Action [76.71101507291473]
本稿では,無注釈の大規模軌跡データに対するトレーニングの恩恵を享受するロボットナビゲーションシステムLM-Navを提案する。
本研究では,ナビゲーション(ViNG),画像言語アソシエーション(CLIP),言語モデリング(GPT-3)の事前学習モデルから構築可能なシステムについて述べる。
論文 参考訳(メタデータ) (2022-07-10T10:41:50Z) - Understanding Natural Language in Context [13.112390442564442]
我々は、世界の知識に基づくモデルを持ち、このモデルによる推論と計画によって操作する認知ロボットに焦点を当てる。
本研究の目的は,自然言語の発話をロボットのフォーマリズムに翻訳することである。
我々は、既製のSOTA言語モデル、計画ツール、ロボットの知識ベースを組み合わせてコミュニケーションを改善する。
論文 参考訳(メタデータ) (2022-05-25T11:52:16Z) - Self-supervised reinforcement learning for speaker localisation with the
iCub humanoid robot [58.2026611111328]
人の顔を見ることは、ノイズの多い環境での音声のフィルタリングに人間が依存するメカニズムの1つである。
スピーカーに目を向けるロボットを持つことは、挑戦的な環境でのASRのパフォーマンスに恩恵をもたらす可能性がある。
本稿では,人間の初期発達に触発された自己指導型強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-12T18:02:15Z) - Situated Multimodal Control of a Mobile Robot: Navigation through a
Virtual Environment [7.387138888226306]
協調ジェスチャーと言語を用いたナビゲーションロボットのための新しいインタフェースを提案する。
我々は、LIDARとカメラを備えたTurtleBot3ロボット、探索中にロボットが遭遇したことを具体化したシミュレーション、汎用的なコミュニケーションを容易にするクロスプラットフォームブリッジを使用する。
論文 参考訳(メタデータ) (2020-07-13T16:37:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。