論文の概要: DRAGON: A Dialogue-Based Robot for Assistive Navigation with Visual
Language Grounding
- arxiv url: http://arxiv.org/abs/2307.06924v3
- Date: Tue, 5 Mar 2024 05:02:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 03:07:46.856180
- Title: DRAGON: A Dialogue-Based Robot for Assistive Navigation with Visual
Language Grounding
- Title(参考訳): DRAGON:視覚言語接地による補助ナビゲーションのための対話型ロボット
- Authors: Shuijing Liu, Aamir Hasan, Kaiwen Hong, Runxuan Wang, Peixin Chang,
Zachary Mizrachi, Justin Lin, D. Livingston McPherson, Wendy A. Rogers, and
Katherine Driggs-Campbell
- Abstract要約: DRAGONは対話システムと環境と自然言語を関連付ける能力を備えた誘導ロボットである。
ユーザからのコマンドを理解することで、DRAGONはユーザを地図上の望ましいランドマークに誘導し、環境を記述し、視覚的な観察から質問に答えることができる。
本研究は,DRAGONがユーザと円滑にコミュニケーションし,優れたガイド体験を提供し,ユーザと周囲環境を直感的に接続できることを実証するものである。
- 参考スコア(独自算出の注目度): 10.036997080009462
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Persons with visual impairments (PwVI) have difficulties understanding and
navigating spaces around them. Current wayfinding technologies either focus
solely on navigation or provide limited communication about the environment.
Motivated by recent advances in visual-language grounding and semantic
navigation, we propose DRAGON, a guiding robot powered by a dialogue system and
the ability to associate the environment with natural language. By
understanding the commands from the user, DRAGON is able to guide the user to
the desired landmarks on the map, describe the environment, and answer
questions from visual observations. Through effective utilization of dialogue,
the robot can ground the user's free-form descriptions to landmarks in the
environment, and give the user semantic information through spoken language. We
conduct a user study with blindfolded participants in an everyday indoor
environment. Our results demonstrate that DRAGON is able to communicate with
the user smoothly, provide a good guiding experience, and connect users with
their surrounding environment in an intuitive manner. Videos and code are
available at https://sites.google.com/view/dragon-wayfinding/home.
- Abstract(参考訳): 視覚障害者(PwVI)は周囲の空間の理解とナビゲーションが困難である。
現在のwayfinding技術は、ナビゲーションのみにフォーカスするか、環境に関する限られたコミュニケーションを提供する。
近年の視覚的接地とセマンティックナビゲーションの進歩に触発されて,対話システムを利用した誘導ロボットDRAGONと,環境と自然言語を関連付ける能力を提案する。
ユーザからのコマンドを理解することで、DRAGONはユーザを地図上の望ましいランドマークに誘導し、環境を記述し、視覚的な観察から質問に答えることができる。
対話の効果的な利用により、ロボットはユーザーの自由形式の記述を環境のランドマークに接地し、音声言語を介してユーザの意味情報を与えることができる。
我々は,日常的な室内環境において,目隠しされた参加者とユーザスタディを行う。
本研究は,DRAGONがユーザと円滑にコミュニケーションし,優れたガイド体験を提供し,ユーザと周囲環境を直感的に接続できることを実証するものである。
ビデオとコードはhttps://sites.google.com/view/dragon-wayfinding/homeで入手できる。
関連論文リスト
- Human-Robot Dialogue Annotation for Multi-Modal Common Ground [4.665414514091581]
本稿では,人間とロボットの対話データにアノテートした記号表現の開発について述べる。
遠隔対話では,人間とロボットが不慣れな環境における共同ナビゲーションと探索作業に従事しているが,ロボットは限られた通信制約のため,すぐには高品質な視覚情報を共有できない。
このパラダイム内では、抽象的意味表現の強化である対話-AMRアノテーションを通じて、対話中の1つの発話の命題意味と補間力を取り込む。
論文 参考訳(メタデータ) (2024-11-19T19:33:54Z) - WorldScribe: Towards Context-Aware Live Visual Descriptions [11.386457160697384]
我々は,ユーザのコンテキストに適応してカスタマイズ可能な実世界のビジュアル記述を自動的に生成するシステムであるWorldScribeを開発した。
WorldScribeは、視覚、言語、および音声認識モデルを組み合わせて、リアルタイム使用をサポートする記述生成パイプラインを導入している。
論文 参考訳(メタデータ) (2024-08-13T04:32:45Z) - Navigation with Large Language Models: Semantic Guesswork as a Heuristic
for Planning [73.0990339667978]
不慣れな環境でのナビゲーションは、ロボットにとって大きな課題となる。
言語モデルを用いて、新しい現実世界環境のバイアス探索を行う。
実環境におけるLFGの評価とシミュレーションベンチマークを行った。
論文 参考訳(メタデータ) (2023-10-16T06:21:06Z) - Think, Act, and Ask: Open-World Interactive Personalized Robot Navigation [17.279875204729553]
Zero-Shot Object Navigation (ZSON)は、エージェントが未知の環境でオープン語彙オブジェクトへナビゲートすることを可能にする。
ZIPONでは、ユーザーとの会話をしながら、ロボットがパーソナライズされた目標オブジェクトにナビゲートする必要がある。
我々は、知覚、ナビゲーション、コミュニケーションのための異なるモジュールを操作するためのシーケンシャルな決定を行うために、Open-woRld Interactive persOnalized Navigation (ORION)を提案する。
論文 参考訳(メタデータ) (2023-10-12T01:17:56Z) - LangNav: Language as a Perceptual Representation for Navigation [63.90602960822604]
視覚・言語ナビゲーション(VLN)における知覚表現としての言語の利用について検討する。
提案手法では,画像キャプションや物体検出に市販の視覚システムを用いて,エージェントのエゴセントリックなパノラマビューを各ステップで自然言語記述に変換する。
論文 参考訳(メタデータ) (2023-10-11T20:52:30Z) - Embodied Agents for Efficient Exploration and Smart Scene Description [47.82947878753809]
我々は、自律的なエージェントが見えない屋内環境を探索し、マッピングする必要がある視覚ナビゲーションの設定に取り組む。
本稿では,視覚ロボット探査と画像キャプションの最近の進歩を組み合わせたアプローチを提案し,評価する。
提案手法は,環境の意味的知識を最大化し,繰り返しを避けるスマートなシーン記述を生成する。
論文 参考訳(メタデータ) (2023-01-17T19:28:01Z) - Enhancing Interpretability and Interactivity in Robot Manipulation: A
Neurosymbolic Approach [0.0]
本稿では,言語誘導型視覚推論とロボット操作を結合したニューロシンボリックアーキテクチャを提案する。
非熟練の人間ユーザは、制約のない自然言語を用いてロボットに刺激を与え、参照表現(REF)、質問(VQA)、把握動作指示を提供する。
シミュレーション環境では,3次元視覚と言語によるテーブルトップシーンの合成データセットを作成し,我々のアプローチを訓練し,合成シーンと実世界のシーンの両方で広範な評価を行う。
論文 参考訳(メタデータ) (2022-10-03T12:21:45Z) - Gesture2Path: Imitation Learning for Gesture-aware Navigation [54.570943577423094]
Gesture2Pathは、画像に基づく模倣学習とモデル予測制御を組み合わせた新しいソーシャルナビゲーション手法である。
実際のロボットに本手法をデプロイし,4つのジェスチャーナビゲーションシナリオに対するアプローチの有効性を示す。
論文 参考訳(メタデータ) (2022-09-19T23:05:36Z) - LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language,
Vision, and Action [76.71101507291473]
本稿では,無注釈の大規模軌跡データに対するトレーニングの恩恵を享受するロボットナビゲーションシステムLM-Navを提案する。
本研究では,ナビゲーション(ViNG),画像言語アソシエーション(CLIP),言語モデリング(GPT-3)の事前学習モデルから構築可能なシステムについて述べる。
論文 参考訳(メタデータ) (2022-07-10T10:41:50Z) - CLEAR: Improving Vision-Language Navigation with Cross-Lingual,
Environment-Agnostic Representations [98.30038910061894]
VLN(Vision-and-Language Navigation)タスクでは、エージェントが言語命令に基づいて環境をナビゲートする必要がある。
CLEAR: 言語横断表現と環境非依存表現を提案する。
我々の言語と視覚表現は、Room-to-Room and Cooperative Vision-and-Dialogue Navigationタスクにうまく転送できる。
論文 参考訳(メタデータ) (2022-07-05T17:38:59Z) - Composing Pick-and-Place Tasks By Grounding Language [41.075844857146805]
制約のない言語指示に従って任意の物体を選定・配置するロボットシステムを提案する。
提案手法は,入力画像と言語表現からオブジェクトとその関係を推定する。
実世界のpr2ロボットを用いて得られた結果は,本手法の有効性を示す。
論文 参考訳(メタデータ) (2021-02-16T11:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。