論文の概要: What Is Near?: Room Locality Learning for Enhanced Robot
Vision-Language-Navigation in Indoor Living Environments
- arxiv url: http://arxiv.org/abs/2309.05036v1
- Date: Sun, 10 Sep 2023 14:15:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-12 14:57:50.465335
- Title: What Is Near?: Room Locality Learning for Enhanced Robot
Vision-Language-Navigation in Indoor Living Environments
- Title(参考訳): 何が近いのか?
室内環境におけるロボット視覚言語学習のための室内局所学習
- Authors: Muraleekrishna Gopinathan, Jumana Abu-Khalaf, David Suter, Sidike
Paheding and Nathir A. Rawashdeh
- Abstract要約: 視覚言語ナビゲーション(VLN)タスクのための共通センス学習モデルWINを提案する。
WINは、居住空間の事前の知識と現在の観測に基づいて、周辺地域の地図を予測する。
そこで本研究では,地域知識に基づく地域空間計画と屋内レイアウトの予測により,エージェントが適切な行動を選択することができることを示す。
- 参考スコア(独自算出の注目度): 9.181624273492828
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Humans use their knowledge of common house layouts obtained from previous
experiences to predict nearby rooms while navigating in new environments. This
greatly helps them navigate previously unseen environments and locate their
target room. To provide layout prior knowledge to navigational agents based on
common human living spaces, we propose WIN (\textit{W}hat \textit{I}s
\textit{N}ear), a commonsense learning model for Vision Language Navigation
(VLN) tasks. VLN requires an agent to traverse indoor environments based on
descriptive navigational instructions. Unlike existing layout learning works,
WIN predicts the local neighborhood map based on prior knowledge of living
spaces and current observation, operating on an imagined global map of the
entire environment. The model infers neighborhood regions based on visual cues
of current observations, navigational history, and layout common sense. We show
that local-global planning based on locality knowledge and predicting the
indoor layout allows the agent to efficiently select the appropriate action.
Specifically, we devised a cross-modal transformer that utilizes this locality
prior for decision-making in addition to visual inputs and instructions.
Experimental results show that locality learning using WIN provides better
generalizability compared to classical VLN agents in unseen environments. Our
model performs favorably on standard VLN metrics, with Success Rate 68\% and
Success weighted by Path Length 63\% in unseen environments.
- Abstract(参考訳): 人間は、以前の経験から得られた共通の家のレイアウトに関する知識を使って、新しい環境をナビゲートしながら近くの部屋を予測する。
これにより、これまで見えない環境をナビゲートし、ターゲットの部屋を見つけるのに大いに役立ちます。
視覚言語ナビゲーション(VLN)タスクのための共通知識学習モデルであるWIN(\textit{W}hat \textit{I}s \textit{N}ear)を提案する。
VLNは、記述的なナビゲーション命令に基づいて屋内環境を横断するエージェントを必要とする。
既存のレイアウト学習作業とは異なり、WINは生活空間の事前の知識と現在の観察に基づいて、環境全体の想像上のグローバルマップに基づいて、局所的な近隣マップを予測する。
このモデルは、現在の観測、航法史、レイアウト常識の視覚的手がかりに基づいて、周辺地域を推論する。
本研究は,局所的知識に基づく局所的グローバル計画と屋内レイアウト予測により,エージェントが効率的に適切な行動を選択できることを示す。
具体的には,視覚的な入力や指示に加えて,意思決定に先立ってこの局所性を利用するクロスモーダルトランスフォーマーを考案した。
実験の結果,winを用いた局所性学習は従来のvlnエージェントよりも優れた一般化性をもたらすことがわかった。
我々のモデルは標準的なVLN測定値で良好に動作し、成功率68\%、成功率63\%は見当たらない環境でのパス長63\%である。
関連論文リスト
- LangNav: Language as a Perceptual Representation for Navigation [63.90602960822604]
視覚・言語ナビゲーション(VLN)における知覚表現としての言語の利用について検討する。
提案手法では,画像キャプションや物体検出に市販の視覚システムを用いて,エージェントのエゴセントリックなパノラマビューを各ステップで自然言語記述に変換する。
論文 参考訳(メタデータ) (2023-10-11T20:52:30Z) - Layout-aware Dreamer for Embodied Referring Expression Grounding [49.33508853581283]
本研究では,エージェントがこれまで見つからなかった環境で移動する必要のある,身体的参照表現接地の問題について検討する。
我々はLayout-aware Dreamer(LAD)と呼ばれる自律エージェントを設計した。
LADは、粗いレイアウト推定のための経路に沿って、近隣の未探索領域の部屋カテゴリー分布を推定することを学ぶ。
効果的な環境探査を学ぶために、ゴールドリーマーは事前に目的地を想像する。
論文 参考訳(メタデータ) (2022-11-30T23:36:17Z) - Analyzing Generalization of Vision and Language Navigation to Unseen
Outdoor Areas [19.353847681872608]
視覚と言語ナビゲーション(VLN)は、視覚的な言語理解の課題である。
室内のVLNとは対照的に、未確認データに対する屋外VLNの利得の大部分は、ジャンクション型埋め込みやデルタの向きといった特徴によるものである。
これらの結果は,VLNタスクの大規模化と地理的環境の多様性を要求され,都市環境のグラフ表現に偏っていることを示している。
論文 参考訳(メタデータ) (2022-03-25T18:06:14Z) - Cross-modal Map Learning for Vision and Language Navigation [82.04247028482244]
VLN(Vision-and-Language Navigation)の問題点について考察する。
他の研究とは対照的に、我々の重要な洞察は、言語と視覚の関連性は、明示的な空間表現で起こるときに強くなるということである。
視覚・言語ナビゲーションのためのクロスモーダルマップ学習モデルを提案する。このモデルでは,まず,観測領域と観測対象領域の両方に対して,エゴセントリックマップ上のトップダウンセマンティクスを予測することを学習する。
論文 参考訳(メタデータ) (2022-03-10T03:30:12Z) - Airbert: In-domain Pretraining for Vision-and-Language Navigation [91.03849833486974]
ビジョン・アンド・ランゲージナビゲーション(VLN)は、エンボディエージェントが自然言語命令を使って現実的な環境をナビゲートできるようにすることを目的としている。
近年の方法は、VLN剤の一般化を改善するための事前学習である。
大規模かつ多様なドメイン内VLNデータセットであるBnBを紹介する。
論文 参考訳(メタデータ) (2021-08-20T10:58:09Z) - Diagnosing the Environment Bias in Vision-and-Language Navigation [102.02103792590076]
VLN(Vision-and-Language Navigation)は、エージェントが自然言語の指示に従い、与えられた環境を探索し、所望の目標地点に到達する必要がある。
VLNを研究する最近の研究は、目に見えない環境でのテストでは、顕著なパフォーマンス低下を観察しており、ニューラルエージェントモデルがトレーニング環境に非常に偏っていることを示している。
本研究では, この環境バイアスの原因を探るため, 環境再分割と機能置換による新しい診断実験を設計する。
論文 参考訳(メタデータ) (2020-05-06T19:24:33Z) - Environment-agnostic Multitask Learning for Natural Language Grounded
Navigation [88.69873520186017]
本稿では,視覚言語ナビゲーション(VLN)タスクと対話履歴からのナビゲーション(NDH)タスクをシームレスにトレーニングできるマルチタスクナビゲーションモデルを提案する。
実験により、環境に依存しないマルチタスク学習は、目に見える環境と目に見えない環境の間のパフォーマンスギャップを著しく減少させることが示された。
論文 参考訳(メタデータ) (2020-03-01T09:06:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。