論文の概要: Ground then Navigate: Language-guided Navigation in Dynamic Scenes
- arxiv url: http://arxiv.org/abs/2209.11972v1
- Date: Sat, 24 Sep 2022 09:51:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 16:06:56.292496
- Title: Ground then Navigate: Language-guided Navigation in Dynamic Scenes
- Title(参考訳): groundのナビゲート:動的シーンにおける言語誘導ナビゲーション
- Authors: Kanishk Jain, Varun Chhangani, Amogh Tiwari, K. Madhava Krishna and
Vineet Gandhi
- Abstract要約: 屋外環境での自律運転における視覚・言語ナビゲーション(VLN)問題について検討する。
テキストコマンドに対応するナビゲーション可能な領域を明示的にグラウンドすることで、この問題を解決する。
提案手法の有効性を検証するために, 定性的かつ定量的な実験結果を提供する。
- 参考スコア(独自算出の注目度): 13.870303451896248
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate the Vision-and-Language Navigation (VLN) problem in the
context of autonomous driving in outdoor settings. We solve the problem by
explicitly grounding the navigable regions corresponding to the textual
command. At each timestamp, the model predicts a segmentation mask
corresponding to the intermediate or the final navigable region. Our work
contrasts with existing efforts in VLN, which pose this task as a node
selection problem, given a discrete connected graph corresponding to the
environment. We do not assume the availability of such a discretised map. Our
work moves towards continuity in action space, provides interpretability
through visual feedback and allows VLN on commands requiring finer manoeuvres
like "park between the two cars". Furthermore, we propose a novel meta-dataset
CARLA-NAV to allow efficient training and validation. The dataset comprises
pre-recorded training sequences and a live environment for validation and
testing. We provide extensive qualitative and quantitive empirical results to
validate the efficacy of the proposed approach.
- Abstract(参考訳): 屋外環境での自律運転における視覚・言語ナビゲーション(VLN)問題について検討する。
テキストコマンドに対応するナビゲート可能な領域を明示的に接地することにより,この問題を解決する。
各タイムスタンプにおいて、モデルは中間または最終航行可能な領域に対応するセグメンテーションマスクを予測する。
我々の研究は、環境に対応する離散連結グラフが与えられたとき、ノード選択問題としてこのタスクを行うVLNの既存の取り組みとは対照的である。
このような不明瞭な地図が利用できるとは考えていない。
我々の研究は、アクション空間における連続性に向けて進み、視覚的フィードバックを通じて解釈可能性を提供し、VLNが「2台の車の間の駐車」のような細かな操作を必要とするコマンドに対して許可する。
さらに,効率的なトレーニングと検証が可能なメタデータセットCARLA-NAVを提案する。
データセットは、予め記録されたトレーニングシーケンスと、バリデーションとテストのためのライブ環境とを含む。
提案手法の有効性を検証するために, 定性的かつ定量的な実験結果を提供する。
関連論文リスト
- Prompt-based Context- and Domain-aware Pretraining for Vision and
Language Navigation [19.793659852435486]
本稿では,これらの問題に対処する新しい Prompt-bAsed coNtext- and inDoor-Aware (PANDA) プレトレーニングフレームワークを提案する。
室内認識の段階では,室内データセットから深い視覚的プロンプトを学習するために,効率的なチューニングパラダイムを適用している。
文脈認識の段階では、命令中のシーケンスレベルの意味をキャプチャするハードコンテキストプロンプトのセットを設計する。
論文 参考訳(メタデータ) (2023-09-07T11:58:34Z) - Grounded Entity-Landmark Adaptive Pre-training for Vision-and-Language
Navigation [23.94546957057613]
クロスモーダルアライメントはビジョン・アンド・ランゲージ・ナビゲーション(VLN)の鍵となる課題である
本稿では,VLNタスクの事前学習パラダイムとして,GELA(Gunded Entity-Landmark Adaptive)を提案する。
論文 参考訳(メタデータ) (2023-08-24T06:25:20Z) - Dense Video Object Captioning from Disjoint Supervision [77.47084982558101]
本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。
このタスクは、ビデオにおける空間的および時間的局所化を統一する。
我々は、この新しいタスクの強力なベースラインにおいて、我々のモデルがどのように改善されているかを示す。
論文 参考訳(メタデータ) (2023-06-20T17:57:23Z) - BEVBert: Multimodal Map Pre-training for Language-guided Navigation [75.23388288113817]
視覚・言語ナビゲーション(VLN)における空間認識型マップベース事前学習パラダイムを提案する。
我々は,グローバルなトポロジカルマップにおけるナビゲーション依存性をモデル化しながら,不完全な観測を明示的に集約し,重複を取り除くための局所距離マップを構築した。
ハイブリッドマップをベースとして,マルチモーダルマップ表現を学習するための事前学習フレームワークを考案し,空間認識型クロスモーダル推論を強化し,言語誘導ナビゲーションの目標を導出する。
論文 参考訳(メタデータ) (2022-12-08T16:27:54Z) - Cross-modal Map Learning for Vision and Language Navigation [82.04247028482244]
VLN(Vision-and-Language Navigation)の問題点について考察する。
他の研究とは対照的に、我々の重要な洞察は、言語と視覚の関連性は、明示的な空間表現で起こるときに強くなるということである。
視覚・言語ナビゲーションのためのクロスモーダルマップ学習モデルを提案する。このモデルでは,まず,観測領域と観測対象領域の両方に対して,エゴセントリックマップ上のトップダウンセマンティクスを予測することを学習する。
論文 参考訳(メタデータ) (2022-03-10T03:30:12Z) - NEAT: Neural Attention Fields for End-to-End Autonomous Driving [59.60483620730437]
本稿では、模倣学習モデルの効率的な推論を可能にする新しい表現であるNEAT(NEural Attention Field)を提案する。
NEATは、Bird's Eye View (BEV) シーン座標の位置をウェイポイントとセマンティクスにマッピングする連続関数である。
有害な環境条件や挑戦的なシナリオを含む新たな評価環境では、NEATはいくつかの強いベースラインを上回り、特権のあるCARLA専門家と同等の運転スコアを達成している。
論文 参考訳(メタデータ) (2021-09-09T17:55:28Z) - Vision-Language Navigation with Random Environmental Mixup [112.94609558723518]
視覚言語ナビゲーション(VLN)タスクは、視覚的な観察を認識し、自然言語の命令を解釈しながら、エージェントがステップバイステップでナビゲートする必要がある。
従来の研究では、データのバイアスを減らすために様々なデータ拡張手法が提案されている。
本研究では,混成環境を介し,相互接続された住宅シーンを付加データとして生成するランダム環境混成(REM)手法を提案する。
論文 参考訳(メタデータ) (2021-06-15T04:34:26Z) - Self-Point-Flow: Self-Supervised Scene Flow Estimation from Point Clouds
with Optimal Transport and Random Walk [59.87525177207915]
シーンフローを近似する2点雲間の対応性を確立するための自己教師型手法を開発した。
本手法は,自己教師付き学習手法の最先端性能を実現する。
論文 参考訳(メタデータ) (2021-05-18T03:12:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。