論文の概要: A Priority Map for Vision-and-Language Navigation with Trajectory Plans
and Feature-Location Cues
- arxiv url: http://arxiv.org/abs/2207.11717v1
- Date: Sun, 24 Jul 2022 11:09:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-26 15:12:12.466692
- Title: A Priority Map for Vision-and-Language Navigation with Trajectory Plans
and Feature-Location Cues
- Title(参考訳): 軌跡計画と特徴位置キューを用いた視覚・言語ナビゲーションの優先順位マップ
- Authors: Jason Armitage, Leonardo Impett, Rico Sennrich
- Abstract要約: 優先度マップモジュールを実装し、低サンプルデータセットを用いて補助的なタスクを事前訓練する。
軌道計画の階層的なプロセスは、クロスモーダルアライメントと特徴レベルのローカライゼーションのコア課題に対処する。
優先度マップモジュールは、スタンドアローントランスフォーマーのタスク完了率を2倍にするフィーチャロケーションフレームワークに統合される。
- 参考スコア(独自算出の注目度): 34.55676068012246
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In a busy city street, a pedestrian surrounded by distractions can pick out a
single sign if it is relevant to their route. Artificial agents in outdoor
Vision-and-Language Navigation (VLN) are also confronted with detecting
supervisory signal on environment features and location in inputs. To boost the
prominence of relevant features in transformer-based architectures without
costly preprocessing and pretraining, we take inspiration from priority maps -
a mechanism described in neuropsychological studies. We implement a novel
priority map module and pretrain on auxiliary tasks using low-sample datasets
with high-level representations of routes and environment-related references to
urban features. A hierarchical process of trajectory planning - with subsequent
parameterised visual boost filtering on visual inputs and prediction of
corresponding textual spans - addresses the core challenges of cross-modal
alignment and feature-level localisation. The priority map module is integrated
into a feature-location framework that doubles the task completion rates of
standalone transformers and attains state-of-the-art performance on the
Touchdown benchmark for VLN. Code and data are referenced in Appendix C.
- Abstract(参考訳): にぎやかな街では、気晴らしに囲まれた歩行者が、ルートに関連する場合、1つの標識を拾うことができます。
屋外ビジョン・アンド・ランゲージナビゲーション(VLN)の人工エージェントも、入力中の環境特徴や位置に関する監視信号を検出する。
コストのかかる前処理や事前訓練を行わずにトランスフォーマティブアーキテクチャの関連する特徴の優位性を高めるため,神経心理学研究で記述された優先的マップサ機構から着想を得た。
我々は,新しい優先度マップモジュールを実装し,経路の高レベル表現と都市特徴への環境関連参照を備えた低サンプルデータセットを用いて,補助タスクを事前学習する。
軌跡計画の階層的プロセス - その後のパラメータ化による視覚入力のビジュアルブーストフィルタリングと対応するテキストスパンの予測 - は、クロスモーダルアライメントと特徴レベルのローカライゼーションのコア課題に対処する。
優先度マップモジュールは機能ロケーションフレームワークに統合され、スタンドアロントランスフォーマーのタスク完了率を2倍にし、VLNのTouchdownベンチマークで最先端のパフォーマンスを達成する。
コードとデータは appendix c で参照される。
関連論文リスト
- PRET: Planning with Directed Fidelity Trajectory for Vision and Language Navigation [30.710806048991923]
視覚と言語ナビゲーションは、エージェントが自然言語の指示に従ってナビゲートする必要があるタスクである。
近年の手法では、各ステップで構築されたトポロジーマップのサブゴールを予測し、長期的な行動計画を可能にする。
本稿では,指示と指向性軌道のアライメントを考慮し,ナビゲーション計画を容易にする方法を提案する。
論文 参考訳(メタデータ) (2024-07-16T08:22:18Z) - Towards Effective Next POI Prediction: Spatial and Semantic Augmentation with Remote Sensing Data [10.968721742000653]
本稿では,2段階予測フレームワークにおける効果的なディープラーニング手法を提案する。
本手法は,まずリモートセンシングデータを組み込んで,重要な環境状況の把握を行う。
本研究では,利用者の歴史的トラジェクトリに対するQR-Pグラフを構築し,歴史的旅行知識をカプセル化する。
論文 参考訳(メタデータ) (2024-03-22T04:22:36Z) - Vanishing-Point-Guided Video Semantic Segmentation of Driving Scenes [70.08318779492944]
私たちは、より効果的なセグメンテーションのために消滅点(VP)を最初に利用しました。
当社の新しいVSS用ネットワークであるVPSegには,この静的および動的VPプリエントを正確に利用する2つのモジュールが組み込まれています。
論文 参考訳(メタデータ) (2024-01-27T01:01:58Z) - Towards Unified Token Learning for Vision-Language Tracking [65.96561538356315]
本稿では,VL追跡をトークン生成タスクとして用いた「textbfMMTrack」という,視覚言語(VL)追跡パイプラインを提案する。
提案フレームワークは,言語記述と境界ボックスを離散トークン列にシリアライズする。
この新しい設計パラダイムでは、全てのトークンクエリが望ましいターゲットを認識し、ターゲットの空間座標を直接予測するために必要となる。
論文 参考訳(メタデータ) (2023-08-27T13:17:34Z) - Top-Down Visual Attention from Analysis by Synthesis [87.47527557366593]
我々は、古典的分析・合成(AbS)の視覚的視点からトップダウンの注意を考察する。
本稿では,AbSを変動的に近似したトップダウン変調ViTモデルであるAbSViT(Analytic-by-Synthesis Vision Transformer)を提案する。
論文 参考訳(メタデータ) (2023-03-23T05:17:05Z) - BEVBert: Multimodal Map Pre-training for Language-guided Navigation [75.23388288113817]
視覚・言語ナビゲーション(VLN)における空間認識型マップベース事前学習パラダイムを提案する。
我々は,グローバルなトポロジカルマップにおけるナビゲーション依存性をモデル化しながら,不完全な観測を明示的に集約し,重複を取り除くための局所距離マップを構築した。
ハイブリッドマップをベースとして,マルチモーダルマップ表現を学習するための事前学習フレームワークを考案し,空間認識型クロスモーダル推論を強化し,言語誘導ナビゲーションの目標を導出する。
論文 参考訳(メタデータ) (2022-12-08T16:27:54Z) - Predicting Dense and Context-aware Cost Maps for Semantic Robot
Navigation [35.45993685414002]
本研究では,対象がセマンティックラベルで指定された未知環境における目標ナビゲーションの課題について検討する。
本稿では,意味的コンテキストを暗黙的に含む高コストマップを予測するために,ディープニューラルネットワークアーキテクチャとロス関数を提案する。
また、コストマップ予測のためのセマンティックなヒントを提供するために、アーキテクチャに中間レベルの視覚表現を融合する新しい方法を提案する。
論文 参考訳(メタデータ) (2022-10-17T11:43:19Z) - VectorNet: Encoding HD Maps and Agent Dynamics from Vectorized
Representation [74.56282712099274]
本稿では,ベクトルで表される個々の道路成分の空間的局所性を利用する階層型グラフニューラルネットワークであるVectorNetを紹介する。
ベクトル化高定義(HD)マップとエージェントトラジェクトリの操作により、ロッキーなレンダリングや計算集約的なConvNetエンコーディングのステップを避けることができる。
我々は、社内行動予測ベンチマークと最近リリースされたArgoverse予測データセットでVectorNetを評価した。
論文 参考訳(メタデータ) (2020-05-08T19:07:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。