論文の概要: VTNet: Visual Transformer Network for Object Goal Navigation
- arxiv url: http://arxiv.org/abs/2105.09447v1
- Date: Thu, 20 May 2021 01:23:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-21 21:47:02.994665
- Title: VTNet: Visual Transformer Network for Object Goal Navigation
- Title(参考訳): VTNet:オブジェクトゴールナビゲーションのためのビジュアルトランスフォーマーネットワーク
- Authors: Heming Du, Xin Yu, Liang Zheng
- Abstract要約: ナビゲーションにおける情報的視覚表現を学習するためのVisual Transformer Network(VTNet)を導入する。
簡単に言うと、VTNetはオブジェクトとリージョンの機能を、空間認識ディスクリプタとして位置キューで埋め込む。
人工環境におけるAI2-Thorの実験は、VTNetが目に見えないテスト環境で最先端の手法を著しく上回っていることを実証している。
- 参考スコア(独自算出の注目度): 36.15625223586484
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Object goal navigation aims to steer an agent towards a target object based
on observations of the agent. It is of pivotal importance to design effective
visual representations of the observed scene in determining navigation actions.
In this paper, we introduce a Visual Transformer Network (VTNet) for learning
informative visual representation in navigation. VTNet is a highly effective
structure that embodies two key properties for visual representations: First,
the relationships among all the object instances in a scene are exploited;
Second, the spatial locations of objects and image regions are emphasized so
that directional navigation signals can be learned. Furthermore, we also
develop a pre-training scheme to associate the visual representations with
navigation signals, and thus facilitate navigation policy learning. In a
nutshell, VTNet embeds object and region features with their location cues as
spatial-aware descriptors and then incorporates all the encoded descriptors
through attention operations to achieve informative representation for
navigation. Given such visual representations, agents are able to explore the
correlations between visual observations and navigation actions. For example,
an agent would prioritize "turning right" over "turning left" when the visual
representation emphasizes on the right side of activation map. Experiments in
the artificial environment AI2-Thor demonstrate that VTNet significantly
outperforms state-of-the-art methods in unseen testing environments.
- Abstract(参考訳): オブジェクトゴールナビゲーションは、エージェントの観察に基づいてターゲットオブジェクトに向かってエージェントを操縦することを目的としている。
ナビゲーション動作を決定する上で、観察されたシーンの効果的な視覚表現を設計することが重要である。
本稿では,ナビゲーションにおける情報的視覚表現を学習するためのVisual Transformer Network(VTNet)を提案する。
VTNetは視覚的表現の2つの重要な特性を具現化する非常に効果的な構造である: まず、シーン内のすべてのオブジェクトインスタンス間の関係が悪用される; 次に、オブジェクトと画像領域の空間的位置が強調され、指向性ナビゲーション信号が学習できる。
さらに,視覚表現とナビゲーション信号とを関連付けるための事前学習手法を開発し,ナビゲーションポリシーの学習を容易にする。
一言で言えば、vtnetはオブジェクトと領域の特徴を空間認識ディスクリプタとして埋め込み、エンコードされたディスクリプタをすべてアテンション操作を通じて組み込んでナビゲーションのための情報表現を実現している。
このような視覚的表現を与えられたエージェントは、視覚的観察とナビゲーション行動の相関関係を探索することができる。
例えば、アクティベーションマップの右側に視覚的表現が強調される場合、エージェントは「右に曲がる」ことを「左に曲がる」よりも優先する。
人工環境におけるAI2-Thorの実験では、VTNetは目に見えないテスト環境で最先端の手法を大幅に上回っている。
関連論文リスト
- Aligning Knowledge Graph with Visual Perception for Object-goal Navigation [16.32780793344835]
オブジェクトゴールナビゲーションのための視覚知覚付きアライニング知識グラフ(AKGVP)を提案する。
提案手法では,階層型シーンアーキテクチャの連続的モデリングを導入し,自然言語記述と視覚知覚との整合性を確保するために,視覚-言語事前学習を活用する。
継続的知識グラフアーキテクチャとマルチモーダル機能アライメントの統合により、ナビゲータは目覚ましいゼロショットナビゲーション能力を持つ。
論文 参考訳(メタデータ) (2024-02-29T06:31:18Z) - NavHint: Vision and Language Navigation Agent with a Hint Generator [31.322331792911598]
我々は、詳細な視覚的記述を提供するヒント生成装置を通じて、ナビゲーションエージェントに対して間接的な監視を行う。
ヒントジェネレータは、ナビゲーションエージェントが視覚環境のグローバルな理解を開発するのを支援する。
提案手法をR2RとR4Rのデータセット上で評価し,いくつかの指標で最先端を実現する。
論文 参考訳(メタデータ) (2024-02-04T16:23:16Z) - Learning Navigational Visual Representations with Semantic Map
Supervision [85.91625020847358]
エージェントの自我中心のビューとセマンティックマップを対比してナビゲーション固有の視覚表現学習法を提案する。
Ego$2$-Map学習は、オブジェクト、構造、遷移などのコンパクトでリッチな情報を、ナビゲーションのためのエージェントのエゴセントリックな表現に転送する。
論文 参考訳(メタデータ) (2023-07-23T14:01:05Z) - KERM: Knowledge Enhanced Reasoning for Vision-and-Language Navigation [61.08389704326803]
VLN(Vision-and-Language Navigation)は、実シーンにおける自然言語命令に続く遠隔地への移動を可能にするタスクである。
以前のアプローチのほとんどは、ナビゲート可能な候補を表現するために、機能全体やオブジェクト中心の機能を利用している。
本稿では,知識を活用したエージェントナビゲーション能力向上のための知識強化推論モデル(KERM)を提案する。
論文 参考訳(メタデータ) (2023-03-28T08:00:46Z) - Weakly-Supervised Multi-Granularity Map Learning for Vision-and-Language
Navigation [87.52136927091712]
我々は,ロボットエージェントが言語指導によって記述された経路をたどって,環境の中をナビゲートするよう訓練する,現実的かつ困難な問題に対処する。
高精度かつ効率的なナビゲーションを実現するためには,環境オブジェクトの空間的位置と意味情報の両方を正確に表現した地図を構築することが重要である。
より包括的にオブジェクトを表現するために,オブジェクトの細粒度(色,テクスチャなど)とセマンティッククラスの両方を含む多粒度マップを提案する。
論文 参考訳(メタデータ) (2022-10-14T04:23:27Z) - SOAT: A Scene- and Object-Aware Transformer for Vision-and-Language
Navigation [57.12508968239015]
本研究は,トランスフォーマーを用いた視覚言語ナビゲーション (VLN) エージェントを提案する。
シーン分類ネットワークとオブジェクト検出器の2つの異なるビジュアルエンコーダを使用する。
シーン機能は、オブジェクトレベルの処理をサポートする高レベルなコンテキスト情報を提供する。
論文 参考訳(メタデータ) (2021-10-27T03:29:34Z) - Pushing it out of the Way: Interactive Visual Navigation [62.296686176988125]
エージェントが目標に合わせてより効率的にナビゲートするために環境を変更することを学ぶインタラクティブナビゲーションの問題を研究します。
エージェントの行動によって引き起こされる環境の変化を明示的に予測するために,neural interaction engine(nie)を導入する。
計画中の変更をモデル化することで、エージェントがナビゲーション能力を大幅に改善できることが分かりました。
論文 参考訳(メタデータ) (2021-04-28T22:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。