論文の概要: SOAT: A Scene- and Object-Aware Transformer for Vision-and-Language
Navigation
- arxiv url: http://arxiv.org/abs/2110.14143v1
- Date: Wed, 27 Oct 2021 03:29:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-28 14:28:38.790507
- Title: SOAT: A Scene- and Object-Aware Transformer for Vision-and-Language
Navigation
- Title(参考訳): soat:視覚・言語ナビゲーションのためのシーン・オブジェクト認識トランスフォーマー
- Authors: Abhinav Moudgil, Arjun Majumdar, Harsh Agrawal, Stefan Lee, Dhruv
Batra
- Abstract要約: 本研究は,トランスフォーマーを用いた視覚言語ナビゲーション (VLN) エージェントを提案する。
シーン分類ネットワークとオブジェクト検出器の2つの異なるビジュアルエンコーダを使用する。
シーン機能は、オブジェクトレベルの処理をサポートする高レベルなコンテキスト情報を提供する。
- 参考スコア(独自算出の注目度): 57.12508968239015
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Natural language instructions for visual navigation often use scene
descriptions (e.g., "bedroom") and object references (e.g., "green chairs") to
provide a breadcrumb trail to a goal location. This work presents a
transformer-based vision-and-language navigation (VLN) agent that uses two
different visual encoders -- a scene classification network and an object
detector -- which produce features that match these two distinct types of
visual cues. In our method, scene features contribute high-level contextual
information that supports object-level processing. With this design, our model
is able to use vision-and-language pretraining (i.e., learning the alignment
between images and text from large-scale web data) to substantially improve
performance on the Room-to-Room (R2R) and Room-Across-Room (RxR) benchmarks.
Specifically, our approach leads to improvements of 1.8% absolute in SPL on R2R
and 3.7% absolute in SR on RxR. Our analysis reveals even larger gains for
navigation instructions that contain six or more object references, which
further suggests that our approach is better able to use object features and
align them to references in the instructions.
- Abstract(参考訳): 視覚ナビゲーションのための自然言語指示は、しばしばシーン記述(例えば「ベッドルーム」)とオブジェクト参照(例えば「緑の椅子」)を使用して、目標位置へのパンクラムトレイルを提供する。
この研究は、トランスフォーマーベースの視覚言語ナビゲーション(VLN)エージェントで、2つの異なる視覚エンコーダ(シーン分類ネットワークとオブジェクト検出器)を使用し、これら2つの異なる視覚的手がかりにマッチする特徴を生成する。
本手法では,シーン機能はオブジェクトレベルの処理をサポートするハイレベルなコンテキスト情報を提供する。
この設計では、視覚と言語による事前トレーニング(大規模なWebデータから画像とテキストのアライメントを学習する)を使用して、Room-to-Room(R2R)ベンチマークとRoom-Across-Room(RxR)ベンチマークのパフォーマンスを大幅に向上させることができる。
具体的には、R2RではSPLが1.8%、RxRではSRが3.7%改善した。
私たちの分析では、6つ以上のオブジェクト参照を含むナビゲーション命令がさらに向上していることが分かりました。
関連論文リスト
- Volumetric Environment Representation for Vision-Language Navigation [66.04379819772764]
視覚言語ナビゲーション(VLN)は、視覚的な観察と自然言語の指示に基づいて、エージェントが3D環境をナビゲートする必要がある。
本研究では,物理世界を3次元構造細胞にボクセル化するボリューム環境表現(VER)を提案する。
VERは3D占有率、3D部屋レイアウト、および3Dバウンディングボックスを共同で予測する。
論文 参考訳(メタデータ) (2024-03-21T06:14:46Z) - Aligning Knowledge Graph with Visual Perception for Object-goal Navigation [16.32780793344835]
オブジェクトゴールナビゲーションのための視覚知覚付きアライニング知識グラフ(AKGVP)を提案する。
提案手法では,階層型シーンアーキテクチャの連続的モデリングを導入し,自然言語記述と視覚知覚との整合性を確保するために,視覚-言語事前学習を活用する。
継続的知識グラフアーキテクチャとマルチモーダル機能アライメントの統合により、ナビゲータは目覚ましいゼロショットナビゲーション能力を持つ。
論文 参考訳(メタデータ) (2024-02-29T06:31:18Z) - LangNav: Language as a Perceptual Representation for Navigation [63.90602960822604]
視覚・言語ナビゲーション(VLN)における知覚表現としての言語の利用について検討する。
提案手法では,画像キャプションや物体検出に市販の視覚システムを用いて,エージェントのエゴセントリックなパノラマビューを各ステップで自然言語記述に変換する。
論文 参考訳(メタデータ) (2023-10-11T20:52:30Z) - VLN-Trans: Translator for the Vision and Language Navigation Agent [23.84492755669486]
ナビゲーションエージェントのためのトランスレータモジュールを設計し、元の命令を簡単に追従できるサブ命令表現に変換する。
我々は、新しい合成サブインストラクションデータセットを作成し、トランスレータとナビゲーションエージェントを訓練するための特定のタスクを設計する。
本研究では,Room2Room(R2R),Room4room(R4R),Room2Room Last(R2R-Last)データセットについて検討した。
論文 参考訳(メタデータ) (2023-02-18T04:19:51Z) - LOViS: Learning Orientation and Visual Signals for Vision and Language
Navigation [23.84492755669486]
本稿では,明示的なオリエンテーションとビジョンモジュールを持つニューラルエージェントを設計する。
これらのモジュールは空間的な情報に基づいて学習し、視覚環境への指示のランドマークをより効果的に記述する。
提案手法はRoom2room (R2R) とRoom4room (R4R) の両方のデータセットで評価し,両ベンチマークで得られた技術結果の状態を検証した。
論文 参考訳(メタデータ) (2022-09-26T14:26:50Z) - CLEAR: Improving Vision-Language Navigation with Cross-Lingual,
Environment-Agnostic Representations [98.30038910061894]
VLN(Vision-and-Language Navigation)タスクでは、エージェントが言語命令に基づいて環境をナビゲートする必要がある。
CLEAR: 言語横断表現と環境非依存表現を提案する。
我々の言語と視覚表現は、Room-to-Room and Cooperative Vision-and-Dialogue Navigationタスクにうまく転送できる。
論文 参考訳(メタデータ) (2022-07-05T17:38:59Z) - VTNet: Visual Transformer Network for Object Goal Navigation [36.15625223586484]
ナビゲーションにおける情報的視覚表現を学習するためのVisual Transformer Network(VTNet)を導入する。
簡単に言うと、VTNetはオブジェクトとリージョンの機能を、空間認識ディスクリプタとして位置キューで埋め込む。
人工環境におけるAI2-Thorの実験は、VTNetが目に見えないテスト環境で最先端の手法を著しく上回っていることを実証している。
論文 参考訳(メタデータ) (2021-05-20T01:23:15Z) - Know What and Know Where: An Object-and-Room Informed Sequential BERT
for Indoor Vision-Language Navigation [120.90387630691816]
VLN(Vision-and-Language Navigation)は、自然言語命令と写真リアリスティックパノラマのセットに基づいて、エージェントが遠隔地へ移動する必要がある。
既存の手法の多くは、各パノラマの命令と離散ビューで単語をエンコーディングの最小単位とする。
視覚知覚と言語指示を同一のきめ細かいレベルで符号化するオブジェクトインフォームド・シーケンシャルBERTを提案する。
論文 参考訳(メタデータ) (2021-04-09T02:44:39Z) - Object-and-Action Aware Model for Visual Language Navigation [70.33142095637515]
VLN(Vision-and-Language Navigation)は、比較的一般的な自然言語命令をロボットエージェントアクションに変換する必要があるという点で特徴的である。
本稿では、これらの2種類の自然言語に基づく命令を別々に処理するオブジェクト・アンド・アクション・アウェア・モデル(OAAM)を提案する。
これにより、各プロセスは、オブジェクト中心/アクション中心の命令を、自身の視覚的知覚/行動指向に柔軟に一致させることができる。
論文 参考訳(メタデータ) (2020-07-29T06:32:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。