論文の概要: LOViS: Learning Orientation and Visual Signals for Vision and Language
Navigation
- arxiv url: http://arxiv.org/abs/2209.12723v1
- Date: Mon, 26 Sep 2022 14:26:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 14:27:10.629276
- Title: LOViS: Learning Orientation and Visual Signals for Vision and Language
Navigation
- Title(参考訳): LOViS:視覚・言語ナビゲーションのための学習指向と視覚信号
- Authors: Yue Zhang, Parisa Kordjamshidi
- Abstract要約: 本稿では,明示的なオリエンテーションとビジョンモジュールを持つニューラルエージェントを設計する。
これらのモジュールは空間的な情報に基づいて学習し、視覚環境への指示のランドマークをより効果的に記述する。
提案手法はRoom2room (R2R) とRoom4room (R4R) の両方のデータセットで評価し,両ベンチマークで得られた技術結果の状態を検証した。
- 参考スコア(独自算出の注目度): 23.84492755669486
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding spatial and visual information is essential for a navigation
agent who follows natural language instructions. The current Transformer-based
VLN agents entangle the orientation and vision information, which limits the
gain from the learning of each information source. In this paper, we design a
neural agent with explicit Orientation and Vision modules. Those modules learn
to ground spatial information and landmark mentions in the instructions to the
visual environment more effectively. To strengthen the spatial reasoning and
visual perception of the agent, we design specific pre-training tasks to feed
and better utilize the corresponding modules in our final navigation model. We
evaluate our approach on both Room2room (R2R) and Room4room (R4R) datasets and
achieve the state of the art results on both benchmarks.
- Abstract(参考訳): 自然言語の指示に従うナビゲーションエージェントには,空間情報や視覚情報を理解することが不可欠である。
現在のTransformerベースのVLNエージェントは、向きと視覚情報を絡めて、各情報ソースの学習による利得を制限する。
本稿では,明示的なオリエンテーションとビジョンモジュールを持つニューラルエージェントを設計する。
これらのモジュールは、視覚環境への指示における空間情報とランドマークの言及をより効果的に理解する。
エージェントの空間的推論と視覚的知覚を強化するため、我々は、最終的なナビゲーションモデルで対応するモジュールをよりよく活用するために、特定の事前学習タスクをデザインする。
提案手法はRoom2room (R2R) とRoom4room (R4R) の両方のデータセットで評価し,両ベンチマークで得られた結果の状態を検証した。
関連論文リスト
- NavHint: Vision and Language Navigation Agent with a Hint Generator [31.322331792911598]
我々は、詳細な視覚的記述を提供するヒント生成装置を通じて、ナビゲーションエージェントに対して間接的な監視を行う。
ヒントジェネレータは、ナビゲーションエージェントが視覚環境のグローバルな理解を開発するのを支援する。
提案手法をR2RとR4Rのデータセット上で評価し,いくつかの指標で最先端を実現する。
論文 参考訳(メタデータ) (2024-02-04T16:23:16Z) - LangNav: Language as a Perceptual Representation for Navigation [63.90602960822604]
視覚・言語ナビゲーション(VLN)における知覚表現としての言語の利用について検討する。
提案手法では,画像キャプションや物体検出に市販の視覚システムを用いて,エージェントのエゴセントリックなパノラマビューを各ステップで自然言語記述に変換する。
論文 参考訳(メタデータ) (2023-10-11T20:52:30Z) - Learning Navigational Visual Representations with Semantic Map
Supervision [85.91625020847358]
エージェントの自我中心のビューとセマンティックマップを対比してナビゲーション固有の視覚表現学習法を提案する。
Ego$2$-Map学習は、オブジェクト、構造、遷移などのコンパクトでリッチな情報を、ナビゲーションのためのエージェントのエゴセントリックな表現に転送する。
論文 参考訳(メタデータ) (2023-07-23T14:01:05Z) - GeoVLN: Learning Geometry-Enhanced Visual Representation with Slot
Attention for Vision-and-Language Navigation [52.65506307440127]
我々は,ロバストなビジュアル・アンド・ランゲージナビゲーションのためのスロットアテンションに基づく幾何学的視覚表現を学習するGeoVLNを提案する。
我々はV&L BERTを用いて言語情報と視覚情報の両方を組み込んだクロスモーダル表現を学習する。
論文 参考訳(メタデータ) (2023-05-26T17:15:22Z) - KERM: Knowledge Enhanced Reasoning for Vision-and-Language Navigation [61.08389704326803]
VLN(Vision-and-Language Navigation)は、実シーンにおける自然言語命令に続く遠隔地への移動を可能にするタスクである。
以前のアプローチのほとんどは、ナビゲート可能な候補を表現するために、機能全体やオブジェクト中心の機能を利用している。
本稿では,知識を活用したエージェントナビゲーション能力向上のための知識強化推論モデル(KERM)を提案する。
論文 参考訳(メタデータ) (2023-03-28T08:00:46Z) - VLN-Trans: Translator for the Vision and Language Navigation Agent [23.84492755669486]
ナビゲーションエージェントのためのトランスレータモジュールを設計し、元の命令を簡単に追従できるサブ命令表現に変換する。
我々は、新しい合成サブインストラクションデータセットを作成し、トランスレータとナビゲーションエージェントを訓練するための特定のタスクを設計する。
本研究では,Room2Room(R2R),Room4room(R4R),Room2Room Last(R2R-Last)データセットについて検討した。
論文 参考訳(メタデータ) (2023-02-18T04:19:51Z) - SOAT: A Scene- and Object-Aware Transformer for Vision-and-Language
Navigation [57.12508968239015]
本研究は,トランスフォーマーを用いた視覚言語ナビゲーション (VLN) エージェントを提案する。
シーン分類ネットワークとオブジェクト検出器の2つの異なるビジュアルエンコーダを使用する。
シーン機能は、オブジェクトレベルの処理をサポートする高レベルなコンテキスト情報を提供する。
論文 参考訳(メタデータ) (2021-10-27T03:29:34Z) - Improving Cross-Modal Alignment in Vision Language Navigation via
Syntactic Information [83.62098382773266]
ビジョン言語ナビゲーションは、エージェントが自然言語の指示に基づいて3D環境をナビゲートする必要があるタスクです。
命令と現在の視覚シーンの整合性を高めるために,依存木から派生した構文情報を利用したナビゲーションエージェントを提案する。
このエージェントは3つの言語による命令を含むroom-across-roomデータセットの新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-19T19:18:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。