論文の概要: Vision-Dialog Navigation by Exploring Cross-modal Memory
- arxiv url: http://arxiv.org/abs/2003.06745v1
- Date: Sun, 15 Mar 2020 03:08:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-23 08:27:45.803177
- Title: Vision-Dialog Navigation by Exploring Cross-modal Memory
- Title(参考訳): クロスモーダルメモリ探索による視線ナビゲーション
- Authors: Yi Zhu, Fengda Zhu, Zhaohuan Zhan, Bingqian Lin, Jianbin Jiao, Xiaojun
Chang, Xiaodan Liang
- Abstract要約: 視覚ダイアログナビゲーションは、視覚言語ディシプリナターゲットの新たな聖杯タスクとして機能する。
本稿では,歴史的ナビゲーション行動に関連する豊富な情報を記憶し,理解するためのクロスモーダルメモリネットワーク(CMN)を提案する。
私たちのCMNは、従来の最先端モデルよりも、目に見える環境と目に見えない環境の両方で大きな差があります。
- 参考スコア(独自算出の注目度): 107.13970721435571
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-dialog navigation posed as a new holy-grail task in vision-language
disciplinary targets at learning an agent endowed with the capability of
constant conversation for help with natural language and navigating according
to human responses. Besides the common challenges faced in visual language
navigation, vision-dialog navigation also requires to handle well with the
language intentions of a series of questions about the temporal context from
dialogue history and co-reasoning both dialogs and visual scenes. In this
paper, we propose the Cross-modal Memory Network (CMN) for remembering and
understanding the rich information relevant to historical navigation actions.
Our CMN consists of two memory modules, the language memory module (L-mem) and
the visual memory module (V-mem). Specifically, L-mem learns latent
relationships between the current language interaction and a dialog history by
employing a multi-head attention mechanism. V-mem learns to associate the
current visual views and the cross-modal memory about the previous navigation
actions. The cross-modal memory is generated via a vision-to-language attention
and a language-to-vision attention. Benefiting from the collaborative learning
of the L-mem and the V-mem, our CMN is able to explore the memory about the
decision making of historical navigation actions which is for the current step.
Experiments on the CVDN dataset show that our CMN outperforms the previous
state-of-the-art model by a significant margin on both seen and unseen
environments.
- Abstract(参考訳): 視覚ダイアログナビゲーションは、自然言語を補助し、人間の反応に応じてナビゲートするための絶え間ない会話の能力に恵まれたエージェントを学習する、視覚言語ディシプリナターゲットにおける新しい聖なる作業である。
視覚言語ナビゲーションにおける一般的な課題に加えて、視覚ダイアログナビゲーションは、対話履歴からの時間的コンテキストに関する一連の質問の言語意図にうまく対応し、ダイアログとビジュアルシーンの両方を共用する必要がある。
本稿では,歴史的ナビゲーション行動に関連する豊富な情報を記憶し,理解するためのクロスモーダルメモリネットワーク(CMN)を提案する。
CMNは言語記憶モジュール(L-mem)と視覚記憶モジュール(V-mem)の2つのメモリモジュールから構成される。
特に,L-memは,多視点アテンション機構を用いて,現在の言語相互作用と対話履歴の潜時関係を学習する。
V-memは、現在のビジュアルビューと以前のナビゲーションアクションに関するクロスモーダルメモリを関連付けることを学ぶ。
クロスモーダルメモリは、言語間注意と言語間注意とを介して生成される。
l-memとv-memの協調学習の恩恵を受け、cmnは、現在のステップである歴史的なナビゲーションアクションの決定に関する記憶を探索することができる。
CVDNデータセットの実験では、CMNは従来の最先端モデルよりも、目に見える環境と目に見えない環境の両方で大きな差があることが示されています。
関連論文リスト
- LangNav: Language as a Perceptual Representation for Navigation [63.90602960822604]
視覚・言語ナビゲーション(VLN)における知覚表現としての言語の利用について検討する。
提案手法では,画像キャプションや物体検出に市販の視覚システムを用いて,エージェントのエゴセントリックなパノラマビューを各ステップで自然言語記述に変換する。
論文 参考訳(メタデータ) (2023-10-11T20:52:30Z) - ESceme: Vision-and-Language Navigation with Episodic Scene Memory [72.69189330588539]
ヴィジュアル・アンド・ランゲージ・ナビゲーション(VLN)は、現実世界のシーンで自然言語のナビゲーション指示に従う視覚エージェントをシミュレートする。
本稿では,VLNにおける情景記憶(esceme)のメカニズムについて紹介する。
論文 参考訳(メタデータ) (2023-03-02T07:42:07Z) - Cross-modal Map Learning for Vision and Language Navigation [82.04247028482244]
VLN(Vision-and-Language Navigation)の問題点について考察する。
他の研究とは対照的に、我々の重要な洞察は、言語と視覚の関連性は、明示的な空間表現で起こるときに強くなるということである。
視覚・言語ナビゲーションのためのクロスモーダルマップ学習モデルを提案する。このモデルでは,まず,観測領域と観測対象領域の両方に対して,エゴセントリックマップ上のトップダウンセマンティクスを予測することを学習する。
論文 参考訳(メタデータ) (2022-03-10T03:30:12Z) - History Aware Multimodal Transformer for Vision-and-Language Navigation [96.80655332881432]
ヴィジュアル・アンド・ランゲージナビゲーション(VLN)は、指示に従う自律的な視覚エージェントの構築と、実際のシーンでのナビゲーションを目的としている。
長い水平履歴をマルチモーダルな意思決定に組み込むために,HAMT(History Aware Multimodal Transformer)を導入する。
論文 参考訳(メタデータ) (2021-10-25T22:54:41Z) - VISITRON: Visual Semantics-Aligned Interactively Trained
Object-Navigator [41.060371177425175]
写真リアル環境をナビゲートする対話型ロボットは、視覚・言語ナビゲーション(VLN)の基礎となる課題に直面している
CVDN固有の対話型システムに適したナビゲータであるVISITRONを提案する。
CVDNの性能向上と経験的洞察を得るため,VISITRONと広範囲にわたるアブリケーションを行った。
論文 参考訳(メタデータ) (2021-05-25T00:21:54Z) - Structured Scene Memory for Vision-Language Navigation [155.63025602722712]
視覚言語ナビゲーション(VLN)のための重要なアーキテクチャを提案する。
ナビゲーション中に知覚を正確に記憶できるほど区画化されている。
また、環境内の視覚的および幾何学的な手がかりを捉え、取り除く、構造化されたシーン表現としても機能する。
論文 参考訳(メタデータ) (2021-03-05T03:41:00Z) - Multimodal Aggregation Approach for Memory Vision-Voice Indoor
Navigation with Meta-Learning [5.448283690603358]
本稿では,新しい室内ナビゲーションモデルである Memory Vision-Voice Indoor Navigation (MVV-IN) を提案する。
MVV-INはロボットの環境理解を高めるために音声コマンドを受信し、視覚観察のマルチモーダル情報を分析する。
論文 参考訳(メタデータ) (2020-09-01T13:12:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。