論文の概要: Reinforced Structured State-Evolution for Vision-Language Navigation
- arxiv url: http://arxiv.org/abs/2204.09280v1
- Date: Wed, 20 Apr 2022 07:51:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-21 14:48:39.956604
- Title: Reinforced Structured State-Evolution for Vision-Language Navigation
- Title(参考訳): 視覚言語ナビゲーションのための強化構造化状態進化
- Authors: Jinyu Chen, Chen Gao, Erli Meng, Qiong Zhang, Si Liu
- Abstract要約: ヴィジュアル・アンド・ランゲージ・ナビゲーション(VLN)タスクは、自然言語の指示に従って遠隔地へ移動するための実施エージェントを必要とする。
従来の手法は通常、シークエンスモデル(TransformerやLSTMなど)をナビゲータとして採用していた。
本稿では,VLNの環境レイアウトの手がかりを効果的に維持するために,構造化状態進化(SEvol)モデルを提案する。
- 参考スコア(独自算出の注目度): 42.46176089721314
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-and-language Navigation (VLN) task requires an embodied agent to
navigate to a remote location following a natural language instruction.
Previous methods usually adopt a sequence model (e.g., Transformer and LSTM) as
the navigator. In such a paradigm, the sequence model predicts action at each
step through a maintained navigation state, which is generally represented as a
one-dimensional vector. However, the crucial navigation clues (i.e.,
object-level environment layout) for embodied navigation task is discarded
since the maintained vector is essentially unstructured. In this paper, we
propose a novel Structured state-Evolution (SEvol) model to effectively
maintain the environment layout clues for VLN. Specifically, we utilise the
graph-based feature to represent the navigation state instead of the
vector-based state. Accordingly, we devise a Reinforced Layout clues Miner
(RLM) to mine and detect the most crucial layout graph for long-term navigation
via a customised reinforcement learning strategy. Moreover, the Structured
Evolving Module (SEM) is proposed to maintain the structured graph-based state
during navigation, where the state is gradually evolved to learn the
object-level spatial-temporal relationship. The experiments on the R2R and R4R
datasets show that the proposed SEvol model improves VLN models' performance by
large margins, e.g., +3% absolute SPL accuracy for NvEM and +8% for EnvDrop on
the R2R test set.
- Abstract(参考訳): vision-and-language navigation (vln)タスクは、自然言語命令に従って遠隔地へナビゲートするための具体化エージェントが必要である。
従来の方法では通常、シーケンスモデル(transformerやlstmなど)をナビゲータとして採用する。
このようなパラダイムでは、シーケンスモデルは、一般に1次元ベクトルとして表される、維持されたナビゲーション状態を通じて各ステップでのアクションを予測する。
しかし、維持ベクトルは本質的に非構造であるため、具体化されたナビゲーションタスクにとって重要なナビゲーションヒント(すなわち、オブジェクトレベルの環境レイアウト)は破棄される。
本稿では,VLNの環境レイアウトの手がかりを効果的に維持するための,構造化状態進化(SEvol)モデルを提案する。
具体的には、グラフベースの特徴を利用して、ベクトルベースの状態の代わりにナビゲーション状態を表現します。
そこで我々は,RLM(Reinforceed Layout clues Miner)をマイニングし,カスタマイズされた強化学習戦略を用いて,長期ナビゲーションにおいて最も重要なレイアウトグラフを検出する。
さらに、SEM(Structured Evolving Module)は、ナビゲーション中に構造化グラフベースの状態を維持するために提案され、状態は徐々に進化し、オブジェクトレベルと時空間の関係を学習する。
R2RとR4Rデータセットの実験により、提案されたSevolモデルは、NvEMの+3%絶対SPL精度とR2RテストセットのEnvDropの+8%といった大きなマージンでVLNモデルの性能を改善することが示された。
関連論文リスト
- NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning
Disentangled Reasoning [101.56342075720588]
Embodied AIの重要な研究課題であるVision-and-Language Navigation (VLN)は、自然言語の指示に従って複雑な3D環境をナビゲートするために、エンボディエージェントを必要とする。
近年の研究では、ナビゲーションの推論精度と解釈可能性を改善することにより、VLNにおける大きな言語モデル(LLM)の有望な能力を強調している。
本稿では,自己誘導型ナビゲーション決定を実現するために,パラメータ効率の高いドメイン内トレーニングを実現する,Navigational Chain-of-Thought (NavCoT) という新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-03-12T07:27:02Z) - ENTL: Embodied Navigation Trajectory Learner [37.43079415330256]
エンボディナビゲーションのための長いシーケンス表現を抽出する手法を提案する。
我々は,現在の行動に則った将来の状態のベクトル量子化予測を用いてモデルを訓練する。
提案手法の重要な特徴は、モデルが明示的な報酬信号なしで事前訓練されることである。
論文 参考訳(メタデータ) (2023-04-05T17:58:33Z) - BEVBert: Multimodal Map Pre-training for Language-guided Navigation [75.23388288113817]
視覚・言語ナビゲーション(VLN)における空間認識型マップベース事前学習パラダイムを提案する。
我々は,グローバルなトポロジカルマップにおけるナビゲーション依存性をモデル化しながら,不完全な観測を明示的に集約し,重複を取り除くための局所距離マップを構築した。
ハイブリッドマップをベースとして,マルチモーダルマップ表現を学習するための事前学習フレームワークを考案し,空間認識型クロスモーダル推論を強化し,言語誘導ナビゲーションの目標を導出する。
論文 参考訳(メタデータ) (2022-12-08T16:27:54Z) - ULN: Towards Underspecified Vision-and-Language Navigation [77.81257404252132]
Underspecificified Vision-and-Language Navigation (ULN)は、視覚・言語ナビゲーション(VLN)のための新しい設定である
本稿では,分類モジュール,ナビゲーションエージェント,エクスプロイテーション・ツー・エクスプロレーション(E2E)モジュールで構成されるVLNフレームワークを提案する。
我々のフレームワークはより堅牢で、ULNのベースラインを全レベルの相対的な成功率で10%上回る。
論文 参考訳(メタデータ) (2022-10-18T17:45:06Z) - Multimodal Transformer with Variable-length Memory for
Vision-and-Language Navigation [79.1669476932147]
VLN(Vision-and-Language Navigation)は、エージェントが目標位置に向かうために言語命令に従う必要があるタスクである。
近年のTransformer-based VLN法は,視覚的観察と言語指導の直接的な結びつきから大きな進歩を遂げている。
視覚的な自然言語ナビゲーションのための可変長メモリ(MTVM)を備えたマルチモーダルトランス (Multimodal Transformer) を提案する。
論文 参考訳(メタデータ) (2021-11-10T16:04:49Z) - Structured Scene Memory for Vision-Language Navigation [155.63025602722712]
視覚言語ナビゲーション(VLN)のための重要なアーキテクチャを提案する。
ナビゲーション中に知覚を正確に記憶できるほど区画化されている。
また、環境内の視覚的および幾何学的な手がかりを捉え、取り除く、構造化されたシーン表現としても機能する。
論文 参考訳(メタデータ) (2021-03-05T03:41:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。