論文の概要: Structured Scene Memory for Vision-Language Navigation
- arxiv url: http://arxiv.org/abs/2103.03454v1
- Date: Fri, 5 Mar 2021 03:41:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-08 15:05:44.035306
- Title: Structured Scene Memory for Vision-Language Navigation
- Title(参考訳): 視覚言語ナビゲーションのための構造化シーンメモリ
- Authors: Hanqing Wang, Wenguan Wang, Wei Liang, Caiming Xiong, Jianbing Shen
- Abstract要約: 視覚言語ナビゲーション(VLN)のための重要なアーキテクチャを提案する。
ナビゲーション中に知覚を正確に記憶できるほど区画化されている。
また、環境内の視覚的および幾何学的な手がかりを捉え、取り除く、構造化されたシーン表現としても機能する。
- 参考スコア(独自算出の注目度): 155.63025602722712
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, numerous algorithms have been developed to tackle the problem of
vision-language navigation (VLN), i.e., entailing an agent to navigate 3D
environments through following linguistic instructions. However, current VLN
agents simply store their past experiences/observations as latent states in
recurrent networks, failing to capture environment layouts and make long-term
planning. To address these limitations, we propose a crucial architecture,
called Structured Scene Memory (SSM). It is compartmentalized enough to
accurately memorize the percepts during navigation. It also serves as a
structured scene representation, which captures and disentangles visual and
geometric cues in the environment. SSM has a collect-read controller that
adaptively collects information for supporting current decision making and
mimics iterative algorithms for long-range reasoning. As SSM provides a
complete action space, i.e., all the navigable places on the map, a
frontier-exploration based navigation decision making strategy is introduced to
enable efficient and global planning. Experiment results on two VLN datasets
(i.e., R2R and R4R) show that our method achieves state-of-the-art performance
on several metrics.
- Abstract(参考訳): 近年,視覚言語ナビゲーション(VLN)問題,すなわちエージェントが言語指示に従って3D環境をナビゲートする問題に対処するために,多数のアルゴリズムが開発されている。
しかしながら、現在のVLNエージェントは、単に過去の経験/観測をリカレントネットワークの遅延状態として保存し、環境レイアウトをキャプチャできず、長期計画を行う。
これらの制限に対処するため、SSM(Structured Scene Memory)と呼ばれる重要なアーキテクチャを提案します。
ナビゲーション中に知覚を正確に記憶できるほど区画化されている。
また、環境内の視覚的および幾何学的な手がかりを捉え、取り除く、構造化されたシーン表現としても機能する。
SSMは、現在の意思決定をサポートするための情報を適応的に収集し、長距離推論のための反復アルゴリズムを模倣する収集読み取りコントローラを備えている。
SSMは完全な行動空間、すなわち地図上のすべてのナビゲーション可能な場所を提供するため、効率的かつグローバルな計画を可能にするフロンティア探索に基づくナビゲーション意思決定戦略が導入されます。
2つのVLNデータセット(R2RとR4R)に対する実験結果から,本手法がいくつかの測定値において最先端の性能を達成することを示す。
関連論文リスト
- SG-Nav: Online 3D Scene Graph Prompting for LLM-based Zero-shot Object Navigation [83.4599149936183]
既存のゼロショットオブジェクトナビゲーション手法は、空間的に閉じたオブジェクトのテキストでLCMをプロンプトする。
本稿では,3次元シーングラフを用いて観察されたシーンを表現することを提案する。
我々は,MP3D,HM3D,RoboTHOR環境において,SG-Navが従来のゼロショット法を10%以上のSRで上回る大規模な実験を行った。
論文 参考訳(メタデータ) (2024-10-10T17:57:19Z) - Cog-GA: A Large Language Models-based Generative Agent for Vision-Language Navigation in Continuous Environments [19.818370526976974]
VLN-CE(Vision Language Navigation in Continuous Environments)は、AIのフロンティアである。
本稿では,VLN-CEタスクに適した大規模言語モデル(LLM)に基づく生成エージェントであるCog-GAを紹介する。
Cog-GAは、人間のような認知過程をエミュレートするための二重戦略を採用している。
論文 参考訳(メタデータ) (2024-09-04T08:30:03Z) - MC-GPT: Empowering Vision-and-Language Navigation with Memory Map and Reasoning Chains [4.941781282578696]
Vision-and-Language Navigation (VLN)タスクでは、エージェントは自然言語の指示に従って目的地に向かう必要がある。
学習ベースのアプローチはタスクに対する主要な解決策だが、高いトレーニングコストと解釈可能性の欠如に悩まされている。
近年、Large Language Models (LLMs) は強力な一般化能力のため、VLNにとって有望なツールとして登場した。
論文 参考訳(メタデータ) (2024-05-17T08:33:27Z) - VELMA: Verbalization Embodiment of LLM Agents for Vision and Language
Navigation in Street View [81.58612867186633]
視覚と言語ナビゲーション(VLN)は、視覚的および自然言語の理解と空間的および時間的推論能力を必要とする。
VELMAは,2つのコンテキスト内例のみを用いて,ストリートビューでのナビゲーション指示に従うことができることを示す。
数千の例でLLMエージェントをさらに微調整し、従来の2つのデータセットのタスク完了に対する25%-30%の相対的な改善を実現した。
論文 参考訳(メタデータ) (2023-07-12T11:08:24Z) - A Dual Semantic-Aware Recurrent Global-Adaptive Network For
Vision-and-Language Navigation [3.809880620207714]
VLN(Vision-and-Language Navigation)は、エージェントが言語と視覚の手がかりを使用してターゲット領域を特定することを必要とする現実的だが困難なタスクである。
本研究は、上記の問題に対処するため、DSRG(Dual semantic-aware Recurrent Global-Adaptive Network)を提案する。
論文 参考訳(メタデータ) (2023-05-05T15:06:08Z) - ESceme: Vision-and-Language Navigation with Episodic Scene Memory [72.69189330588539]
ヴィジュアル・アンド・ランゲージ・ナビゲーション(VLN)は、現実世界のシーンで自然言語のナビゲーション指示に従う視覚エージェントをシミュレートする。
本稿では,VLNにおける情景記憶(esceme)のメカニズムについて紹介する。
論文 参考訳(メタデータ) (2023-03-02T07:42:07Z) - Target-Driven Structured Transformer Planner for Vision-Language
Navigation [55.81329263674141]
本稿では,TD-STP(Target-Driven Structured Transformer Planner)を提案する。
具体的には,長期目標の明示的な推定を行うため,Imaginary Scene Tokenization機構を考案する。
さらに,調査室のレイアウトを構造的かつグローバルな計画のためのニューラルアテンションアーキテクチャにエレガントに組み込んだ構造化トランスフォーマープランナーを設計する。
論文 参考訳(メタデータ) (2022-07-19T06:46:21Z) - Learning Synthetic to Real Transfer for Localization and Navigational
Tasks [7.019683407682642]
ナビゲーションは、コンピュータビジョン、ロボット工学、制御の概念を組み合わせて、複数の分野のクロスロードにある。
この研究は、実世界への移動をできる限り少ない努力で行うことができるナビゲーションパイプラインをシミュレーションで作成することを目的としていた。
ナビゲーションパイプラインを設計するには、環境、ローカライゼーション、ナビゲーション、計画の4つの大きな課題が発生する。
論文 参考訳(メタデータ) (2020-11-20T08:37:03Z) - Occupancy Anticipation for Efficient Exploration and Navigation [97.17517060585875]
そこで我々は,エージェントが自我中心のRGB-D観測を用いて,その占有状態を可視領域を超えて推定する,占有予測を提案する。
エゴセントリックなビューとトップダウンマップの両方でコンテキストを活用することで、私たちのモデルは環境のより広いマップを予測できます。
われわれのアプローチは、2020 Habitat PointNav Challengeの優勝だ。
論文 参考訳(メタデータ) (2020-08-21T03:16:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。