論文の概要: Agent Journey Beyond RGB: Unveiling Hybrid Semantic-Spatial Environmental Representations for Vision-and-Language Navigation
- arxiv url: http://arxiv.org/abs/2412.06465v2
- Date: Tue, 10 Dec 2024 09:38:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-11 10:56:07.666889
- Title: Agent Journey Beyond RGB: Unveiling Hybrid Semantic-Spatial Environmental Representations for Vision-and-Language Navigation
- Title(参考訳): RGBを超えるエージェントジャーニー:視覚・言語ナビゲーションのためのハイブリッドセマンティック・空間環境表現
- Authors: Xuesong Zhang, Yunbo Xu, Jia Li, Zhenzhen Hu, Richnag Hong,
- Abstract要約: ヴィジュアル・アンド・ランゲージ・ナビゲーション(VLN)における自我中心エージェントにとって、自然言語命令に基づく未知環境のナビゲーションは依然として困難である。
本稿では,ナビゲーションを容易にする汎用セマンティック理解と空間認識アーキテクチャを提案する。
SUSAハイブリッドセマンティック空間表現はナビゲーション性能を効果的に向上し、3つのVLNベンチマーク(REVERIE, R2R, SOON)にまたがる最先端性能を新たに設定する。
- 参考スコア(独自算出の注目度): 15.302043040651368
- License:
- Abstract: Navigating unseen environments based on natural language instructions remains difficult for egocentric agents in Vision-and-Language Navigation (VLN). While recent advancements have yielded promising outcomes, they primarily rely on RGB images for environmental representation, often overlooking the underlying semantic knowledge and spatial cues. Intuitively, humans inherently ground textual semantics within the spatial layout during indoor navigation. Inspired by this, we propose a versatile Semantic Understanding and Spatial Awareness (SUSA) architecture to facilitate navigation. SUSA includes a Textual Semantic Understanding (TSU) module, which narrows the modality gap between instructions and environments by generating and associating the descriptions of environmental landmarks in the agent's immediate surroundings. Additionally, a Depth-based Spatial Perception (DSP) module incrementally constructs a depth exploration map, enabling a more nuanced comprehension of environmental layouts. Experimental results demonstrate that SUSA hybrid semantic-spatial representations effectively enhance navigation performance, setting new state-of-the-art performance across three VLN benchmarks (REVERIE, R2R, and SOON). The source code will be publicly available.
- Abstract(参考訳): ヴィジュアル・アンド・ランゲージ・ナビゲーション(VLN)におけるエゴセントリックなエージェントにとって、自然言語命令に基づく未知の環境のナビゲーションは依然として困難である。
近年の進歩は有望な成果をもたらしたが、それらは主に環境表現のためのRGBイメージに依存しており、しばしば基礎となる意味的知識や空間的手がかりを見落としている。
直感的には、人間は本質的に、屋内ナビゲーション中に空間配置の中にテキストの意味を接地する。
そこで本研究では,ナビゲーションを容易にする汎用セマンティック理解・空間認識アーキテクチャを提案する。
SUSA には Textual Semantic Understanding (TSU) モジュールが含まれており、エージェントの周辺環境における環境ランドマークの記述の生成と関連付けによって、指示と環境の間のモダリティギャップを狭める。
さらに、DSP(Spatial Perception)モジュールは、深度探索マップを漸進的に構築し、環境レイアウトのより微妙な理解を可能にする。
実験の結果、SUSAハイブリッドセマンティック空間表現はナビゲーション性能を効果的に向上し、3つのVLNベンチマーク(REVERIE, R2R, SOON)で新しい最先端性能が設定された。
ソースコードは公開されます。
関連論文リスト
- UnitedVLN: Generalizable Gaussian Splatting for Continuous Vision-Language Navigation [71.97405667493477]
我々は,UnitedVLNと呼ばれる,新しい汎用3DGSベースの事前学習パラダイムを導入する。
エージェントは、高忠実度360度ビジュアルイメージとセマンティック特徴を統一してレンダリングすることで、将来の環境をよりよく探索することができる。
UnitedVLNは既存のVLN-CEベンチマークで最先端の手法より優れている。
論文 参考訳(メタデータ) (2024-11-25T02:44:59Z) - Cog-GA: A Large Language Models-based Generative Agent for Vision-Language Navigation in Continuous Environments [19.818370526976974]
VLN-CE(Vision Language Navigation in Continuous Environments)は、AIのフロンティアである。
本稿では,VLN-CEタスクに適した大規模言語モデル(LLM)に基づく生成エージェントであるCog-GAを紹介する。
Cog-GAは、人間のような認知過程をエミュレートするための二重戦略を採用している。
論文 参考訳(メタデータ) (2024-09-04T08:30:03Z) - Vision and Language Navigation in the Real World via Online Visual
Language Mapping [18.769171505280127]
視覚・言語ナビゲーション(VLN)法は主にシミュレーションで評価される。
実世界のVLN課題に対処する新しい枠組みを提案する。
未確認実験環境において,Interbotix LoCoBot WX250を用いたパイプラインの評価を行った。
論文 参考訳(メタデータ) (2023-10-16T20:44:09Z) - Kefa: A Knowledge Enhanced and Fine-grained Aligned Speaker for
Navigation Instruction Generation [70.76686546473994]
ナビゲーション命令生成のための新しい話者モデルtextscKefaを提案する。
提案したKEFA話者は,屋内および屋外の両方で最先端の指示生成性能を実現する。
論文 参考訳(メタデータ) (2023-07-25T09:39:59Z) - Learning Navigational Visual Representations with Semantic Map
Supervision [85.91625020847358]
エージェントの自我中心のビューとセマンティックマップを対比してナビゲーション固有の視覚表現学習法を提案する。
Ego$2$-Map学習は、オブジェクト、構造、遷移などのコンパクトでリッチな情報を、ナビゲーションのためのエージェントのエゴセントリックな表現に転送する。
論文 参考訳(メタデータ) (2023-07-23T14:01:05Z) - Graph based Environment Representation for Vision-and-Language
Navigation in Continuous Environments [20.114506226598508]
VLN-CE(Vision-and-Language Navigation in Continuous Environments)は、エージェントが現実的な環境で言語命令に従う必要があるナビゲーションタスクである。
上記の問題を解決するために,新しい環境表現を提案する。
論文 参考訳(メタデータ) (2023-01-11T08:04:18Z) - CLEAR: Improving Vision-Language Navigation with Cross-Lingual,
Environment-Agnostic Representations [98.30038910061894]
VLN(Vision-and-Language Navigation)タスクでは、エージェントが言語命令に基づいて環境をナビゲートする必要がある。
CLEAR: 言語横断表現と環境非依存表現を提案する。
我々の言語と視覚表現は、Room-to-Room and Cooperative Vision-and-Dialogue Navigationタスクにうまく転送できる。
論文 参考訳(メタデータ) (2022-07-05T17:38:59Z) - Structured Scene Memory for Vision-Language Navigation [155.63025602722712]
視覚言語ナビゲーション(VLN)のための重要なアーキテクチャを提案する。
ナビゲーション中に知覚を正確に記憶できるほど区画化されている。
また、環境内の視覚的および幾何学的な手がかりを捉え、取り除く、構造化されたシーン表現としても機能する。
論文 参考訳(メタデータ) (2021-03-05T03:41:00Z) - Environment-agnostic Multitask Learning for Natural Language Grounded
Navigation [88.69873520186017]
本稿では,視覚言語ナビゲーション(VLN)タスクと対話履歴からのナビゲーション(NDH)タスクをシームレスにトレーニングできるマルチタスクナビゲーションモデルを提案する。
実験により、環境に依存しないマルチタスク学習は、目に見える環境と目に見えない環境の間のパフォーマンスギャップを著しく減少させることが示された。
論文 参考訳(メタデータ) (2020-03-01T09:06:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。