論文の概要: MapDream: Task-Driven Map Learning for Vision-Language Navigation
- arxiv url: http://arxiv.org/abs/2602.00222v2
- Date: Tue, 03 Feb 2026 09:27:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 13:28:03.6954
- Title: MapDream: Task-Driven Map Learning for Vision-Language Navigation
- Title(参考訳): MapDream: 視覚言語ナビゲーションのためのタスク駆動型マップ学習
- Authors: Guoxin Lian, Shuo Wang, Yucheng Wang, Yongcai Wang, Maiyue Chen, Kaihui Wang, Bo Zhang, Zhizhong Su, Deying Li, Zhaoxin Fan,
- Abstract要約: Vision-Language Navigation (VLN)は、エージェントが部分的に観察された3D環境で自然言語の指示に従う必要がある。
本研究では,マップ構築を自己回帰型鳥眼ビュー(BEV)画像合成として定式化するマップ・イン・ザ・ループ・フレームワークであるMapDreamを提案する。
R2R-CEとRxR-CEの実験は、タスク駆動型生成マップ学習を検証し、最先端のモノクル性能を実現する。
- 参考スコア(独自算出の注目度): 24.46479241004971
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Navigation (VLN) requires agents to follow natural language instructions in partially observed 3D environments, motivating map representations that aggregate spatial context beyond local perception. However, most existing approaches rely on hand-crafted maps constructed independently of the navigation policy. We argue that maps should instead be learned representations shaped directly by navigation objectives rather than exhaustive reconstructions. Based on this insight, we propose MapDream, a map-in-the-loop framework that formulates map construction as autoregressive bird's-eye-view (BEV) image synthesis. The framework jointly learns map generation and action prediction, distilling environmental context into a compact three-channel BEV map that preserves only navigation-critical affordances. Supervised pre-training bootstraps a reliable mapping-to-control interface, while the autoregressive design enables end-to-end joint optimization through reinforcement fine-tuning. Experiments on R2R-CE and RxR-CE achieve state-of-the-art monocular performance, validating task-driven generative map learning.
- Abstract(参考訳): Vision-Language Navigation (VLN)は、エージェントが部分的に観察された3D環境で自然言語の指示に従うことを必要とし、局所的な知覚を超えた空間的コンテキストを集約する地図表現を動機付けている。
しかし、既存のほとんどのアプローチはナビゲーションポリシーとは独立して構築された手作りの地図に依存している。
地図は、網羅的な再構築ではなく、航法目的によって直接形づくられた表現を学習すべきである、と我々は主張する。
この知見に基づいて,地図構築を自己回帰型鳥眼視(BEV)画像合成として定式化するマップ・イン・ザ・ループ・フレームワークであるMapDreamを提案する。
このフレームワークは、地図生成と行動予測を共同で学習し、環境コンテキストを3チャンネルのコンパクトなBEVマップに蒸留し、ナビゲーションクリティカルな価格しか保存しない。
改良された事前学習ブートストラップは、信頼性の高いマッピング・ツー・コントロールインターフェースであり、自動回帰設計は、強化微調整によるエンドツーエンドの関節最適化を可能にする。
R2R-CEとRxR-CEの実験は、タスク駆動型生成マップ学習を検証し、最先端のモノクル性能を実現する。
関連論文リスト
- SkeNa: Learning to Navigate Unseen Environments Based on Abstract Hand-Drawn Maps [20.963573846962987]
我々はSketch map-based visual Navigation (SkeNa)を紹介する。
SkeNaは、手書きのスケッチマップのみをガイダンスとして、エージェントが見えない環境でゴールに到達しなければならない、具体化されたナビゲーションタスクである。
我々は,71の屋内シーンにわたる54k軌道とスケッチマップのペアからなる大規模データセットSoRを提案する。
論文 参考訳(メタデータ) (2025-08-05T03:56:32Z) - Object Goal Navigation with Recursive Implicit Maps [92.6347010295396]
対象目標ナビゲーションのための暗黙的な空間マップを提案する。
提案手法は, 挑戦的なMP3Dデータセット上での技量を著しく上回る。
我々は、実際のロボットにモデルをデプロイし、実際のシーンでオブジェクトゴールナビゲーションの結果を奨励する。
論文 参考訳(メタデータ) (2023-08-10T14:21:33Z) - Learning Navigational Visual Representations with Semantic Map
Supervision [85.91625020847358]
エージェントの自我中心のビューとセマンティックマップを対比してナビゲーション固有の視覚表現学習法を提案する。
Ego$2$-Map学習は、オブジェクト、構造、遷移などのコンパクトでリッチな情報を、ナビゲーションのためのエージェントのエゴセントリックな表現に転送する。
論文 参考訳(メタデータ) (2023-07-23T14:01:05Z) - BEVBert: Multimodal Map Pre-training for Language-guided Navigation [75.23388288113817]
視覚・言語ナビゲーション(VLN)における空間認識型マップベース事前学習パラダイムを提案する。
我々は,グローバルなトポロジカルマップにおけるナビゲーション依存性をモデル化しながら,不完全な観測を明示的に集約し,重複を取り除くための局所距離マップを構築した。
ハイブリッドマップをベースとして,マルチモーダルマップ表現を学習するための事前学習フレームワークを考案し,空間認識型クロスモーダル推論を強化し,言語誘導ナビゲーションの目標を導出する。
論文 参考訳(メタデータ) (2022-12-08T16:27:54Z) - Weakly-Supervised Multi-Granularity Map Learning for Vision-and-Language
Navigation [87.52136927091712]
我々は,ロボットエージェントが言語指導によって記述された経路をたどって,環境の中をナビゲートするよう訓練する,現実的かつ困難な問題に対処する。
高精度かつ効率的なナビゲーションを実現するためには,環境オブジェクトの空間的位置と意味情報の両方を正確に表現した地図を構築することが重要である。
より包括的にオブジェクトを表現するために,オブジェクトの細粒度(色,テクスチャなど)とセマンティッククラスの両方を含む多粒度マップを提案する。
論文 参考訳(メタデータ) (2022-10-14T04:23:27Z) - Cross-modal Map Learning for Vision and Language Navigation [82.04247028482244]
VLN(Vision-and-Language Navigation)の問題点について考察する。
他の研究とは対照的に、我々の重要な洞察は、言語と視覚の関連性は、明示的な空間表現で起こるときに強くなるということである。
視覚・言語ナビゲーションのためのクロスモーダルマップ学習モデルを提案する。このモデルでは,まず,観測領域と観測対象領域の両方に対して,エゴセントリックマップ上のトップダウンセマンティクスを予測することを学習する。
論文 参考訳(メタデータ) (2022-03-10T03:30:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。