論文の概要: MonoDream: Monocular Vision-Language Navigation with Panoramic Dreaming
- arxiv url: http://arxiv.org/abs/2508.02549v1
- Date: Mon, 04 Aug 2025 16:01:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.41763
- Title: MonoDream: Monocular Vision-Language Navigation with Panoramic Dreaming
- Title(参考訳): MonoDream:パノラマドリームを用いた単眼視線ナビゲーション
- Authors: Shuo Wang, Yongcai Wang, Wanting Li, Yucheng Wang, Maiyue Chen, Kaihui Wang, Zhizhong Su, Xudong Cai, Yeying Jin, Deying Li, Zhaoxin Fan,
- Abstract要約: VLN(Vision-Language Navigation)タスクは、パノラマRGBと深度入力を利用して、アクション計画のための豊富な空間的手がかりを提供する。
単分子エージェントがUNR(Unified Navigation Representation)を学習できる軽量なVLAフレームワークMonoDreamを提案する。
この共有された特徴表現は、ナビゲーションに関連する視覚的意味論(例えば、グローバルなレイアウト、深さ、将来の手がかり)と言語に基づく行動意図を共同で調整し、より信頼性の高い行動予測を可能にする。
- 参考スコア(独自算出の注目度): 15.920885177995505
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Navigation (VLN) tasks often leverage panoramic RGB and depth inputs to provide rich spatial cues for action planning, but these sensors can be costly or less accessible in real-world deployments. Recent approaches based on Vision-Language Action (VLA) models achieve strong results with monocular input, yet they still lag behind methods using panoramic RGB-D information. We present MonoDream, a lightweight VLA framework that enables monocular agents to learn a Unified Navigation Representation (UNR). This shared feature representation jointly aligns navigation-relevant visual semantics (e.g., global layout, depth, and future cues) and language-grounded action intent, enabling more reliable action prediction. MonoDream further introduces Latent Panoramic Dreaming (LPD) tasks to supervise the UNR, which train the model to predict latent features of panoramic RGB and depth observations at both current and future steps based on only monocular input. Experiments on multiple VLN benchmarks show that MonoDream consistently improves monocular navigation performance and significantly narrows the gap with panoramic-based agents.
- Abstract(参考訳): VLN(Vision-Language Navigation)タスクは、パノラマRGBと深度入力を利用して、アクションプランニングのための豊富な空間的手がかりを提供するが、これらのセンサーは現実世界のデプロイメントではコストがかからない。
近年のビジョン・ランゲージ・アクション(VLA)モデルに基づくアプローチは、単分子入力による強い結果が得られるが、パノラマRGB-D情報を用いた手法には遅れがある。
単分子エージェントがUNR(Unified Navigation Representation)を学習できる軽量なVLAフレームワークであるMonoDreamを提案する。
この共有された特徴表現は、ナビゲーションに関連する視覚的意味論(例えば、グローバルなレイアウト、深さ、将来のキュー)と言語によるアクションインテントを共同で調整し、より信頼性の高いアクション予測を可能にする。
MonoDreamはさらに、パノラマ・ドリーミング(LPD)タスクを導入し、UNRを監督し、パノラマ RGB の潜伏特性と、単分子入力のみに基づいて現在のステップと将来のステップの両方で深度観測を予測できるようにモデルを訓練する。
複数のVLNベンチマークの実験では、MonoDreamは単分子ナビゲーション性能を一貫して改善し、パノラマベースのエージェントとのギャップを著しく狭めている。
関連論文リスト
- Following Route Instructions using Large Vision-Language Models: A Comparison between Low-level and Panoramic Action Spaces [2.2406151150434894]
VLN(Vision-and-Language Navigation)は、自律型ロボットが自然言語の指示に従うことで、未知の環境をナビゲートすることを可能にする。
現行のVLNシステムはナビゲーション用に特別に設計され最適化されたモデルに依存しており、市販のLVLMの可能性を未調査のまま残している。
本稿では,市販のLVLMがVLNタスクを効果的にサポートできるのか,低レベルおよびパノラマ動作パラダイムの両方をサポートすることができるのかを検討する。
論文 参考訳(メタデータ) (2025-08-04T21:45:21Z) - VLN-R1: Vision-Language Navigation via Reinforcement Fine-Tuning [77.34267241692706]
Vision-Language Navigation(VLN)は、エージェントが自然言語命令を使用して現実世界の環境をナビゲートする必要がある、AIの実施における中核的な課題である。
本稿では、LVLM(Large Vision-Language Models)を利用して、エゴセントリックな動画ストリームを連続的なナビゲーションアクションに変換するエンドツーエンドフレームワークであるVLN-R1を提案する。
論文 参考訳(メタデータ) (2025-06-20T17:59:59Z) - A Navigation Framework Utilizing Vision-Language Models [0.0]
VLN(Vision-and-Language Navigation)は、AIを具現化した複雑な課題である。
CLIPやFlamingoのような大規模視覚言語モデル(LVLM)の最近の進歩は、マルチモーダル理解を大幅に改善した。
動作計画から視覚言語理解を分離するモジュラー・プラグ・アンド・プレイナビゲーション・フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-11T20:51:58Z) - UnitedVLN: Generalizable Gaussian Splatting for Continuous Vision-Language Navigation [71.97405667493477]
我々は,UnitedVLNと呼ばれる,新しい汎用3DGSベースの事前学習パラダイムを導入する。
エージェントは、高忠実度360度ビジュアルイメージとセマンティック特徴を統一してレンダリングすることで、将来の環境をよりよく探索することができる。
UnitedVLNは既存のVLN-CEベンチマークで最先端の手法より優れている。
論文 参考訳(メタデータ) (2024-11-25T02:44:59Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [61.143381152739046]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - OVER-NAV: Elevating Iterative Vision-and-Language Navigation with Open-Vocabulary Detection and StructurEd Representation [96.46961207887722]
OVER-NAVは、現在のIVLN技術を超えることを目指している。
解釈されたナビゲーションデータを完全に活用するために、構造化された表現、コード化されたOmnigraphを導入する。
論文 参考訳(メタデータ) (2024-03-26T02:34:48Z) - LangNav: Language as a Perceptual Representation for Navigation [63.90602960822604]
視覚・言語ナビゲーション(VLN)における知覚表現としての言語の利用について検討する。
提案手法では,画像キャプションや物体検出に市販の視覚システムを用いて,エージェントのエゴセントリックなパノラマビューを各ステップで自然言語記述に変換する。
論文 参考訳(メタデータ) (2023-10-11T20:52:30Z) - GeoVLN: Learning Geometry-Enhanced Visual Representation with Slot
Attention for Vision-and-Language Navigation [52.65506307440127]
我々は,ロバストなビジュアル・アンド・ランゲージナビゲーションのためのスロットアテンションに基づく幾何学的視覚表現を学習するGeoVLNを提案する。
我々はV&L BERTを用いて言語情報と視覚情報の両方を組み込んだクロスモーダル表現を学習する。
論文 参考訳(メタデータ) (2023-05-26T17:15:22Z) - NavGPT: Explicit Reasoning in Vision-and-Language Navigation with Large
Language Models [17.495162643127003]
我々は,複雑なエンボディシーンにおけるGPTモデルの推論能力を明らかにするために,NavGPTを導入した。
NavGPTは、視覚的な観察、ナビゲーション履歴、将来の探索可能な方向のテキスト記述を入力として、エージェントの現在の状態を推論する。
本研究では,NavGPTが経路に沿った観察や行動から高品質なナビゲーション命令を生成可能であることを示す。
論文 参考訳(メタデータ) (2023-05-26T14:41:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。