論文の概要: What Limits Vision-and-Language Navigation ?
- arxiv url: http://arxiv.org/abs/2605.13328v1
- Date: Wed, 13 May 2026 10:41:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:27.98815
- Title: What Limits Vision-and-Language Navigation ?
- Title(参考訳): ヴィジュアル・アンド・ランゲージ・ナビゲーションの限界は何か?
- Authors: Yunheng Wang, Yuetong Fang, Taowen Wang, Lusong Li, Kun Liu, Junzhe Xu, Zizhao Yuan, Yixiao Feng, Jiaxi Zhang, Wei Lu, Zecui Zeng, Renjing Xu,
- Abstract要約: StereoNavは、現実世界のナビゲーションの一貫性を高めるために設計された、堅牢なVision-Language-Actionフレームワークである。
R2R-CEとRxR-CEの実験は、StereoNavが最先端のエゴセントリックなRGB性能を達成することを示した。
- 参考スコア(独自算出の注目度): 18.423144111320592
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-and-Language Navigation (VLN) is a cornerstone of embodied intelligence. However, current agents often suffer from significant performance degradation when transitioning from simulation to real-world deployment, primarily due to perceptual instability (e.g., lighting variations and motion blur) and under-specified instructions. While existing methods attempt to bridge this gap by scaling up model size and training data, we argue that the bottleneck lies in the lack of robust spatial grounding and cross-domain priors. In this paper, we propose StereoNav, a robust Vision-Language-Action framework designed to enhance real-world navigation consistency. To address the inherent gap between synthetic training and physical execution, we introduce Target-Location Priors as a persistent bridge. These priors provide stable visual guidance that remains invariant across domains, effectively grounding the agent even when instructions are vague. Furthermore, to mitigate visual disturbances like motion blur and illumination shifts, StereoNav leverages stereo vision to construct a unified representation of semantics and geometry, enabling precise action prediction through enhanced depth awareness. Extensive experiments on R2R-CE and RxR-CE demonstrate that StereoNav achieves state-of-the-art egocentric RGB performance, with SR and SPL scores of 81.1% and 68.3%, and 67.5% and 52.0%, respectively, while using significantly fewer parameters and less training data than prior scaling-based approaches. More importantly, real-world robotic deployments confirm that StereoNav substantially improves navigation reliability in complex, unstructured environments. Project page: https://yunheng-wang.github.io/stereonav-public.github.io.
- Abstract(参考訳): VLN(Vision-and-Language Navigation)は、インテリジェンスの基礎である。
しかしながら、現在のエージェントは、シミュレーションから実世界のデプロイに移行する際に、主に知覚的不安定(例えば、照明のバリエーションや動きのぼかし)と不特定な指示によって、大きなパフォーマンス劣化に悩まされることが多い。
既存の手法では、モデルのサイズを拡大し、データをトレーニングすることで、このギャップを埋めようとしているが、そのボトルネックは、堅牢な空間的接地とドメイン間先行の欠如にある、と我々は主張する。
本稿では,現実のナビゲーションの整合性を高めるために,ロバストなVision-Language-ActionフレームワークであるStereoNavを提案する。
合成トレーニングと物理実行の間に生じるギャップに対処するために、永続的なブリッジとしてターゲット・ロケーション・プライオリティを導入する。
これらの先行は、ドメイン間で不変な安定した視覚的ガイダンスを提供し、命令があいまいな場合でもエージェントを効果的に接地する。
さらに、動きのぼやけや照明シフトなどの視覚障害を軽減するために、ステレオビジョンを活用して意味論と幾何学の統一表現を構築し、深度認識の強化による正確な行動予測を可能にする。
R2R-CEとRxR-CEの大規模な実験により、StereoNavは最先端の自己中心型RGBのパフォーマンスを達成し、SRとSPLのスコアは81.1%、68.3%、67.5%と52.0%とそれぞれ達成した。
さらに重要なのは、StereoNavが複雑な非構造環境におけるナビゲーションの信頼性を大幅に向上させることだ。
プロジェクトページ: https://yunheng-wang.github.io/stereonav-public.github.io
関連論文リスト
- AutoFly: Vision-Language-Action Model for UAV Autonomous Navigation in the Wild [62.47761809929869]
視覚言語ナビゲーション(VLN)は、視覚的観察とともに言語指示を解釈することで、知的エージェントが環境をナビゲートする必要がある。
無人航空機(UAV)の現在のVLN研究は、所定のルートに沿ってUAVを誘導するための詳細な指示に依存している。
本稿では,自律型UAVナビゲーションのためのエンド・ツー・エンドのビジョン・ランゲージ・アクションモデルであるAutoFlyを提案する。
論文 参考訳(メタデータ) (2026-02-10T11:08:07Z) - Learning to Tune Like an Expert: Interpretable and Scene-Aware Navigation via MLLM Reasoning and CVAE-Based Adaptation [12.561993540768729]
サービスロボットのための解釈可能かつシーン対応ナビゲーションフレームワークLE-Navについて述べる。
ゼロショットシーン理解を実現するために,ワンショット例とチェーン・オブ・シークレット・プロンプト戦略を利用する。
実験の結果、LE-Navは多種多様なプランナーやシナリオにまたがる人間レベルのチューニングを実現するためのハイパーパラメータを生成できることがわかった。
論文 参考訳(メタデータ) (2025-07-15T05:37:24Z) - SEMNAV: A Semantic Segmentation-Driven Approach to Visual Semantic Navigation [1.2582887633807602]
ビジュアルセマンティックナビゲーション(VSN)はロボット工学における基本的な問題であり、エージェントは未知の環境で対象物に向かって移動しなければならない。
ほとんどの最先端のVSNモデルは、実世界のレンダリングシーンが使用されるシミュレーション環境で訓練されている。
本研究では,環境の視覚的入力表現としてセマンティックセグメンテーションを活用する新しい手法であるSEMNAVを提案する。
論文 参考訳(メタデータ) (2025-06-02T08:19:41Z) - DORAEMON: Decentralized Ontology-aware Reliable Agent with Enhanced Memory Oriented Navigation [55.888688171010365]
DORAEMONは、人間のナビゲーション機能を模倣したVentralとDorsal Streamsで構成される、認知にインスパイアされたフレームワークである。
我々は,DORAEMONをHM3D,MP3D,GOATのデータセット上で評価し,成功率(SR)と成功度(SPL)の測定値の両方で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-28T04:46:13Z) - Ground-level Viewpoint Vision-and-Language Navigation in Continuous Environments [10.953629652228024]
VLN(Vision-and-Language Navigation)エージェントは、時系列の視覚観察とそれに対応する指示を関連付け、意思決定を行う。
本稿では,人間中心の指示と低地視野の四足歩行ロボットとのミスマッチに対処する。
この問題を軽減するために,地上レベルの視点ナビゲーション(GVNav)手法を提案する。
論文 参考訳(メタデータ) (2025-02-26T10:30:40Z) - NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning Disentangled Reasoning [97.88246428240872]
Embodied AIの重要な研究課題であるVision-and-Language Navigation (VLN)は、自然言語の指示に従って複雑な3D環境をナビゲートするために、エンボディエージェントを必要とする。
近年の研究では、ナビゲーションの推論精度と解釈可能性を改善することにより、VLNにおける大きな言語モデル(LLM)の有望な能力を強調している。
本稿では,自己誘導型ナビゲーション決定を実現するために,パラメータ効率の高いドメイン内トレーニングを実現する,Navigational Chain-of-Thought (NavCoT) という新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-03-12T07:27:02Z) - Learning Navigational Visual Representations with Semantic Map
Supervision [85.91625020847358]
エージェントの自我中心のビューとセマンティックマップを対比してナビゲーション固有の視覚表現学習法を提案する。
Ego$2$-Map学習は、オブジェクト、構造、遷移などのコンパクトでリッチな情報を、ナビゲーションのためのエージェントのエゴセントリックな表現に転送する。
論文 参考訳(メタデータ) (2023-07-23T14:01:05Z) - CorNav: Autonomous Agent with Self-Corrected Planning for Zero-Shot Vision-and-Language Navigation [73.78984332354636]
CorNavは視覚・言語ナビゲーションのための新しいゼロショットフレームワークである。
将来の計画の見直しや行動調整のための環境フィードバックが組み込まれている。
ゼロショットマルチタスク設定ですべてのベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-06-17T11:44:04Z) - Learning Synthetic to Real Transfer for Localization and Navigational
Tasks [7.019683407682642]
ナビゲーションは、コンピュータビジョン、ロボット工学、制御の概念を組み合わせて、複数の分野のクロスロードにある。
この研究は、実世界への移動をできる限り少ない努力で行うことができるナビゲーションパイプラインをシミュレーションで作成することを目的としていた。
ナビゲーションパイプラインを設計するには、環境、ローカライゼーション、ナビゲーション、計画の4つの大きな課題が発生する。
論文 参考訳(メタデータ) (2020-11-20T08:37:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。