論文の概要: Fast-SmartWay: Panoramic-Free End-to-End Zero-Shot Vision-and-Language Navigation
- arxiv url: http://arxiv.org/abs/2511.00933v1
- Date: Sun, 02 Nov 2025 13:21:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.000263
- Title: Fast-SmartWay: Panoramic-Free End-to-End Zero-Shot Vision-and-Language Navigation
- Title(参考訳): Fast-SmartWay:パノラマフリーのZero-Shot Vision-and-Language Navigation
- Authors: Xiangyu Shi, Zerui Li, Yanyuan Qiao, Qi Wu,
- Abstract要約: Fast-SmartWayは、パノラマビューやウェイポイント予測不要なエンドツーエンドのゼロショットVLN-CEフレームワークである。
提案手法では,3つの正面RGB-D画像と自然言語命令を組み合わせるだけで,MLLMが直接行動を予測することができる。
- 参考スコア(独自算出の注目度): 16.632191523127865
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in Vision-and-Language Navigation in Continuous Environments (VLN-CE) have leveraged multimodal large language models (MLLMs) to achieve zero-shot navigation. However, existing methods often rely on panoramic observations and two-stage pipelines involving waypoint predictors, which introduce significant latency and limit real-world applicability. In this work, we propose Fast-SmartWay, an end-to-end zero-shot VLN-CE framework that eliminates the need for panoramic views and waypoint predictors. Our approach uses only three frontal RGB-D images combined with natural language instructions, enabling MLLMs to directly predict actions. To enhance decision robustness, we introduce an Uncertainty-Aware Reasoning module that integrates (i) a Disambiguation Module for avoiding local optima, and (ii) a Future-Past Bidirectional Reasoning mechanism for globally coherent planning. Experiments on both simulated and real-robot environments demonstrate that our method significantly reduces per-step latency while achieving competitive or superior performance compared to panoramic-view baselines. These results demonstrate the practicality and effectiveness of Fast-SmartWay for real-world zero-shot embodied navigation.
- Abstract(参考訳): VLN-CE(Vision-and-Language Navigation in Continuous Environments)の最近の進歩は、マルチモーダル大規模言語モデル(MLLM)を活用してゼロショットナビゲーションを実現している。
しかし、既存の手法は、しばしばパノラマ観測と、ウェイポイント予測器を含む2段階のパイプラインに依存している。
本研究では,パノラマビューやウェイポイント予測器を必要としない,エンドツーエンドのゼロショットVLN-CEフレームワークであるFast-SmartWayを提案する。
提案手法では,3つの正面RGB-D画像と自然言語命令を組み合わせるだけで,MLLMが直接行動を予測することができる。
意思決定の堅牢性を高めるために,統合された不確実性認識推論モジュールを導入する。
一 局所最適を避けるための曖昧なモジュール、及び
(II)グローバル・コヒーレント・プランニングのための未来型双方向推論機構
シミュレーションおよび実ロボット環境における実験により,本手法はパノラマビューベースラインと比較して,競合性や優れた性能を実現しつつ,ステップ毎の遅延を著しく低減することが示された。
これらの結果は、実世界のゼロショット型ナビゲーションにおけるFast-SmartWayの実用性と有効性を示している。
関連論文リスト
- VLN-Zero: Rapid Exploration and Cache-Enabled Neurosymbolic Vision-Language Planning for Zero-Shot Transfer in Robot Navigation [52.00474922315126]
未確認環境のための視覚言語ナビゲーションフレームワークであるVLN-Zeroを提案する。
我々は視覚言語モデルを用いて、記号的なシーングラフを効率的に構築し、ゼロショットのニューロシンボリックナビゲーションを可能にする。
VLN-Zeroは、最先端のゼロショットモデルと比べて2倍の成功率を獲得し、最も微調整されたベースラインを上回り、半分の時間でゴール地点に達する。
論文 参考訳(メタデータ) (2025-09-23T03:23:03Z) - VLN-R1: Vision-Language Navigation via Reinforcement Fine-Tuning [77.34267241692706]
Vision-Language Navigation(VLN)は、エージェントが自然言語命令を使用して現実世界の環境をナビゲートする必要がある、AIの実施における中核的な課題である。
本稿では、LVLM(Large Vision-Language Models)を利用して、エゴセントリックな動画ストリームを連続的なナビゲーションアクションに変換するエンドツーエンドフレームワークであるVLN-R1を提案する。
論文 参考訳(メタデータ) (2025-06-20T17:59:59Z) - A Navigation Framework Utilizing Vision-Language Models [0.0]
VLN(Vision-and-Language Navigation)は、AIを具現化した複雑な課題である。
CLIPやFlamingoのような大規模視覚言語モデル(LVLM)の最近の進歩は、マルチモーダル理解を大幅に改善した。
動作計画から視覚言語理解を分離するモジュラー・プラグ・アンド・プレイナビゲーション・フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-11T20:51:58Z) - SmartWay: Enhanced Waypoint Prediction and Backtracking for Zero-Shot Vision-and-Language Navigation [12.152477445938759]
連続環境におけるVLN(Vision-and-Language Navigation)は、制約のない3D空間をナビゲートしながら自然言語命令を解釈するエージェントを必要とする。
既存のVLN-CEフレームワークは、2段階のアプローチに依存している。
マルチモーダル大言語モデル(MLLM)に基づくナビゲータと拡張されたウェイポイント予測器を統合したゼロショットVLN-CEフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-13T05:32:57Z) - Mem2Ego: Empowering Vision-Language Models with Global-to-Ego Memory for Long-Horizon Embodied Navigation [35.71602601385161]
本稿では,視覚言語モデル(VLM)に基づくナビゲーションフレームワークを提案する。
提案手法は,長期タスクにおける空間的推論と意思決定を促進する。
実験の結果,提案手法は従来のオブジェクトナビゲーションタスクの手法を超越していることがわかった。
論文 参考訳(メタデータ) (2025-02-20T04:41:40Z) - UnitedVLN: Generalizable Gaussian Splatting for Continuous Vision-Language Navigation [71.97405667493477]
我々は,UnitedVLNと呼ばれる,新しい汎用3DGSベースの事前学習パラダイムを導入する。
エージェントは、高忠実度360度ビジュアルイメージとセマンティック特徴を統一してレンダリングすることで、将来の環境をよりよく探索することができる。
UnitedVLNは既存のVLN-CEベンチマークで最先端の手法より優れている。
論文 参考訳(メタデータ) (2024-11-25T02:44:59Z) - NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning Disentangled Reasoning [97.88246428240872]
Embodied AIの重要な研究課題であるVision-and-Language Navigation (VLN)は、自然言語の指示に従って複雑な3D環境をナビゲートするために、エンボディエージェントを必要とする。
近年の研究では、ナビゲーションの推論精度と解釈可能性を改善することにより、VLNにおける大きな言語モデル(LLM)の有望な能力を強調している。
本稿では,自己誘導型ナビゲーション決定を実現するために,パラメータ効率の高いドメイン内トレーニングを実現する,Navigational Chain-of-Thought (NavCoT) という新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-03-12T07:27:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。