論文の概要: VLN-Zero: Rapid Exploration and Cache-Enabled Neurosymbolic Vision-Language Planning for Zero-Shot Transfer in Robot Navigation
- arxiv url: http://arxiv.org/abs/2509.18592v1
- Date: Tue, 23 Sep 2025 03:23:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.681114
- Title: VLN-Zero: Rapid Exploration and Cache-Enabled Neurosymbolic Vision-Language Planning for Zero-Shot Transfer in Robot Navigation
- Title(参考訳): VLN-Zero:ロボットナビゲーションにおけるゼロショット転送のための高速探索とキャッシュ可能なニューロシンボリックビジョンランゲージ計画
- Authors: Neel P. Bhatt, Yunhao Yang, Rohan Siva, Pranay Samineni, Daniel Milan, Zhangyang Wang, Ufuk Topcu,
- Abstract要約: 未確認環境のための視覚言語ナビゲーションフレームワークであるVLN-Zeroを提案する。
我々は視覚言語モデルを用いて、記号的なシーングラフを効率的に構築し、ゼロショットのニューロシンボリックナビゲーションを可能にする。
VLN-Zeroは、最先端のゼロショットモデルと比べて2倍の成功率を獲得し、最も微調整されたベースラインを上回り、半分の時間でゴール地点に達する。
- 参考スコア(独自算出の注目度): 52.00474922315126
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Rapid adaptation in unseen environments is essential for scalable real-world autonomy, yet existing approaches rely on exhaustive exploration or rigid navigation policies that fail to generalize. We present VLN-Zero, a two-phase vision-language navigation framework that leverages vision-language models to efficiently construct symbolic scene graphs and enable zero-shot neurosymbolic navigation. In the exploration phase, structured prompts guide VLM-based search toward informative and diverse trajectories, yielding compact scene graph representations. In the deployment phase, a neurosymbolic planner reasons over the scene graph and environmental observations to generate executable plans, while a cache-enabled execution module accelerates adaptation by reusing previously computed task-location trajectories. By combining rapid exploration, symbolic reasoning, and cache-enabled execution, the proposed framework overcomes the computational inefficiency and poor generalization of prior vision-language navigation methods, enabling robust and scalable decision-making in unseen environments. VLN-Zero achieves 2x higher success rate compared to state-of-the-art zero-shot models, outperforms most fine-tuned baselines, and reaches goal locations in half the time with 55% fewer VLM calls on average compared to state-of-the-art models across diverse environments. Codebase, datasets, and videos for VLN-Zero are available at: https://vln-zero.github.io/.
- Abstract(参考訳): 目立たない環境への迅速な適応は、スケーラブルな現実世界の自律性には不可欠であるが、既存のアプローチは、一般化に失敗する徹底的な探索や厳密なナビゲーションポリシーに依存している。
VLN-Zeroは、視覚言語モデルを利用して、シンボルシーングラフを効率的に構築し、ゼロショットニューロシンボリックナビゲーションを可能にする2相視覚言語ナビゲーションフレームワークである。
探索段階において、構造化はVLMに基づく情報的かつ多様な軌跡への探索を誘導し、コンパクトなシーングラフ表現を生成する。
展開フェーズでは、シーングラフと環境観測に基づいてニューロシンボリックプランナーが実行可能プランを生成する一方、キャッシュ可能な実行モジュールは、以前計算されたタスク位置軌跡を再利用することで適応を加速する。
提案フレームワークは,迅速な探索,シンボル推論,キャッシュ対応実行を組み合わせることで,従来の視覚言語ナビゲーション手法の計算効率の低下と一般化の低さを克服し,目に見えない環境における堅牢でスケーラブルな意思決定を可能にする。
VLN-Zeroは、最先端のゼロショットモデルと比較して2倍の成功率に達し、最も微調整されたベースラインを上回り、様々な環境における最先端モデルと比較して平均55%少ないVLMコールでゴール地点に達する。
VLN-Zeroのコードベース、データセット、ビデオは、https://vln-zero.github.io/で公開されている。
関連論文リスト
- GC-VLN: Instruction as Graph Constraints for Training-free Vision-and-Language Navigation [61.34589819350429]
視覚・言語ナビゲーション(VLN)のための学習自由フレームワークを提案する。
本フレームワークは,指示を明示的な空間的制約に分解することで,グラフ制約最適化としてナビゲーションガイダンスを定式化する。
我々のフレームワークは、新しい環境や命令セットに効果的に一般化することができ、より堅牢で自律的なナビゲーションフレームワークへの道を開くことができる。
論文 参考訳(メタデータ) (2025-09-12T17:59:58Z) - VLN-R1: Vision-Language Navigation via Reinforcement Fine-Tuning [77.34267241692706]
Vision-Language Navigation(VLN)は、エージェントが自然言語命令を使用して現実世界の環境をナビゲートする必要がある、AIの実施における中核的な課題である。
本稿では、LVLM(Large Vision-Language Models)を利用して、エゴセントリックな動画ストリームを連続的なナビゲーションアクションに変換するエンドツーエンドフレームワークであるVLN-R1を提案する。
論文 参考訳(メタデータ) (2025-06-20T17:59:59Z) - UnitedVLN: Generalizable Gaussian Splatting for Continuous Vision-Language Navigation [71.97405667493477]
我々は,UnitedVLNと呼ばれる,新しい汎用3DGSベースの事前学習パラダイムを導入する。
エージェントは、高忠実度360度ビジュアルイメージとセマンティック特徴を統一してレンダリングすることで、将来の環境をよりよく探索することができる。
UnitedVLNは既存のVLN-CEベンチマークで最先端の手法より優れている。
論文 参考訳(メタデータ) (2024-11-25T02:44:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。