論文の概要: NavigScene: Bridging Local Perception and Global Navigation for Beyond-Visual-Range Autonomous Driving
- arxiv url: http://arxiv.org/abs/2507.05227v1
- Date: Mon, 07 Jul 2025 17:37:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.542073
- Title: NavigScene: Bridging Local Perception and Global Navigation for Beyond-Visual-Range Autonomous Driving
- Title(参考訳): NavigScene: 視覚を超越した自律運転のための局所認識とグローバルナビゲーション
- Authors: Qucheng Peng, Chen Bai, Guoxiang Zhang, Bo Xu, Xiaotong Liu, Xiaoyin Zheng, Chen Chen, Cheng Lu,
- Abstract要約: NavigSceneは、自律運転システム内の人間のような運転環境をシミュレートする補助的なナビゲーション誘導自然言語データセットである。
NavigSceneを活用するための3つのパラダイムを開発する。(1)ナビゲーションコンテキストをプロンプトアプローチに組み込むことで視覚言語モデルを強化するナビゲーション誘導推論、(2)視覚言語モデル応答を改善するための直接参照最適化を拡張する強化学習手法であるナビゲーション誘導推論、(3)ナビゲーション誘導視覚言語モデルと特徴融合による従来の運転モデルを統合するナビゲーション誘導言語推論モデルである。
- 参考スコア(独自算出の注目度): 10.597463021650382
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Autonomous driving systems have made significant advances in Q&A, perception, prediction, and planning based on local visual information, yet they struggle to incorporate broader navigational context that human drivers routinely utilize. We address this critical gap between local sensor data and global navigation information by proposing NavigScene, an auxiliary navigation-guided natural language dataset that simulates a human-like driving environment within autonomous driving systems. Moreover, we develop three complementary paradigms to leverage NavigScene: (1) Navigation-guided Reasoning, which enhances vision-language models by incorporating navigation context into the prompting approach; (2) Navigation-guided Preference Optimization, a reinforcement learning method that extends Direct Preference Optimization to improve vision-language model responses by establishing preferences for navigation-relevant summarized information; and (3) Navigation-guided Vision-Language-Action model, which integrates navigation guidance and vision-language models with conventional driving models through feature fusion. Extensive experiments demonstrate that our approaches significantly improve performance across perception, prediction, planning, and question-answering tasks by enabling reasoning capabilities beyond visual range and improving generalization to diverse driving scenarios. This work represents a significant step toward more comprehensive autonomous driving systems capable of navigating complex, unfamiliar environments with greater reliability and safety.
- Abstract(参考訳): 自律運転システムは、ローカルな視覚情報に基づくQ&A、知覚、予測、計画において大きな進歩を遂げてきたが、人間のドライバーが日常的に利用するより広いナビゲーションコンテキストを組み込むのに苦労している。
NavigSceneは、自律運転システム内の人間のような運転環境をシミュレートする補助的なナビゲーション誘導自然言語データセットである。
さらに,NavigSceneを活用するための3つの相補的パラダイムを開発した。(1)ナビゲーションコンテキストをプロンプトアプローチに組み込んだナビゲーション誘導推論,(2)ナビゲーション誘導参照最適化,(2)ナビゲーション関連要約情報の優先性を確立することで視覚言語モデル応答を改善するための直接参照最適化,(3)ナビゲーション誘導視覚言語モデル,そして、ナビゲーション誘導と視覚言語モデルを統合した特徴融合モデルである。
広汎な実験により、視覚範囲を超えて推論機能を実現し、多様な運転シナリオへの一般化を向上することにより、認識、予測、計画、質問応答タスクにおけるパフォーマンスを著しく向上することが示された。
この作業は、より信頼性と安全性の高い複雑な不慣れな環境をナビゲートできる、より包括的な自動運転システムに向けた重要なステップである。
関連論文リスト
- NavMorph: A Self-Evolving World Model for Vision-and-Language Navigation in Continuous Environments [67.18144414660681]
VLN-CE(Vision-and-Language Navigation in Continuous Environments)は、自然言語命令によって誘導される複雑な環境において、エージェントがシーケンシャルなナビゲーションアクションを実行する必要がある。
人間の認知にインスパイアされたNavMorphは、VLN-CEタスクにおける環境理解と意思決定を強化する自己進化型世界モデルフレームワークである。
論文 参考訳(メタデータ) (2025-06-30T02:20:00Z) - A Navigation Framework Utilizing Vision-Language Models [0.0]
VLN(Vision-and-Language Navigation)は、AIを具現化した複雑な課題である。
CLIPやFlamingoのような大規模視覚言語モデル(LVLM)の最近の進歩は、マルチモーダル理解を大幅に改善した。
動作計画から視覚言語理解を分離するモジュラー・プラグ・アンド・プレイナビゲーション・フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-11T20:51:58Z) - NavigateDiff: Visual Predictors are Zero-Shot Navigation Assistants [24.689242976554482]
慣れ親しんだ環境をナビゲートすることは、家庭用ロボットにとって大きな課題となる。
既存の強化学習手法は、直接新しい環境に移行することはできない。
我々は、事前学習された基礎モデルの論理知識と一般化能力をゼロショットナビゲーションに転送しようと試みる。
論文 参考訳(メタデータ) (2025-02-19T17:27:47Z) - AI Guide Dog: Egocentric Path Prediction on Smartphone [2.050167020109177]
AIGDは、方向コマンドを予測するために、視覚のみのマルチラベル分類アプローチを採用している。
我々はGPS信号の統合によるゴールベース屋外ナビゲーションの新しい手法を提案する。
我々は、補助ナビゲーションシステムにおけるさらなる革新を促進するために、方法、データセット、評価、デプロイメントの洞察を提供する。
論文 参考訳(メタデータ) (2025-01-14T09:21:17Z) - Navigation World Models [68.58459393846461]
本稿では,過去の観測とナビゲーション行動に基づいて,将来の視覚観測を予測できる制御可能な映像生成モデルを提案する。
慣れ親しんだ環境では、NWMはナビゲーションの軌道をシミュレートし、目的を達成するかどうかを評価することで計画することができる。
実験は、スクラッチからの軌道計画や、外部ポリシーからサンプリングされた軌道のランク付けにおいて、その効果を実証する。
論文 参考訳(メタデータ) (2024-12-04T18:59:45Z) - LangNav: Language as a Perceptual Representation for Navigation [63.90602960822604]
視覚・言語ナビゲーション(VLN)における知覚表現としての言語の利用について検討する。
提案手法では,画像キャプションや物体検出に市販の視覚システムを用いて,エージェントのエゴセントリックなパノラマビューを各ステップで自然言語記述に変換する。
論文 参考訳(メタデータ) (2023-10-11T20:52:30Z) - ETPNav: Evolving Topological Planning for Vision-Language Navigation in
Continuous Environments [56.194988818341976]
視覚言語ナビゲーションは、エージェントが環境中をナビゲートするための指示に従う必要があるタスクである。
本研究では,1)環境を抽象化し,長距離航法計画を生成する能力,2)連続環境における障害物回避制御能力の2つの重要なスキルに焦点を当てたETPNavを提案する。
ETPNavは、R2R-CEとRxR-CEデータセットの先行技術よりも10%以上、20%改善されている。
論文 参考訳(メタデータ) (2023-04-06T13:07:17Z) - Visual-Language Navigation Pretraining via Prompt-based Environmental
Self-exploration [83.96729205383501]
本稿では,言語埋め込みの高速適応を実現するために,プロンプトベースの学習を導入する。
我々のモデルは、VLNやREVERIEを含む多様な視覚言語ナビゲーションタスクに適応することができる。
論文 参考訳(メタデータ) (2022-03-08T11:01:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。