論文の概要: Nav-EE: Navigation-Guided Early Exiting for Efficient Vision-Language Models in Autonomous Driving
- arxiv url: http://arxiv.org/abs/2510.01795v2
- Date: Fri, 10 Oct 2025 08:31:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:46.493076
- Title: Nav-EE: Navigation-Guided Early Exiting for Efficient Vision-Language Models in Autonomous Driving
- Title(参考訳): Nav-EE: 自律運転における高能率ビジョンランゲージモデルのためのナビゲーションガイドによる早期運転
- Authors: Haibo Hu, Lianming Huang, Xinyu Wang, Yufei Cui, Shangyu Wu, Nan Guan, Chun Jason Xue,
- Abstract要約: Nav-EEは、タスク固有のエグジット層をオフラインでプリコンプリートし、それらをオンラインに動的に適用する、ナビゲーション誘導早期退避フレームワークである。
実験によると、Nav-EEは完全な推論に匹敵する精度を達成し、レイテンシを最大63.9%削減している。
- 参考スコア(独自算出の注目度): 24.706739338133236
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) are increasingly applied in autonomous driving for unified perception and reasoning, but high inference latency hinders real-time deployment. Early-exit reduces latency by terminating inference at intermediate layers, yet its task-dependent nature limits generalization across diverse scenarios. We observe that this limitation aligns with autonomous driving: navigation systems can anticipate upcoming contexts (e.g., intersections, traffic lights), indicating which tasks will be required. We propose Nav-EE, a navigation-guided early-exit framework that precomputes task-specific exit layers offline and dynamically applies them online based on navigation priors. Experiments on CODA, Waymo, and BOSCH show that Nav-EE achieves accuracy comparable to full inference while reducing latency by up to 63.9%. Real-vehicle integration with Autoware Universe further demonstrates reduced inference latency (600ms to 300ms), supporting faster decision-making in complex scenarios. These results suggest that coupling navigation foresight with early-exit offers a viable path toward efficient deployment of large models in autonomous systems. Code and data are available at our anonymous repository: https://anonymous.4open.science/r/Nav-EE-BBC4
- Abstract(参考訳): VLM(Vision-Language Models)は、統合された認識と推論のために、自律運転にますます適用されているが、高い推論遅延は、リアルタイムデプロイメントを妨げる。
Early-exitは中間層での推論を終了することでレイテンシを低減するが、タスク依存の性質は様々なシナリオにおける一般化を制限する。
ナビゲーションシステムは、次のコンテキスト(例えば、交差点、信号機など)を予測でき、どのタスクが必要なのかを示す。
Nav-EEは,タスク固有のエグジット層をオフラインでプリ計算し,ナビゲーション先に基づいて動的にオンラインに適用する,ナビゲーション誘導早期実行フレームワークである。
CODA、Waymo、BOSCHの実験では、Nav-EEは完全な推論に匹敵する精度を達成し、レイテンシを最大63.9%削減している。
Autoware Universeとのリアルタイム統合により、推論レイテンシの低減(600msから300ms)がさらに証明され、複雑なシナリオにおける意思決定の高速化をサポートする。
これらの結果から, 早期退避を予見するナビゲーションは, 自律システムにおける大規模モデルの効率的な展開に向けた有効な経路となることが示唆された。
コードとデータは匿名リポジトリで利用可能です。
関連論文リスト
- OpenFrontier: General Navigation with Visual-Language Grounded Frontiers [54.661157616245966]
オープンワールドナビゲーションでは、複雑な日常環境においてロボットが意思決定を行う必要がある。
近年の視覚-言語ナビゲーション(VLN)と視覚-言語-アクション(VLA)モデルは、自然言語で条件付けられたエンドツーエンドのポリシーを実現する。
多様な視覚をシームレスに統合するトレーニングフリーナビゲーションフレームワークであるOpenFrontierを提案する。
論文 参考訳(メタデータ) (2026-03-05T17:02:22Z) - ReasonNavi: Human-Inspired Global Map Reasoning for Zero-Shot Embodied Navigation [53.95797153529148]
身体的エージェントは、主に部分的な自我中心の観測に依存するため、効率的なナビゲーションに苦しむことが多い。
本稿では,マルチモーダル大規模言語モデル(MLLM)と決定論的プランナを結合することにより,この理由に基づくパラダイムを運用する,人間にインスパイアされたフレームワークであるReasonNaviを紹介する。
論文 参考訳(メタデータ) (2026-01-26T19:09:20Z) - VLingNav: Embodied Navigation with Adaptive Reasoning and Visual-Assisted Linguistic Memory [43.2995099083993]
VLAモデルは、認識と計画を統合することで、航法を具現化する有望な可能性を示してきた。
既存のVLAモデルは、観察から行動へのリアクティブマッピングに直接依存している。
VLingNav(VLAモデル)を提案する。
論文 参考訳(メタデータ) (2026-01-13T15:43:43Z) - NaviHydra: Controllable Navigation-guided End-to-end Autonomous Driving with Hydra-distillation [6.722962084265695]
NaviHydraは、既存のルールベースのシミュレータから抽出した、制御可能なナビゲーションガイド付きエンドツーエンドモデルである。
本フレームワークは,高レベルナビゲーションコマンドを制御信号として受け入れ,特定の意図に整合した軌道を生成する。
論文 参考訳(メタデータ) (2025-12-11T14:05:18Z) - DAgger Diffusion Navigation: DAgger Boosted Diffusion Policy for Vision-Language Navigation [73.80968452950854]
Vision-Language Navigation in Continuous Environments (VLN-CE) は、エージェントが自由形式の3D空間を通して自然言語の指示に従う必要がある。
既存のVLN-CEアプローチは通常、2段階のウェイポイント計画フレームワークを使用する。
本稿では,エンドツーエンド最適化VLN-CEポリシとしてDAgger Diffusion Navigation (DifNav)を提案する。
論文 参考訳(メタデータ) (2025-08-13T02:51:43Z) - NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning Disentangled Reasoning [97.88246428240872]
Embodied AIの重要な研究課題であるVision-and-Language Navigation (VLN)は、自然言語の指示に従って複雑な3D環境をナビゲートするために、エンボディエージェントを必要とする。
近年の研究では、ナビゲーションの推論精度と解釈可能性を改善することにより、VLNにおける大きな言語モデル(LLM)の有望な能力を強調している。
本稿では,自己誘導型ナビゲーション決定を実現するために,パラメータ効率の高いドメイン内トレーニングを実現する,Navigational Chain-of-Thought (NavCoT) という新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-03-12T07:27:02Z) - On the Road with GPT-4V(ision): Early Explorations of Visual-Language
Model on Autonomous Driving [37.617793990547625]
本報告では,最新のVLMであるGPT-4Vの徹底的な評価を行う。
我々は、シーンを駆動し、決定を下し、最終的にはドライバーの能力で行動する、モデルを理解する能力について探求する。
GPT-4Vは,既存の自律システムと比較して,シーン理解や因果推論において優れた性能を示した。
論文 参考訳(メタデータ) (2023-11-09T12:58:37Z) - ETPNav: Evolving Topological Planning for Vision-Language Navigation in
Continuous Environments [56.194988818341976]
視覚言語ナビゲーションは、エージェントが環境中をナビゲートするための指示に従う必要があるタスクである。
本研究では,1)環境を抽象化し,長距離航法計画を生成する能力,2)連続環境における障害物回避制御能力の2つの重要なスキルに焦点を当てたETPNavを提案する。
ETPNavは、R2R-CEとRxR-CEデータセットの先行技術よりも10%以上、20%改善されている。
論文 参考訳(メタデータ) (2023-04-06T13:07:17Z) - Efficient and Robust LiDAR-Based End-to-End Navigation [132.52661670308606]
我々は,LiDARをベースとした効率的なエンドツーエンドナビゲーションフレームワークを提案する。
本稿では,スパース畳み込みカーネル最適化とハードウェア対応モデル設計に基づくFast-LiDARNetを提案する。
次に,単一の前方通過のみから予測の不確かさを直接推定するハイブリッド・エビデンシャル・フュージョンを提案する。
論文 参考訳(メタデータ) (2021-05-20T17:52:37Z) - Autonomous Navigation through intersections with Graph
ConvolutionalNetworks and Conditional Imitation Learning for Self-driving
Cars [10.080958939027363]
自動運転では、信号のない交差点を通るナビゲーションは難しい作業だ。
ナビゲーションポリシー学習のための新しい分岐ネットワークG-CILを提案する。
エンドツーエンドのトレーニング可能なニューラルネットワークは、より高い成功率と短いナビゲーション時間でベースラインを上回っています。
論文 参考訳(メタデータ) (2021-02-01T07:33:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。