Fugu-MT 論文翻訳(概要): NaviDriveVLM: Decoupling High-Level Reasoning and Motion Planning for Autonomous Driving

論文の概要: NaviDriveVLM: Decoupling High-Level Reasoning and Motion Planning for Autonomous Driving

arxiv url: http://arxiv.org/abs/2603.07901v1
Date: Mon, 09 Mar 2026 02:47:44 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-10 15:13:15.352724
Title: NaviDriveVLM: Decoupling High-Level Reasoning and Motion Planning for Autonomous Driving
Title（参考訳）: NaviDriveVLM:自律運転のための高レベル推論と運動計画の分離
Authors: Ximeng Tao, Pardis Taghavi, Dimitar Filev, Reza Langari, Gaurav Pandey,
Abstract要約: 本研究では,大規模ナビゲータと軽量トレーニングドライバを用いた行動生成から推論を分離するフレームワークであるNaviDriveVLMを提案する。 nuScenesベンチマークの実験では、NaviDriveVLMはエンド・ツー・エンドの動作計画において大きなVLMベースラインを上回っている。
参考スコア（独自算出の注目度）: 4.400011068855375
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision-language models (VLMs) have emerged as a promising direction for end-to-end autonomous driving (AD) by jointly modeling visual observations, driving context, and language-based reasoning. However, existing VLM-based systems face a trade-off between high-level reasoning and motion planning: large models offer strong semantic understanding but are costly to adapt for precise control, whereas small VLM models can be fine-tuned efficiently but often exhibit weaker reasoning. We propose NaviDriveVLM, a decoupled framework that separates reasoning from action generation using a large-scale Navigator and a lightweight trainable Driver. This design preserves reasoning ability, reduces training cost, and provides an explicit interpretable intermediate representation for downstream planning. Experiments on the nuScenes benchmark show that NaviDriveVLM outperforms large VLM baselines in end-to-end motion planning.
Abstract（参考訳）: 視覚言語モデル(VLM)は、視覚的な観察、運転状況、言語に基づく推論を共同でモデル化することで、エンドツーエンドの自動運転(AD)のための有望な方向として登場した。しかし、既存のVLMベースのシステムは、高いレベルの推論とモーションプランニングのトレードオフに直面している: 大きなモデルは強力な意味論的理解を提供するが、正確な制御に適応するためにはコストがかかるが、小さなVLMモデルは効率的に微調整できるが、より弱い推論を示すことが多い。本研究では,大規模ナビゲータと軽量トレーニングドライバを用いた動作生成から推論を分離する分離されたフレームワークであるNaviDriveVLMを提案する。この設計は推論能力を保持し、トレーニングコストを削減し、下流計画のための明確な解釈可能な中間表現を提供する。 nuScenesベンチマークの実験では、NaviDriveVLMはエンド・ツー・エンドの動作計画において大きなVLMベースラインを上回っている。

関連論文リスト

SGDrive: Scene-to-Goal Hierarchical World Cognition for Autonomous Driving [52.02379432801349]
本稿では,運転特化知識階層に関するVLMの表現学習を構築する新しいフレームワークであるSGDriveを提案する。トレーニング済みのVLMバックボーン上に構築されたSGDriveは、人間の運転認知を反映するシーンエージェントゴール階層に、駆動理解を分解する。
論文参考訳（メタデータ） (2026-01-09T08:55:42Z)
dVLM-AD: Enhance Diffusion Vision-Language-Model for Driving via Controllable Reasoning [69.36145467833498]
本稿では,拡散に基づく視覚言語モデルであるdVLM-ADを導入する。 nuScenes と WOD-E2E で評価すると、dVLM-AD はより一貫性のある推論・アクションのペアとなり、既存の駆動VLM/VLAシステムに匹敵する計画性能を達成する。
論文参考訳（メタデータ） (2025-12-04T05:05:41Z)
LMAD: Integrated End-to-End Vision-Language Model for Explainable Autonomous Driving [58.535516533697425]
視覚言語モデル(VLM)はシーン理解において有望な能力を示している。本稿では,自律運転に適した視覚言語フレームワークLMADを提案する。本フレームワークは,VLMに包括的シーン理解とタスク特化構造を組み込むことにより,最新のエンド・ツー・エンド駆動パラダイムをエミュレートする。
論文参考訳（メタデータ） (2025-08-17T15:42:54Z)
ImagiDrive: A Unified Imagination-and-Planning Framework for Autonomous Driving [64.12414815634847]
ビジョン・ランゲージ・モデル(VLM)とドライビング・ワールド・モデル(DWM)は、この課題のさまざまな側面に対処する強力なレシピとして独立して登場した。我々は、VLMベースの運転エージェントとDWMベースのシーン想像装置を統合した、新しいエンドツーエンドの自動運転フレームワークであるImagiDriveを提案する。
論文参考訳（メタデータ） (2025-08-15T12:06:55Z)
AutoVLA: A Vision-Language-Action Model for End-to-End Autonomous Driving with Adaptive Reasoning and Reinforcement Fine-Tuning [37.176428069948535]
Vision-Language-Action(VLA)モデルは、エンドツーエンドの自動運転を約束している。現在のVLAモデルは、物理的に実現不可能なアクション出力、複雑なモデル構造、あるいは不要に長い推論に苦しむ。本稿では,単一自己回帰生成モデル内での推論と行動生成を統一する新しいVLAモデルであるAutoVLAを提案する。
論文参考訳（メタデータ） (2025-06-16T17:58:50Z)
VLM-AD: End-to-End Autonomous Driving through Vision-Language Model Supervision [17.36342349850825]
教師としての視覚言語モデル(VLM)は、追加の監督を提供することで訓練を強化する。 VLM-ADは、nuScenesデータセットの計画精度と衝突率の大幅な改善を実現している。
論文参考訳（メタデータ） (2024-12-19T01:53:36Z)
DiFSD: Ego-Centric Fully Sparse Paradigm with Uncertainty Denoising and Iterative Refinement for Efficient End-to-End Self-Driving [55.53171248839489]
我々は、エンドツーエンドの自動運転のためのエゴ中心の完全スパースパラダイムであるDiFSDを提案する。特に、DiFSDは主にスパース知覚、階層的相互作用、反復的な運動プランナーから構成される。 nuScenesとBench2Driveデータセットで実施された実験は、DiFSDの優れた計画性能と優れた効率を実証している。
論文参考訳（メタデータ） (2024-09-15T15:55:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。