論文の概要: Senna-2: Aligning VLM and End-to-End Driving Policy for Consistent Decision Making and Planning
- arxiv url: http://arxiv.org/abs/2603.11219v1
- Date: Wed, 11 Mar 2026 18:33:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.585676
- Title: Senna-2: Aligning VLM and End-to-End Driving Policy for Consistent Decision Making and Planning
- Title(参考訳): Senna-2:一貫した意思決定・計画のためのVLMの調整とエンド・ツー・エンドの運転方針
- Authors: Yuehao Song, Shaoyu Chen, Hao Gao, Yifan Zhu, Weixiang Yue, Jialv Zou, Bo Jiang, Zihao Lu, Yu Wang, Qian Zhang, Xinggang Wang,
- Abstract要約: 視覚言語モデル(VLM)は、高レベルなセマンティック推論を活用することにより、エンド・ツー・エンド(E2E)駆動ポリシーの計画能力を高める。
既存のアプローチは、VLMのハイレベルな決定とE2Eの低レベルな計画の間の二重システム一貫性をしばしば見落としている。
本稿では,一貫した意思決定と計画のための2つのシステムを明確に整合させる,先進的なVLM-E2E駆動ポリシであるSenna-2を提案する。
- 参考スコア(独自算出の注目度): 42.68598552759328
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) enhance the planning capability of end-to-end (E2E) driving policy by leveraging high-level semantic reasoning. However, existing approaches often overlook the dual-system consistency between VLM's high-level decision and E2E's low-level planning. As a result, the generated trajectories may misalign with the intended driving decisions, leading to weakened top-down guidance and decision-following ability of the system. To address this issue, we propose Senna-2, an advanced VLM-E2E driving policy that explicitly aligns the two systems for consistent decision-making and planning. Our method follows a consistency-oriented three-stage training paradigm. In the first stage, we conduct driving pre-training to achieve preliminary decision-making and planning, with a decision adapter transmitting VLM decisions to E2E policy in the form of implicit embeddings. In the second stage, we align the VLM and the E2E policy in an open-loop setting. In the third stage, we perform closed-loop alignment via bottom-up Hierarchical Reinforcement Learning in 3DGS environments to reinforce the safety and efficiency. Extensive experiments demonstrate that Senna-2 achieves superior dual-system consistency (19.3% F1 score improvement) and significantly enhances driving safety in both open-loop (5.7% FDE reduction) and closed-loop settings (30.6% AF-CR reduction).
- Abstract(参考訳): 視覚言語モデル(VLM)は、高レベルなセマンティック推論を活用することにより、エンド・ツー・エンド(E2E)駆動ポリシーの計画能力を高める。
しかしながら、既存のアプローチは、VLMのハイレベルな決定とE2Eの低レベルな計画の間の二重システム一貫性をしばしば見落としている。
結果として、生成された軌道は意図した駆動決定と誤認され、トップダウンガイダンスが弱まり、システムの意思決定能力が低下する。
この問題に対処するために,一貫した意思決定と計画のための2つのシステムを明確に整合させる,先進的なVLM-E2E駆動ポリシーであるSenna-2を提案する。
本手法は整合性指向の3段階学習パラダイムに従う。
第1段階では、VLM決定をE2Eポリシーに暗黙の埋め込み形式で伝達する決定アダプタを用いて、事前学習を行い、事前意思決定と計画を行う。
第2段階では、VLMとE2Eポリシーをオープンループ設定で整列する。
第3段階では, ボトムアップ型階層強化学習(Hierarchical Reinforcement Learning)を用いて, 3DGS環境下で閉ループアライメントを行い, 安全性と効率を向上させる。
大規模な実験により、セナ-2はより優れた二重系整合性(19.3% F1スコアの改善)を達成し、オープンループ(5.7% FDE削減)とクローズループ設定(30.6% AF-CR削減)の運転安全性を著しく向上することが示された。
関連論文リスト
- Optimizing Path Planning using Deep Reinforcement Learning for UGVs in Precision Agriculture [0.0]
本研究では, 高精度農業における無人地上車両(UGV)の経路計画を, 連続行動空間における深部強化学習(DRL)技術を用いて最適化することに焦点を当てた。
ROSとGazeboを用いた3次元環境下での実験は、動的農業シナリオのナビゲートにおける連続DRLアルゴリズムの有効性を実証した。
論文 参考訳(メタデータ) (2026-01-08T07:28:11Z) - dVLM-AD: Enhance Diffusion Vision-Language-Model for Driving via Controllable Reasoning [69.36145467833498]
本稿では,拡散に基づく視覚言語モデルであるdVLM-ADを導入する。
nuScenes と WOD-E2E で評価すると、dVLM-AD はより一貫性のある推論・アクションのペアとなり、既存の駆動VLM/VLAシステムに匹敵する計画性能を達成する。
論文 参考訳(メタデータ) (2025-12-04T05:05:41Z) - SUPER-AD: Semantic Uncertainty-aware Planning for End-to-End Robust Autonomous Driving [36.91878828972102]
本稿では,BEV空間におけるアレータリック不確実性を直接推定し,それを計画に組み込む,カメラのみのE2Eフレームワークを提案する。
本手法は,画素レベルの解像度で意味構造と幾何学的レイアウトの両方をキャプチャする,密度の高い不確実性を考慮したドライバビリティマップを生成する。
論文 参考訳(メタデータ) (2025-11-28T03:50:44Z) - LeAD: The LLM Enhanced Planning System Converged with End-to-end Autonomous Driving [48.607991747956255]
本稿では,大規模な言語モデル(LLM)拡張と模倣学習に基づくエンドツーエンド(E2E)フレームワークを統合した,二段階自動運転アーキテクチャLeADを提案する。
CARLAシミュレータでの実験的な評価は、LeADが従来と異なるシナリオをうまく扱えることを示し、Leadboard V1ベンチマークで71点、ルート完了率は93%である。
論文 参考訳(メタデータ) (2025-07-08T07:58:29Z) - ReCogDrive: A Reinforced Cognitive Framework for End-to-End Autonomous Driving [49.07731497951963]
ReCogDriveは、エンドツーエンドの自動運転のための新しい強化認知フレームワークである。
我々は、人間のドライバーのシーケンシャルな認知過程を模倣する階層的なデータパイプラインを導入する。
次に、VLMの学習した運転先を拡散プランナーに注入することで、言語行動ミスマッチに対処する。
論文 参考訳(メタデータ) (2025-06-09T03:14:04Z) - Plan-R1: Safe and Feasible Trajectory Planning as Language Modeling [74.41886258801209]
本稿では,行動学習から原理的アライメントを分離する2段階の軌道計画フレームワークを提案する。
Plan-R1は計画の安全性と実現可能性を大幅に改善し、最先端の性能を達成する。
論文 参考訳(メタデータ) (2025-05-23T09:22:19Z) - Platform-Aware Mission Planning [50.56223680851687]
本稿では,PAMP(Platform-Aware Mission Planning)の問題を紹介する。
第1のベースラインアプローチはミッションレベルとプラットフォームレベル、第2のベースラインアプローチは抽象リファインメントループに基づいている。
提案手法の健全性と完全性を実証し,実験により検証する。
論文 参考訳(メタデータ) (2025-01-16T16:20:37Z) - LoRD: Adapting Differentiable Driving Policies to Distribution Shifts [16.275782069986253]
運用領域間の分散シフトは、自動運転車における学習モデルの性能に重大な影響を与える可能性がある。
低ランク残差復号器 (LoRD) とマルチタスクファインチューニング (Multi-task fine-tuning) である。
提案手法は, 通常の微調整に比べて最大23.33%, 閉ループOOD駆動スコア9.93%の誤差を補正する。
論文 参考訳(メタデータ) (2024-10-13T00:36:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。