論文の概要: AppleVLM: End-to-end Autonomous Driving with Advanced Perception and Planning-Enhanced Vision-Language Models
- arxiv url: http://arxiv.org/abs/2602.04256v1
- Date: Wed, 04 Feb 2026 06:37:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.404992
- Title: AppleVLM: End-to-end Autonomous Driving with Advanced Perception and Planning-Enhanced Vision-Language Models
- Title(参考訳): AppleVLM: 高度な知覚と計画強化ビジョンランゲージモデルを備えたエンドツーエンド自動運転
- Authors: Yuxuan Han, Kunyuan Wu, Qianyi Shao, Renxiang Xiao, Zilu Wang, Cansen Jiang, Yi Xiao, Liang Hu, Yunjiang Lou,
- Abstract要約: 我々は、堅牢なエンドツーエンド運転のための先進的な認識と計画強化VLMモデルであるAppleVLMを提案する。
AppleVLMは、新しいビジョンエンコーダと計画戦略エンコーダを導入し、認識と意思決定を改善する。
我々は,CARLAベンチマークのクローズドループ実験において,AppleVLMを評価し,最先端の駆動性能を実現する。
- 参考スコア(独自算出の注目度): 11.748457186467727
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end autonomous driving has emerged as a promising paradigm integrating perception, decision-making, and control within a unified learning framework. Recently, Vision-Language Models (VLMs) have gained significant attention for their potential to enhance the robustness and generalization of end-to-end driving models in diverse and unseen scenarios. However, existing VLM-based approaches still face challenges, including suboptimal lane perception, language understanding biases, and difficulties in handling corner cases. To address these issues, we propose AppleVLM, an advanced perception and planning-enhanced VLM model for robust end-to-end driving. AppleVLM introduces a novel vision encoder and a planning strategy encoder to improve perception and decision-making. Firstly, the vision encoder fuses spatial-temporal information from multi-view images across multiple timesteps using a deformable transformer mechanism, enhancing robustness to camera variations and facilitating scalable deployment across different vehicle platforms. Secondly, unlike traditional VLM-based approaches, AppleVLM introduces a dedicated planning modality that encodes explicit Bird's-Eye-View spatial information, mitigating language biases in navigation instructions. Finally, a VLM decoder fine-tuned by a hierarchical Chain-of-Thought integrates vision, language, and planning features to output robust driving waypoints. We evaluate AppleVLM in closed-loop experiments on two CARLA benchmarks, achieving state-of-the-art driving performance. Furthermore, we deploy AppleVLM on an AGV platform and successfully showcase real-world end-to-end autonomous driving in complex outdoor environments.
- Abstract(参考訳): エンドツーエンドの自動運転は、認識、意思決定、制御を統合学習フレームワークに統合する有望なパラダイムとして登場した。
近年、ビジョン・ランゲージ・モデル(VLM)は、多様かつ見当たらないシナリオにおいて、エンド・ツー・エンドの駆動モデルの堅牢性と一般化を強化する可能性において大きな注目を集めている。
しかしながら、既存のVLMベースのアプローチは、最適な車線認識、言語理解バイアス、コーナーケースの扱いの難しさなど、依然として課題に直面している。
これらの問題に対処するため、我々は、堅牢なエンドツーエンド運転のための先進的な認識と計画強化VLMモデルであるAppleVLMを提案する。
AppleVLMは、新しいビジョンエンコーダと計画戦略エンコーダを導入し、認識と意思決定を改善する。
第一に、視覚エンコーダは、変形可能なトランスフォーマー機構を使用して、複数のタイムステップにわたるマルチビュー画像からの時空間情報を融合し、カメラの変動に対する堅牢性を高め、異なる車両プラットフォームにまたがるスケーラブルな展開を容易にする。
第二に、AppleVLMは従来のVLMベースのアプローチとは異なり、ナビゲーション命令における言語バイアスを軽減するために、明示的なBird-Eye-View空間情報をエンコードする専用の計画モダリティを導入している。
最後に、階層的なChain-of-Thoughtによって微調整されたVLMデコーダは、視覚、言語、計画機能を統合し、堅牢な駆動経路を出力する。
我々は,CARLAベンチマークのクローズドループ実験において,AppleVLMを評価し,最先端の駆動性能を実現する。
さらに、AppleVLMをAGVプラットフォームにデプロイし、複雑な屋外環境で現実世界のエンドツーエンドの自動運転を実演することに成功した。
関連論文リスト
- SGDrive: Scene-to-Goal Hierarchical World Cognition for Autonomous Driving [52.02379432801349]
本稿では,運転特化知識階層に関するVLMの表現学習を構築する新しいフレームワークであるSGDriveを提案する。
トレーニング済みのVLMバックボーン上に構築されたSGDriveは、人間の運転認知を反映するシーンエージェントゴール階層に、駆動理解を分解する。
論文 参考訳(メタデータ) (2026-01-09T08:55:42Z) - LMAD: Integrated End-to-End Vision-Language Model for Explainable Autonomous Driving [58.535516533697425]
視覚言語モデル(VLM)はシーン理解において有望な能力を示している。
本稿では,自律運転に適した視覚言語フレームワークLMADを提案する。
本フレームワークは,VLMに包括的シーン理解とタスク特化構造を組み込むことにより,最新のエンド・ツー・エンド駆動パラダイムをエミュレートする。
論文 参考訳(メタデータ) (2025-08-17T15:42:54Z) - ImagiDrive: A Unified Imagination-and-Planning Framework for Autonomous Driving [64.12414815634847]
ビジョン・ランゲージ・モデル(VLM)とドライビング・ワールド・モデル(DWM)は、この課題のさまざまな側面に対処する強力なレシピとして独立して登場した。
我々は、VLMベースの運転エージェントとDWMベースのシーン想像装置を統合した、新しいエンドツーエンドの自動運転フレームワークであるImagiDriveを提案する。
論文 参考訳(メタデータ) (2025-08-15T12:06:55Z) - VLMPlanner: Integrating Visual Language Models with Motion Planning [18.633637485218802]
VLMPlannerは、学習ベースのリアルタイムプランナと生画像の推論が可能な視覚言語モデル(VLM)を組み合わせたハイブリッドフレームワークである。
我々は,VLMが人間の運転動作を模倣できるコンテキスト適応推論ゲート機構を開発した。
論文 参考訳(メタデータ) (2025-07-27T16:15:21Z) - VLAD: A VLM-Augmented Autonomous Driving Framework with Hierarchical Planning and Interpretable Decision Process [40.3578745624081]
本稿では,VLM(Visual Language Models)を最先端のエンドツーエンドシステムと統合した視覚言語自律運転モデルを提案する。
モデルの空間的推論能力を改善するために特別に設計された質問応答データセットを用いて、特殊な微調整手法を実装した。
本システムは,従来のブラックボックス・エンド・ツー・エンドアーキテクチャの透明性と信頼性を高めるために,運転決定の解釈可能な自然言語説明を生成する。
論文 参考訳(メタデータ) (2025-07-02T01:52:40Z) - SOLVE: Synergy of Language-Vision and End-to-End Networks for Autonomous Driving [51.47621083057114]
SOLVEは、ビジョンランゲージモデルとエンド・ツー・エンド(E2E)モデルを相乗化して自動運転車の計画を強化する革新的なフレームワークである。
提案手法は,VLMとE2Eコンポーネント間の包括的インタラクションを実現するために,共有ビジュアルエンコーダによる機能レベルでの知識共有を重視している。
論文 参考訳(メタデータ) (2025-05-22T15:44:30Z) - Generative Planning with 3D-vision Language Pre-training for End-to-End Autonomous Driving [20.33096710167997]
GPVLという名前の3次元言語事前学習モデルによる生成計画がエンドツーエンドの自動運転のために提案されている。
クロスモーダル言語モデルを導入し、総合的な駆動決定と微粒な軌跡を生成する。
GPVLの効果的で堅牢で効率的な性能は、将来の自動運転システムの実用化に不可欠であると考えられている。
論文 参考訳(メタデータ) (2025-01-15T15:20:46Z) - VLM-AD: End-to-End Autonomous Driving through Vision-Language Model Supervision [17.36342349850825]
教師としての視覚言語モデル(VLM)は、追加の監督を提供することで訓練を強化する。
VLM-ADは、nuScenesデータセットの計画精度と衝突率の大幅な改善を実現している。
論文 参考訳(メタデータ) (2024-12-19T01:53:36Z) - Drive Anywhere: Generalizable End-to-end Autonomous Driving with
Multi-modal Foundation Models [114.69732301904419]
本稿では、画像とテキストで検索可能な表現から、運転決定を提供することができる、エンドツーエンドのオープンセット(環境/シーン)自律運転を適用するアプローチを提案する。
当社のアプローチでは, 多様なテストにおいて非並列的な結果を示すと同時に, アウト・オブ・ディストリビューションの状況において, はるかに高いロバスト性を実現している。
論文 参考訳(メタデータ) (2023-10-26T17:56:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。