論文の概要: DeepSight: Long-Horizon World Modeling via Latent States Prediction for End-to-End Autonomous Driving
- arxiv url: http://arxiv.org/abs/2605.10564v1
- Date: Mon, 11 May 2026 13:36:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.851886
- Title: DeepSight: Long-Horizon World Modeling via Latent States Prediction for End-to-End Autonomous Driving
- Title(参考訳): DeepSight: エンドツーエンド自動運転のための潜在状態予測による長距離世界モデリング
- Authors: Lingjun Zhang, Changjie Wu, Linzhe Shi, Jiangyang Li, Jiaxin Liu, Lei Yang, Hang Zhang, Mu Xu, Hong Wang,
- Abstract要約: 本稿では,連続した将来のフレームに対する潜在意味的特徴の並列予測を行う駆動世界モデルを提案する。
また,新たな社会的知識と推論機能を活用する,効率的かつ適応的なテキスト推論機構も導入する。
本稿では, 閉ループBench2driveベンチマークにおいて, 最先端(SOTA)結果を実現する新しい, 効率的かつ効果的な手法を提案する。
- 参考スコア(独自算出の注目度): 13.924469176668941
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end autonomous driving systems are increasingly integrating Vision-Language Model (VLM) architectures, incorporating text reasoning or visual reasoning to enhance the robustness and accuracy of driving decisions. However, the reasoning mechanisms employed in most methods are direct adaptations from general domains, lacking in-depth exploration tailored to autonomous driving scenarios, particularly within visual reasoning modules. In this paper, we propose a driving world model that performs parallel prediction of latent semantic features for consecutive future frames in the bird's-eye-view (BEV) space, thereby enabling long-horizon modeling of future world states. We also introduce an efficient and adaptive text reasoning mechanism that utilizes additional social knowledge and reasoning capabilities to further improve driving performance in challenging long-tail scenarios. We present a novel, efficient, and effective approach that achieves state-of-the-art (SOTA) results on the closed-loop Bench2drive benchmark. Codes are available at: https://github.com/hotdogcheesewhite/DeepSight.
- Abstract(参考訳): エンドツーエンドの自動運転システムは、運転決定の堅牢性と正確性を高めるために、テキスト推論や視覚推論を取り入れたビジョン・ランゲージ・モデル(VLM)アーキテクチャをますます統合している。
しかし、ほとんどの手法で用いられる推論メカニズムは一般的なドメインからの直接適応であり、特に視覚的推論モジュール内での自律運転シナリオに適した詳細な探索が欠如している。
本稿では,鳥眼ビュー(BEV)空間における連続した将来のフレームに対する潜在意味的特徴を並列に予測し,将来の世界状態の長期モデリングを可能にする駆動世界モデルを提案する。
また、社会的知識と推論機能を活用して、長期的シナリオに挑戦する際の運転性能をさらに向上する、効率的で適応的なテキスト推論機構も導入する。
本稿では, 閉ループBench2driveベンチマークにおいて, 最先端(SOTA)結果を実現する新しい, 効率的かつ効果的な手法を提案する。
コードは、https://github.com/hotdogcheesewhite/DeepSight.comで入手できる。
関連論文リスト
- Less is More: Lean yet Powerful Vision-Language Model for Autonomous Driving [7.921556303360947]
我々は,一段階のエンドツーエンド自動運転のための新しいフレームワークであるMax-V1を紹介する。
我々のフレームワークは、運転の本質的にの順序性と整合した単一パス生成パラダイムを提供する。
実験により,本手法はnuScenesデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2025-09-29T05:14:18Z) - ImagiDrive: A Unified Imagination-and-Planning Framework for Autonomous Driving [64.12414815634847]
ビジョン・ランゲージ・モデル(VLM)とドライビング・ワールド・モデル(DWM)は、この課題のさまざまな側面に対処する強力なレシピとして独立して登場した。
我々は、VLMベースの運転エージェントとDWMベースのシーン想像装置を統合した、新しいエンドツーエンドの自動運転フレームワークであるImagiDriveを提案する。
論文 参考訳(メタデータ) (2025-08-15T12:06:55Z) - ReCogDrive: A Reinforced Cognitive Framework for End-to-End Autonomous Driving [49.07731497951963]
ReCogDriveは、エンドツーエンドの自動運転のための新しい強化認知フレームワークである。
我々は、人間のドライバーのシーケンシャルな認知過程を模倣する階層的なデータパイプラインを導入する。
次に、VLMの学習した運転先を拡散プランナーに注入することで、言語行動ミスマッチに対処する。
論文 参考訳(メタデータ) (2025-06-09T03:14:04Z) - Generative Planning with 3D-vision Language Pre-training for End-to-End Autonomous Driving [20.33096710167997]
GPVLという名前の3次元言語事前学習モデルによる生成計画がエンドツーエンドの自動運転のために提案されている。
クロスモーダル言語モデルを導入し、総合的な駆動決定と微粒な軌跡を生成する。
GPVLの効果的で堅牢で効率的な性能は、将来の自動運転システムの実用化に不可欠であると考えられている。
論文 参考訳(メタデータ) (2025-01-15T15:20:46Z) - VLM-AD: End-to-End Autonomous Driving through Vision-Language Model Supervision [17.36342349850825]
教師としての視覚言語モデル(VLM)は、追加の監督を提供することで訓練を強化する。
VLM-ADは、nuScenesデータセットの計画精度と衝突率の大幅な改善を実現している。
論文 参考訳(メタデータ) (2024-12-19T01:53:36Z) - DiFSD: Ego-Centric Fully Sparse Paradigm with Uncertainty Denoising and Iterative Refinement for Efficient End-to-End Self-Driving [55.53171248839489]
我々は、エンドツーエンドの自動運転のためのエゴ中心の完全スパースパラダイムであるDiFSDを提案する。
特に、DiFSDは主にスパース知覚、階層的相互作用、反復的な運動プランナーから構成される。
nuScenesとBench2Driveデータセットで実施された実験は、DiFSDの優れた計画性能と優れた効率を実証している。
論文 参考訳(メタデータ) (2024-09-15T15:55:24Z) - Enhancing End-to-End Autonomous Driving with Latent World Model [78.22157677787239]
本稿では,LAW(Latent World Model)を用いたエンドツーエンド運転のための自己教師型学習手法を提案する。
LAWは、現在の特徴とエゴ軌道に基づいて将来のシーン機能を予測する。
この自己監督タスクは、知覚のない、知覚に基づくフレームワークにシームレスに統合することができる。
論文 参考訳(メタデータ) (2024-06-12T17:59:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。