論文の概要: ReCogDrive: A Reinforced Cognitive Framework for End-to-End Autonomous Driving
- arxiv url: http://arxiv.org/abs/2506.08052v1
- Date: Mon, 09 Jun 2025 03:14:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:40.254108
- Title: ReCogDrive: A Reinforced Cognitive Framework for End-to-End Autonomous Driving
- Title(参考訳): ReCogDrive: エンドツーエンドの自動運転のための強化された認知フレームワーク
- Authors: Yongkang Li, Kaixin Xiong, Xiangyu Guo, Fang Li, Sixu Yan, Gangwei Xu, Lijun Zhou, Long Chen, Haiyang Sun, Bing Wang, Guang Chen, Hangjun Ye, Wenyu Liu, Xinggang Wang,
- Abstract要約: 本研究では,視覚言語モデルと拡散プランナを統合した自律運転システムReCogDriveを提案する。
本稿では,大規模運転質問応答データセットを用いてVLMの訓練を行い,汎用コンテンツと実世界の運転シナリオとのドメイン差を緩和する。
第2段階では、拡散型プランナーを用いて模倣学習を行い、潜在言語空間から連続運転行動への表現をマッピングする。
- 参考スコア(独自算出の注目度): 35.493857028919685
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although end-to-end autonomous driving has made remarkable progress, its performance degrades significantly in rare and long-tail scenarios. Recent approaches attempt to address this challenge by leveraging the rich world knowledge of Vision-Language Models (VLMs), but these methods suffer from several limitations: (1) a significant domain gap between the pre-training data of VLMs and real-world driving data, (2) a dimensionality mismatch between the discrete language space and the continuous action space, and (3) imitation learning tends to capture the average behavior present in the dataset, which may be suboptimal even dangerous. In this paper, we propose ReCogDrive, an autonomous driving system that integrates VLMs with diffusion planner, which adopts a three-stage paradigm for training. In the first stage, we use a large-scale driving question-answering datasets to train the VLMs, mitigating the domain discrepancy between generic content and real-world driving scenarios. In the second stage, we employ a diffusion-based planner to perform imitation learning, mapping representations from the latent language space to continuous driving actions. Finally, we fine-tune the diffusion planner using reinforcement learning with NAVSIM non-reactive simulator, enabling the model to generate safer, more human-like driving trajectories. We evaluate our approach on the planning-oriented NAVSIM benchmark, achieving a PDMS of 89.6 and setting a new state-of-the-art that surpasses the previous vision-only SOTA by 5.6 PDMS.
- Abstract(参考訳): エンドツーエンドの自動運転は目覚ましい進歩を遂げているが、その性能は稀かつ長期のシナリオで著しく低下している。
近年のアプローチでは、ビジョン・ランゲージ・モデル(VLM)の豊かな世界知識を活用することで、この問題に対処しようとしているが、これらの手法には、(1)VLMの事前学習データと実世界の運転データとのドメインギャップ、(2)離散言語空間と連続行動空間の次元的ミスマッチ、(3)模倣学習はデータセットに存在する平均的な振る舞いを捉える傾向にあり、さらに危険である。
本稿では,VLMと拡散プランナを統合した自律運転システムReCogDriveを提案する。
最初の段階では、大規模な運転質問応答データセットを使用して、VLMをトレーニングし、ジェネリックコンテンツと実世界の運転シナリオ間のドメイン差を軽減します。
第2段階では、拡散型プランナーを用いて模倣学習を行い、潜在言語空間から連続運転行動への表現をマッピングする。
最後に、NAVSIM非反応性シミュレータによる強化学習を用いて拡散プランナを微調整し、より安全で人間らしい運転軌道を生成する。
我々は、計画指向のNAVSIMベンチマークに対するアプローチを評価し、89.6のPDMSを達成し、以前のビジョンのみのSOTAを5.6のPDMSで上回る新しい最先端のSOTAを設定する。
関連論文リスト
- DiffVLA: Vision-Language Guided Diffusion Planning for Autonomous Driving [15.457670964093156]
VLM(Vision-Language Model)による新しいハイブリッドスパース距離拡散政策を提案する。
提案手法は,現実的,反応的な合成シナリオを含む自律的グランドチャレンジ2025において,優れた性能を示す。
論文 参考訳(メタデータ) (2025-05-26T00:49:35Z) - SOLVE: Synergy of Language-Vision and End-to-End Networks for Autonomous Driving [51.47621083057114]
SOLVEは、ビジョンランゲージモデルとエンド・ツー・エンド(E2E)モデルを相乗化して自動運転車の計画を強化する革新的なフレームワークである。
提案手法は,VLMとE2Eコンポーネント間の包括的インタラクションを実現するために,共有ビジュアルエンコーダによる機能レベルでの知識共有を重視している。
論文 参考訳(メタデータ) (2025-05-22T15:44:30Z) - VLM-AD: End-to-End Autonomous Driving through Vision-Language Model Supervision [20.43366384946928]
教師としての視覚言語モデル(VLM)。
VLM-ADは、nuScenesデータセットの計画精度と衝突率の大幅な改善を実現している。
論文 参考訳(メタデータ) (2024-12-19T01:53:36Z) - DiFSD: Ego-Centric Fully Sparse Paradigm with Uncertainty Denoising and Iterative Refinement for Efficient End-to-End Self-Driving [55.53171248839489]
我々は、エンドツーエンドの自動運転のためのエゴ中心の完全スパースパラダイムであるDiFSDを提案する。
特に、DiFSDは主にスパース知覚、階層的相互作用、反復的な運動プランナーから構成される。
nuScenesとBench2Driveデータセットで実施された実験は、DiFSDの優れた計画性能と優れた効率を実証している。
論文 参考訳(メタデータ) (2024-09-15T15:55:24Z) - Divide-and-Conquer for Lane-Aware Diverse Trajectory Prediction [71.97877759413272]
軌道予測は、自動運転車が行動を計画し実行するための安全クリティカルなツールです。
近年の手法は,WTAやベスト・オブ・マニーといったマルチコース学習の目標を用いて,強力なパフォーマンスを実現している。
我々の研究は、軌道予測、学習出力、そして運転知識を使って制約を課すことによるより良い予測における2つの重要な課題に対処する。
論文 参考訳(メタデータ) (2021-04-16T17:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。