Fugu-MT 論文翻訳(概要): ReCogDrive: A Reinforced Cognitive Framework for End-to-End Autonomous Driving

論文の概要: ReCogDrive: A Reinforced Cognitive Framework for End-to-End Autonomous Driving

arxiv url: http://arxiv.org/abs/2506.08052v1
Date: Mon, 09 Jun 2025 03:14:04 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-11 15:11:40.254108
Title: ReCogDrive: A Reinforced Cognitive Framework for End-to-End Autonomous Driving
Title（参考訳）: ReCogDrive: エンドツーエンドの自動運転のための強化された認知フレームワーク
Authors: Yongkang Li, Kaixin Xiong, Xiangyu Guo, Fang Li, Sixu Yan, Gangwei Xu, Lijun Zhou, Long Chen, Haiyang Sun, Bing Wang, Guang Chen, Hangjun Ye, Wenyu Liu, Xinggang Wang,
Abstract要約: 本研究では,視覚言語モデルと拡散プランナを統合した自律運転システムReCogDriveを提案する。本稿では,大規模運転質問応答データセットを用いてVLMの訓練を行い,汎用コンテンツと実世界の運転シナリオとのドメイン差を緩和する。第2段階では、拡散型プランナーを用いて模倣学習を行い、潜在言語空間から連続運転行動への表現をマッピングする。
参考スコア（独自算出の注目度）: 35.493857028919685
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Although end-to-end autonomous driving has made remarkable progress, its performance degrades significantly in rare and long-tail scenarios. Recent approaches attempt to address this challenge by leveraging the rich world knowledge of Vision-Language Models (VLMs), but these methods suffer from several limitations: (1) a significant domain gap between the pre-training data of VLMs and real-world driving data, (2) a dimensionality mismatch between the discrete language space and the continuous action space, and (3) imitation learning tends to capture the average behavior present in the dataset, which may be suboptimal even dangerous. In this paper, we propose ReCogDrive, an autonomous driving system that integrates VLMs with diffusion planner, which adopts a three-stage paradigm for training. In the first stage, we use a large-scale driving question-answering datasets to train the VLMs, mitigating the domain discrepancy between generic content and real-world driving scenarios. In the second stage, we employ a diffusion-based planner to perform imitation learning, mapping representations from the latent language space to continuous driving actions. Finally, we fine-tune the diffusion planner using reinforcement learning with NAVSIM non-reactive simulator, enabling the model to generate safer, more human-like driving trajectories. We evaluate our approach on the planning-oriented NAVSIM benchmark, achieving a PDMS of 89.6 and setting a new state-of-the-art that surpasses the previous vision-only SOTA by 5.6 PDMS.
Abstract（参考訳）: エンドツーエンドの自動運転は目覚ましい進歩を遂げているが、その性能は稀かつ長期のシナリオで著しく低下している。近年のアプローチでは、ビジョン・ランゲージ・モデル(VLM)の豊かな世界知識を活用することで、この問題に対処しようとしているが、これらの手法には、(1)VLMの事前学習データと実世界の運転データとのドメインギャップ、(2)離散言語空間と連続行動空間の次元的ミスマッチ、(3)模倣学習はデータセットに存在する平均的な振る舞いを捉える傾向にあり、さらに危険である。本稿では,VLMと拡散プランナを統合した自律運転システムReCogDriveを提案する。最初の段階では、大規模な運転質問応答データセットを使用して、VLMをトレーニングし、ジェネリックコンテンツと実世界の運転シナリオ間のドメイン差を軽減します。第2段階では、拡散型プランナーを用いて模倣学習を行い、潜在言語空間から連続運転行動への表現をマッピングする。最後に、NAVSIM非反応性シミュレータによる強化学習を用いて拡散プランナを微調整し、より安全で人間らしい運転軌道を生成する。我々は、計画指向のNAVSIMベンチマークに対するアプローチを評価し、89.6のPDMSを達成し、以前のビジョンのみのSOTAを5.6のPDMSで上回る新しい最先端のSOTAを設定する。

関連論文リスト

DiffVLA: Vision-Language Guided Diffusion Planning for Autonomous Driving [15.457670964093156]
VLM(Vision-Language Model)による新しいハイブリッドスパース距離拡散政策を提案する。提案手法は,現実的,反応的な合成シナリオを含む自律的グランドチャレンジ2025において,優れた性能を示す。
論文参考訳（メタデータ） (2025-05-26T00:49:35Z)
SOLVE: Synergy of Language-Vision and End-to-End Networks for Autonomous Driving [51.47621083057114]
SOLVEは、ビジョンランゲージモデルとエンド・ツー・エンド(E2E)モデルを相乗化して自動運転車の計画を強化する革新的なフレームワークである。提案手法は,VLMとE2Eコンポーネント間の包括的インタラクションを実現するために,共有ビジュアルエンコーダによる機能レベルでの知識共有を重視している。
論文参考訳（メタデータ） (2025-05-22T15:44:30Z)
Learning to Drive by Imitating Surrounding Vehicles [0.6612847014373572]
模倣学習は、複雑な交通環境をナビゲートするために自動運転車を訓練するための有望なアプローチである。本研究では, 周辺車両の観測軌道を利用することで, 模倣学習の促進を図るデータ強化戦略を提案する。我々は、nuPlanデータセット上で、最先端の学習ベースプランニング手法PLUTOを用いて、我々のアプローチを評価し、この拡張手法が複雑な運転シナリオの性能向上につながることを実証した。
論文参考訳（メタデータ） (2025-03-08T00:40:47Z)
Predictive Planner for Autonomous Driving with Consistency Models [5.966385886363771]
軌道予測と計画は、自動運転車が動的環境下で安全かつ効率的に走行するために不可欠である。近年の拡散型生成モデルはマルチエージェント軌道生成において有望であるが,その遅いサンプリングは高周波計画タスクには適さない。我々は,エゴ車両の航法目標に基づいて,エゴと周辺エージェントの共同分布からサンプルを採取する予測プランナを構築するために,一貫性モデルを活用する。
論文参考訳（メタデータ） (2025-02-12T00:26:01Z)
Generative Planning with 3D-vision Language Pre-training for End-to-End Autonomous Driving [20.33096710167997]
GPVLという名前の3次元言語事前学習モデルによる生成計画がエンドツーエンドの自動運転のために提案されている。クロスモーダル言語モデルを導入し、総合的な駆動決定と微粒な軌跡を生成する。 GPVLの効果的で堅牢で効率的な性能は、将来の自動運転システムの実用化に不可欠であると考えられている。
論文参考訳（メタデータ） (2025-01-15T15:20:46Z)
LargeAD: Large-Scale Cross-Sensor Data Pretraining for Autonomous Driving [52.83707400688378]
LargeADは多用途でスケーラブルなフレームワークで、さまざまな現実世界の運転データセットにわたる大規模3D事前トレーニング用に設計されている。我々のフレームワークは、VFMを利用して2次元画像から意味的にリッチなスーパーピクセルを抽出し、LiDAR点雲に整列して高品質なコントラストサンプルを生成する。提案手法は,LDARに基づくセグメント化とオブジェクト検出の両面において,線形探索と微調整の両作業において,最先端の手法よりも大幅な性能向上を実現している。
論文参考訳（メタデータ） (2025-01-07T18:59:59Z)
VLM-AD: End-to-End Autonomous Driving through Vision-Language Model Supervision [20.43366384946928]
教師としての視覚言語モデル(VLM)。 VLM-ADは、nuScenesデータセットの計画精度と衝突率の大幅な改善を実現している。
論文参考訳（メタデータ） (2024-12-19T01:53:36Z)
DiFSD: Ego-Centric Fully Sparse Paradigm with Uncertainty Denoising and Iterative Refinement for Efficient End-to-End Self-Driving [55.53171248839489]
我々は、エンドツーエンドの自動運転のためのエゴ中心の完全スパースパラダイムであるDiFSDを提案する。特に、DiFSDは主にスパース知覚、階層的相互作用、反復的な運動プランナーから構成される。 nuScenesとBench2Driveデータセットで実施された実験は、DiFSDの優れた計画性能と優れた効率を実証している。
論文参考訳（メタデータ） (2024-09-15T15:55:24Z)
DriveWorld: 4D Pre-trained Scene Understanding via World Models for Autonomous Driving [67.46481099962088]
現在の視覚中心の事前訓練は、通常、2Dまたは3Dのプリテキストタスクに依存し、自律運転の時間的特性を4Dシーン理解タスクとして見落としている。我々は,マルチカメラ駆動ビデオからテンポラリな方法で事前学習が可能なEmphcentricDriveWorldを紹介した。 DriveWorldは、さまざまな自動運転タスクに関する有望な結果を提供する。
論文参考訳（メタデータ） (2024-05-07T15:14:20Z)
Divide-and-Conquer for Lane-Aware Diverse Trajectory Prediction [71.97877759413272]
軌道予測は、自動運転車が行動を計画し実行するための安全クリティカルなツールです。近年の手法は,WTAやベスト・オブ・マニーといったマルチコース学習の目標を用いて,強力なパフォーマンスを実現している。我々の研究は、軌道予測、学習出力、そして運転知識を使って制約を課すことによるより良い予測における2つの重要な課題に対処する。
論文参考訳（メタデータ） (2021-04-16T17:58:56Z)
SMART: Simultaneous Multi-Agent Recurrent Trajectory Prediction [72.37440317774556]
本稿では,将来の軌道予測における2つの重要な課題に対処する手法を提案する。エージェントの数に関係なく、トレーニングデータと予測と一定時間の推測の両方において、マルチモーダリティ。
論文参考訳（メタデータ） (2020-07-26T08:17:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。