論文の概要: CoReVLA: A Dual-Stage End-to-End Autonomous Driving Framework for Long-Tail Scenarios via Collect-and-Refine
- arxiv url: http://arxiv.org/abs/2509.15968v1
- Date: Fri, 19 Sep 2025 13:25:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:11.181028
- Title: CoReVLA: A Dual-Stage End-to-End Autonomous Driving Framework for Long-Tail Scenarios via Collect-and-Refine
- Title(参考訳): CoReVLA: コレクション・アンド・リファインによる長距離シナリオのための2段階のエンドツーエンド自動運転フレームワーク
- Authors: Shiyu Fang, Yiming Cui, Haoyang Liang, Chen Lv, Peng Hang, Jian Sun,
- Abstract要約: CoReVLAは、自動運転のための継続的学習フレームワークである。
データコレクションとビヘイビアリファインメントの2段階プロセスを通じて、ロングテールシナリオのパフォーマンスを改善する。
CoReVLAは72.18のドライビングスコア(DS)と50%の成功率(SR)を達成し、7.96DSの最先端手法と15%SRの長期的安全クリティカルシナリオで性能を向上する。
- 参考スコア(独自算出の注目度): 73.74077186298523
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Autonomous Driving (AD) systems have made notable progress, but their performance in long-tail, safety-critical scenarios remains limited. These rare cases contribute a disproportionate number of accidents. Vision-Language Action (VLA) models have strong reasoning abilities and offer a potential solution, but their effectiveness is limited by the lack of high-quality data and inefficient learning in such conditions. To address these challenges, we propose CoReVLA, a continual learning end-to-end autonomous driving framework that improves the performance in long-tail scenarios through a dual-stage process of data Collection and behavior Refinement. First, the model is jointly fine-tuned on a mixture of open-source driving QA datasets, allowing it to acquire a foundational understanding of driving scenarios. Next, CoReVLA is deployed within the Cave Automatic Virtual Environment (CAVE) simulation platform, where driver takeover data is collected from real-time interactions. Each takeover indicates a long-tail scenario that CoReVLA fails to handle reliably. Finally, the model is refined via Direct Preference Optimization (DPO), allowing it to learn directly from human preferences and thereby avoid reward hacking caused by manually designed rewards. Extensive open-loop and closed-loop experiments demonstrate that the proposed CoReVLA model can accurately perceive driving scenarios and make appropriate decisions. On the Bench2Drive benchmark, CoReVLA achieves a Driving Score (DS) of 72.18 and a Success Rate (SR) of 50%, outperforming state-of-the-art methods by 7.96 DS and 15% SR under long-tail, safety-critical scenarios. Furthermore, case studies demonstrate the model's ability to continually improve its performance in similar failure-prone scenarios by leveraging past takeover experiences. All codea and preprocessed datasets are available at: https://github.com/FanGShiYuu/CoReVLA
- Abstract(参考訳): 自律運転(AD)システムは目覚ましい進歩を遂げているが、長距離かつ安全クリティカルなシナリオにおける性能は依然として限られている。
これらの稀なケースは、不均等な数の事故に寄与する。
VLA(Vision-Language Action)モデルは、強力な推論能力を持ち、潜在的な解決策を提供するが、その効果は高品質なデータがないことと、そのような条件下での非効率な学習によって制限される。
このような課題に対処するため,我々は,データ収集と行動再定義の2段階プロセスを通じて,長期シナリオのパフォーマンスを向上させる継続的学習エンドツーエンドの自動運転フレームワークであるCoReVLAを提案する。
第一に、このモデルはオープンソース駆動QAデータセットの混合に基づいて、共同で微調整され、運転シナリオの基本的な理解を得ることができる。
次に、CoReVLAはCave Automatic Virtual Environment (CAVE)シミュレーションプラットフォームにデプロイされる。
各テイクオーバは、CoReVLAが確実に処理できない長いシナリオを示している。
最後に、モデルはDPO(Direct Preference Optimization)によって洗練され、人間の好みから直接学習し、手動で設計した報酬による報酬のハッキングを避けることができる。
大規模なオープンループおよびクローズループ実験により、提案されたCoReVLAモデルは、運転シナリオを正確に認識し、適切な決定を下すことができることを示した。
Bench2Driveベンチマークでは、CoReVLAは72.18のドライビングスコア(DS)と50%の成功率(SR)を達成し、7.96 DS、15% SRをロングテールで安全クリティカルなシナリオで達成している。
さらに、ケーススタディでは、過去のテイクオーバー体験を活用することで、同様の障害が発生しやすいシナリオでモデルの性能を継続的に改善する能力を示す。
https://github.com/FanGShiYuu/CoReVLA
関連論文リスト
- dVLM-AD: Enhance Diffusion Vision-Language-Model for Driving via Controllable Reasoning [69.36145467833498]
本稿では,拡散に基づく視覚言語モデルであるdVLM-ADを導入する。
nuScenes と WOD-E2E で評価すると、dVLM-AD はより一貫性のある推論・アクションのペアとなり、既存の駆動VLM/VLAシステムに匹敵する計画性能を達成する。
論文 参考訳(メタデータ) (2025-12-04T05:05:41Z) - Model-Based Policy Adaptation for Closed-Loop End-to-End Autonomous Driving [54.46325690390831]
本稿では,事前学習したE2E運転エージェントのロバスト性と安全性を高めるための汎用フレームワークとして,モデルベースポリシー適応(MPA)を提案する。
MPAは、ジオメトリ一貫性のあるシミュレーションエンジンを用いて、まず様々な対物軌道を生成する。
MPAは拡散ベースのポリシーアダプタを訓練し、基本方針の予測を洗練させ、Q値モデルを多段階に分けて長期的な結果を評価する。
論文 参考訳(メタデータ) (2025-11-26T17:01:41Z) - SEAL: Vision-Language Model-Based Safe End-to-End Cooperative Autonomous Driving with Adaptive Long-Tail Modeling [13.81210267833274]
SEALは、長期シナリオ下での堅牢な協調自動運転のための適応型マルチモーダル学習を備えたビジョンベースのモデルベースフレームワークである。
SEALは、(i)基礎モデルを利用して現実的なロングテール条件を合成するプロンプト駆動のロングテールシナリオ生成と評価パイプライン、(ii)曖昧または破損した特徴を再検討するシナリオを用いてビジュアルストリームを変調するマルチシナリオ適応アダプティブアテンションモジュール、(iii)マルチタスクシナリオを意識したコントラクティブな学習目標、マルチモーダルアライメントを改善し、クロスシナリオ機能セパビリティを促進する。
論文 参考訳(メタデータ) (2025-06-26T06:42:03Z) - ReCogDrive: A Reinforced Cognitive Framework for End-to-End Autonomous Driving [49.07731497951963]
ReCogDriveは、エンドツーエンドの自動運転のための新しい強化認知フレームワークである。
我々は、人間のドライバーのシーケンシャルな認知過程を模倣する階層的なデータパイプラインを導入する。
次に、VLMの学習した運転先を拡散プランナーに注入することで、言語行動ミスマッチに対処する。
論文 参考訳(メタデータ) (2025-06-09T03:14:04Z) - CORTEX-AVD: A Framework for CORner Case Testing and EXploration in Autonomous Vehicle Development [38.07210302881341]
CARLA Simulator と Scenic を統合し,Corner Cases を自動生成するオープンソースフレームワークである CORTEX-AVD を紹介する。
距離、時間、速度、衝突確率などの変数を考慮に入れた多要素適合関数が組み込まれている。
実験の結果, CORTEX-AVD フレームワークは, 使用済みシミュレーションの割合を減らしながら, CC の発生率を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2025-04-04T23:05:31Z) - VLM-C4L: Continual Core Dataset Learning with Corner Case Optimization via Vision-Language Models for Autonomous Driving [20.136096264189156]
コーナーケースデータセットを動的に最適化・拡張するために視覚言語モデル(VLM)を導入した連続学習フレームワークであるVLM-C4Lを提案する。
VLM-C4Lは、VLM誘導による高品質なデータ抽出とコアデータ再生戦略を組み合わせることで、モデルが多様なコーナーケースから漸進的に学習できるようにする。
論文 参考訳(メタデータ) (2025-03-29T11:40:34Z) - DriveLMM-o1: A Step-by-Step Reasoning Dataset and Large Multimodal Model for Driving Scenario Understanding [76.3876070043663]
自律運転のための段階的視覚的推論を推し進めるためのデータセットとベンチマークであるDriveLMM-o1を提案する。
私たちのベンチマークでは、トレーニングセットに18k以上のVQAサンプル、テストセットに4k以上、知覚、予測、計画に関するさまざまな質問をカバーしています。
我々のモデルは、最終回答精度が+7.49%向上し、以前の最高のオープンソースモデルよりも3.62%向上した。
論文 参考訳(メタデータ) (2025-03-13T17:59:01Z) - VLM-AD: End-to-End Autonomous Driving through Vision-Language Model Supervision [17.36342349850825]
教師としての視覚言語モデル(VLM)は、追加の監督を提供することで訓練を強化する。
VLM-ADは、nuScenesデータセットの計画精度と衝突率の大幅な改善を実現している。
論文 参考訳(メタデータ) (2024-12-19T01:53:36Z) - Towards Interactive and Learnable Cooperative Driving Automation: a Large Language Model-Driven Decision-Making Framework [87.7482313774741]
コネクテッド・オートモービルズ(CAV)は世界中の道路試験を開始したが、複雑なシナリオにおける安全性と効率性はまだ十分ではない。
本稿では,対話型かつ学習可能なLLM駆動協調運転フレームワークCoDrivingLLMを提案する。
論文 参考訳(メタデータ) (2024-09-19T14:36:00Z) - Bench2Drive: Towards Multi-Ability Benchmarking of Closed-Loop End-To-End Autonomous Driving [59.705635382104454]
本稿では,E2E-ADシステムのマルチ能力をクローズドループで評価するための最初のベンチマークであるBench2Driveを紹介する。
我々は最先端のE2E-ADモデルを実装し、Bench2Driveで評価し、現状と今後の方向性について洞察を提供する。
論文 参考訳(メタデータ) (2024-06-06T09:12:30Z) - Continual Driving Policy Optimization with Closed-Loop Individualized Curricula [2.903150959383393]
閉ループ個別化カリキュラム(CLIC)を特徴とする連続運転ポリシー最適化フレームワークを開発した。
CLICは衝突予測タスクとしてAV評価をフレーム化し、各イテレーションでこれらのシナリオでAV障害が起こる確率を見積もる。
CLICは他のカリキュラムベースのトレーニング戦略を超越し、リスクのあるシナリオの管理を大幅に改善したことを示す。
論文 参考訳(メタデータ) (2023-09-25T15:14:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。