論文の概要: Collision-Aware Vision-Language Learning for End-to-End Driving with Multimodal Infraction Datasets
- arxiv url: http://arxiv.org/abs/2603.25946v1
- Date: Thu, 26 Mar 2026 22:32:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.30175
- Title: Collision-Aware Vision-Language Learning for End-to-End Driving with Multimodal Infraction Datasets
- Title(参考訳): マルチモーダル・インフレクション・データセットを用いたエンドツーエンド運転のための衝突認識型ビジョンランゲージ学習
- Authors: Alex Koran, Dimitrios Sinodinos, Hadi Hojjati, Takuya Nanri, Fangge Chen, Narges Armanfard,
- Abstract要約: 高屈折率は、エンド・ツー・エンド(E2E)自動運転の主要なボトルネックである。
VLAAD(Video-Language-Augmented Anomaly Detector)を開発した。
VLAADは衝突対応のプラグインモジュールで、既存のE2E駆動モデルにシームレスに統合できる。
- 参考スコア(独自算出の注目度): 7.932761533792761
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: High infraction rates remain the primary bottleneck for end-to-end (E2E) autonomous driving, as evidenced by the low driving scores on the CARLA Leaderboard. Despite collision-related infractions being the dominant failure mode in closed-loop evaluations, collision-aware representation learning has received limited attention. To address this gap, we first develop a Video-Language-Augmented Anomaly Detector (VLAAD), leveraging a Multiple Instance Learning (MIL) formulation to obtain stable, temporally localized collision signals for proactive prediction. To transition these capabilities into closed-loop simulations, we must overcome the limitations of existing simulator datasets, which lack multimodality and are frequently restricted to simple intersection scenarios. Therefore, we introduce CARLA-Collide, a large-scale multimodal dataset capturing realistic collision events across highly diverse road networks. Trained on this diverse simulator data, VLAAD serves as a collision-aware plug-in module that can be seamlessly integrated into existing E2E driving models. By integrating our module into a pretrained TransFuser++ agent, we demonstrate a 14.12% relative increase in driving score with minimal fine-tuning. Beyond closed-loop evaluation, we further assess the generalization capability of VLAAD in an open-loop setting using real-world driving data. To support this analysis, we introduce Real-Collide, a multimodal dataset of diverse dashcam videos paired with semantically rich annotations for collision detection and prediction. On this benchmark, despite containing only 0.6B parameters, VLAAD outperforms a multi-billion-parameter vision-language model, achieving a 23.3% improvement in AUC.
- Abstract(参考訳): CARLA Leaderboardの低い運転スコアによって証明されているように、高い屈折率は、エンドツーエンド(E2E)自動運転の主要なボトルネックのままである。
閉ループ評価において、衝突関連屈折が主流の故障モードであるにもかかわらず、衝突認識表現学習は限定的な注目を集めている。
このギャップに対処するために、我々はまず、MIL(Multiple Instance Learning)の定式化を利用して、前向きな予測のための安定した時間的局所化衝突信号を得るVLAAD(Video-Language-Augmented Anomaly Detector)を開発した。
これらの機能をクローズドループシミュレーションに移行するには、マルチモーダル性に欠け、単純な交差点シナリオにしばしば制限される既存のシミュレータデータセットの制限を克服する必要がある。
そこで我々は,大規模マルチモーダル・データセットであるCARLA-Collideを紹介した。
この多様なシミュレーターデータに基づいて訓練されたVLAADは、既存のE2E駆動モデルにシームレスに統合できる衝突対応プラグインモジュールとして機能する。
トレーニング済みのTransFuser++エージェントにモジュールを統合することで、最小限の微調整で駆動スコアが14.12%向上したことを示す。
クローズドループ評価以外にも、実世界の運転データを用いたオープンループ設定におけるVLAADの一般化能力についても評価する。
この分析を支援するために,多種多様なダッシュカムビデオのマルチモーダルデータセットであるReal-Collideを紹介した。
このベンチマークでは、わずか0.6Bのパラメータしか含まないが、VLAADはマルチビリオンパラメーターの視覚言語モデルより優れており、AUCでは23.3%改善されている。
関連論文リスト
- DiffusionDriveV2: Reinforcement Learning-Constrained Truncated Diffusion Modeling in End-to-End Autonomous Driving [65.7087560656003]
エンドツーエンドの自動運転のための生成拡散モデルは、しばしばモード崩壊に悩まされる。
強化学習を利用して低品質モードを制約し,優れた軌道探索を行うDiffusionDriveV2を提案する。
これにより、そのコアであるガウス混合モデル固有の多重モード性を維持しながら、全体的な出力品質が大幅に向上する。
論文 参考訳(メタデータ) (2025-12-08T17:29:52Z) - CoReVLA: A Dual-Stage End-to-End Autonomous Driving Framework for Long-Tail Scenarios via Collect-and-Refine [73.74077186298523]
CoReVLAは、自動運転のための継続的学習フレームワークである。
データコレクションとビヘイビアリファインメントの2段階プロセスを通じて、ロングテールシナリオのパフォーマンスを改善する。
CoReVLAは72.18のドライビングスコア(DS)と50%の成功率(SR)を達成し、7.96DSの最先端手法と15%SRの長期的安全クリティカルシナリオで性能を向上する。
論文 参考訳(メタデータ) (2025-09-19T13:25:56Z) - Conformal Trajectory Prediction with Multi-View Data Integration in Cooperative Driving [4.628774934971078]
軌道予測に関する現在の研究は、主にエゴ車両の搭載センサーによって収集されたデータに依存している。
V2INetは、既存の単一ビューモデルを拡張することで、マルチビューデータをモデル化するための新しい軌道予測フレームワークである。
以上の結果から,FDE(Final Displacement Error)とMR(Miss Rate)において,単一GPUを用いた優れた性能を示した。
論文 参考訳(メタデータ) (2024-08-01T08:32:03Z) - Leveraging Driver Field-of-View for Multimodal Ego-Trajectory Prediction [69.29802752614677]
RouteFormerは、GPSデータ、環境コンテキスト、運転者の視野を組み合わせた新しいエゴ軌道予測ネットワークである。
データ不足に対処し、多様性を高めるために、同期運転場と視線データに富んだ都市運転シナリオのデータセットであるGEMを導入する。
論文 参考訳(メタデータ) (2023-12-13T23:06:30Z) - On Learning the Tail Quantiles of Driving Behavior Distributions via
Quantile Regression and Flows [13.540998552232006]
本研究では,人間の運転行動確率分布の多様性とテール量子化を正確に把握する学習モデルの問題点を考察する。
この設定に2つのフレキシブルな量子学習フレームワークを適用し、強い分布仮定を避ける。
我々は1ステップの加速予測タスクと複数ステップのドライバーシミュレーションのロールアウトでアプローチを評価した。
論文 参考訳(メタデータ) (2023-05-22T15:09:04Z) - DeepAccident: A Motion and Accident Prediction Benchmark for V2X
Autonomous Driving [76.29141888408265]
本研究では,現実の運転において頻繁に発生する多様な事故シナリオを含む大規模データセットを提案する。
提案したDeepAccidentデータセットには57Kの注釈付きフレームと285Kの注釈付きサンプルが含まれており、これは大規模なnuScenesデータセットの約7倍である。
論文 参考訳(メタデータ) (2023-04-03T17:37:00Z) - Divide-and-Conquer for Lane-Aware Diverse Trajectory Prediction [71.97877759413272]
軌道予測は、自動運転車が行動を計画し実行するための安全クリティカルなツールです。
近年の手法は,WTAやベスト・オブ・マニーといったマルチコース学習の目標を用いて,強力なパフォーマンスを実現している。
我々の研究は、軌道予測、学習出力、そして運転知識を使って制約を課すことによるより良い予測における2つの重要な課題に対処する。
論文 参考訳(メタデータ) (2021-04-16T17:58:56Z) - SMART: Simultaneous Multi-Agent Recurrent Trajectory Prediction [72.37440317774556]
本稿では,将来の軌道予測における2つの重要な課題に対処する手法を提案する。
エージェントの数に関係なく、トレーニングデータと予測と一定時間の推測の両方において、マルチモーダリティ。
論文 参考訳(メタデータ) (2020-07-26T08:17:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。