論文の概要: SEAL: Vision-Language Model-Based Safe End-to-End Cooperative Autonomous Driving with Adaptive Long-Tail Modeling
- arxiv url: http://arxiv.org/abs/2506.21041v2
- Date: Fri, 04 Jul 2025 17:25:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.43475
- Title: SEAL: Vision-Language Model-Based Safe End-to-End Cooperative Autonomous Driving with Adaptive Long-Tail Modeling
- Title(参考訳): SEAL:アダプティブ・ロングテール・モデリングによる視覚言語モデルに基づく安全なエンド・ツー・エンド協調運転
- Authors: Junwei You, Pei Li, Zhuoyu Jiang, Zilin Huang, Rui Gan, Haotian Shi, Bin Ran,
- Abstract要約: SEALは、長期シナリオ下での堅牢な協調自動運転のための適応型マルチモーダル学習を備えたビジョンベースのモデルベースフレームワークである。
SEALは、(i)基礎モデルを利用して現実的なロングテール条件を合成するプロンプト駆動のロングテールシナリオ生成と評価パイプライン、(ii)曖昧または破損した特徴を再検討するシナリオを用いてビジュアルストリームを変調するマルチシナリオ適応アダプティブアテンションモジュール、(iii)マルチタスクシナリオを意識したコントラクティブな学習目標、マルチモーダルアライメントを改善し、クロスシナリオ機能セパビリティを促進する。
- 参考スコア(独自算出の注目度): 13.81210267833274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous driving technologies face significant safety challenges while operating under rare, diverse, and visually degraded weather scenarios. These challenges become more critical in cooperative settings, where vehicles and infrastructure jointly perceive and reason across complex environments. To address these issues, we propose SEAL, a vision-language model-based framework with adaptive multimodal learning for robust cooperative autonomous driving under long-tail scenarios. SEAL introduces three core innovations: (i) a prompt-driven long-tail scenario generation and evaluation pipeline that leverages foundation models to synthesize realistic long-tail conditions such as snow and fog across vehicle- and infrastructure-side views, enriching training diversity efficiently; (ii) a gated multi-scenario adaptive attention module that modulates the visual stream using scenario priors to recalibrate ambiguous or corrupted features; and (iii) a multi-task scenario-aware contrastive learning objective that improves multimodal alignment and promotes cross-scenario feature separability. Extensive experiments demonstrate that SEAL significantly outperforms existing baselines in reasoning, safety, and planning accuracy under complex, challenging driving conditions, advancing the safety, robustness, and scalability of autonomous driving.
- Abstract(参考訳): 自律運転技術は、希少で多様で視覚的に劣化した気象シナリオの下で運用しながら、重大な安全上の課題に直面している。
これらの課題は、車とインフラが複雑な環境にまたがって共同で知覚し、理性を持つような、協調的な環境においてより重要になる。
これらの課題に対処するために,長期シナリオ下でのロバストな自律運転のための適応型マルチモーダル学習を用いた視覚言語モデルベースフレームワークSEALを提案する。
SEALは3つのコアイノベーションを紹介します。
一 車両及びインフラ面における雪や霧等の現実的な長期条件を合成し、効率よく訓練の多様性を充実させるための、基礎モデルを活用した即時長尾シナリオ生成及び評価パイプライン
(二)不明瞭な特徴又は破損した特徴を再検討するためのシナリオを用いて視覚ストリームを変調するゲート型多シナリオ適応型注意モジュール
3)マルチタスクシナリオ対応のコントラスト学習目標であり,マルチモーダルアライメントを改善し,シナリオ間の特徴分離性を促進する。
大規模な実験により、SEALは複雑な運転条件下での推論、安全性、計画精度において既存のベースラインを著しく上回り、安全性、堅牢性、自律運転のスケーラビリティを向上させることが示されている。
関連論文リスト
- SOLVE: Synergy of Language-Vision and End-to-End Networks for Autonomous Driving [51.47621083057114]
SOLVEは、ビジョンランゲージモデルとエンド・ツー・エンド(E2E)モデルを相乗化して自動運転車の計画を強化する革新的なフレームワークである。
提案手法は,VLMとE2Eコンポーネント間の包括的インタラクションを実現するために,共有ビジュアルエンコーダによる機能レベルでの知識共有を重視している。
論文 参考訳(メタデータ) (2025-05-22T15:44:30Z) - Multi-Objective Reinforcement Learning for Critical Scenario Generation of Autonomous Vehicles [11.194377118552024]
我々は,相互依存型安全性と機能要件を同時にテストする重要なシナリオを生成するための,新しい多目的強化学習(MORL)アプローチであるMOEQTを提案する。
我々は,高度エンド・ツー・エンドのAVコントローラと高忠実度シミュレータを用いたMOEQTの評価を行った。
評価の結果,MOEQTはベースラインよりも複数の要件に違反する重要なシナリオを特定する上で,全体的な性能が向上したことが示された。
論文 参考訳(メタデータ) (2025-02-18T16:32:31Z) - V2X-VLM: End-to-End V2X Cooperative Autonomous Driving Through Large Vision-Language Models [13.716889927164383]
自動車間協力(V2X)は、古典的な自動運転の認識限界を克服するための有望なパラダイムとして浮上している。
本稿では、視覚言語モデル(VLM)に基づく新しいエンドツーエンド(E2E)協調自動運転フレームワークであるV2X-VLMを紹介する。
V2X-VLMは、車両やインフラからの多視点カメラビューとテキストベースのシーン記述を統合し、運転環境のより包括的な理解を可能にする。
論文 参考訳(メタデータ) (2024-08-17T16:42:13Z) - DriveVLM: The Convergence of Autonomous Driving and Large Vision-Language Models [31.552397390480525]
視覚言語モデル(VLM)を活用した自律運転システムDriveVLMを紹介する。
DriveVLMは、シーン記述、シーン分析、階層計画のための推論モジュールのユニークな組み合わせを統合している。
本稿では,DriveVLMの強みを従来の自律走行パイプラインと相乗化するハイブリッドシステムであるDriveVLM-Dualを提案する。
論文 参考訳(メタデータ) (2024-02-19T17:04:04Z) - VLP: Vision Language Planning for Autonomous Driving [52.640371249017335]
本稿では,言語理解と自律運転のギャップを埋めるために,言語モデルを利用したビジョン・ランゲージ・プランニングフレームワークを提案する。
平均的なL2エラーと衝突率でそれぞれ35.9%と60.5%の削減を達成して、NuScenesデータセットの最先端のエンドツーエンドプランニング性能を達成している。
論文 参考訳(メタデータ) (2024-01-10T23:00:40Z) - V2X-ViT: Vehicle-to-Everything Cooperative Perception with Vision
Transformer [58.71845618090022]
我々は、道路上のエージェント間で情報を融合するために、V2X-ViTという全体論的アテンションモデルを構築した。
V2X-ViTは異質なマルチエージェント自己アテンションとマルチスケールウィンドウ自己アテンションの交互層から構成される。
我々のアプローチを検証するために、我々は大規模なV2X知覚データセットを作成します。
論文 参考訳(メタデータ) (2022-03-20T20:18:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。