論文の概要: V2X-REALM: Vision-Language Model-Based Robust End-to-End Cooperative Autonomous Driving with Adaptive Long-Tail Modeling
- arxiv url: http://arxiv.org/abs/2506.21041v1
- Date: Thu, 26 Jun 2025 06:42:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:10.001779
- Title: V2X-REALM: Vision-Language Model-Based Robust End-to-End Cooperative Autonomous Driving with Adaptive Long-Tail Modeling
- Title(参考訳): V2X-REALM:適応型ロングテールモデリングによる視覚言語モデルに基づくロバストエンドツーエンド協調運転
- Authors: Junwei You, Pei Li, Zhuoyu Jiang, Zilin Huang, Rui Gan, Haotian Shi, Bin Ran,
- Abstract要約: 本稿では,V2X-REALMを提案する。V2X-REALMは視覚言語モデル(VLM)をベースとした,長期的シナリオ下でのロバストな協調自動運転のための適応型マルチモーダル学習を実現するフレームワークである。
V2X-REALMは、3つの中核的なイノベーションを紹介している: (i) ファンデーションモデルを利用して現実的なロングテール条件を合成するプロンプト駆動のロングテールシナリオ生成と評価パイプライン、 (ii) 曖昧または破損した特徴を再分類するシナリオを用いてビジュアルストリームを変調するマルチシナリオ適応アダプティブアテンションモジュール、 (iii) マルチタスクシナリオを意識したコントラスト学習目標で、マルチモーダルアライメントを改善し、クロスモーダルを促進する。
- 参考スコア(独自算出の注目度): 13.81210267833274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ensuring robust planning and decision-making under rare, diverse, and visually degraded long-tail scenarios remains a fundamental challenge for autonomous driving in urban environments. This issue becomes more critical in cooperative settings, where vehicles and infrastructure jointly perceive and reason across complex environments. To address this challenge, we propose V2X-REALM, a vision-language model (VLM)-based framework with adaptive multimodal learning for robust cooperative autonomous driving under long-tail scenarios. V2X-REALM introduces three core innovations: (i) a prompt-driven long-tail scenario generation and evaluation pipeline that leverages foundation models to synthesize realistic long-tail conditions such as snow and fog across vehicle- and infrastructure-side views, enriching training diversity efficiently; (ii) a gated multi-scenario adaptive attention module that modulates the visual stream using scenario priors to recalibrate ambiguous or corrupted features; and (iii) a multi-task scenario-aware contrastive learning objective that improves multimodal alignment and promotes cross-scenario feature separability. Extensive experiments demonstrate that V2X-REALM significantly outperforms existing baselines in robustness, semantic reasoning, safety, and planning accuracy under complex, challenging driving conditions, advancing the scalability of end-to-end cooperative autonomous driving.
- Abstract(参考訳): 希少で多様で視覚的に劣化したロングテールシナリオの下で、堅牢な計画と意思決定を保証することは、都市環境における自動運転の根本的な課題である。
この問題は、車とインフラが複雑な環境にまたがって共同で知覚し、理性を持つような、協調的な環境においてより重要になる。
この課題に対処するために,V2X-REALMを提案する。V2X-REALMは視覚言語モデル(VLM)をベースとした,長期的シナリオ下でのロバストな協調運転のための適応型マルチモーダル学習を実現するフレームワークである。
V2X-REALMは3つの中心的イノベーションを紹介している。
一 車両及びインフラ面における雪や霧等の現実的な長期条件を合成し、効率よく訓練の多様性を充実させるための、基礎モデルを活用した即時長尾シナリオ生成及び評価パイプライン
(二)不明瞭な特徴又は破損した特徴を再検討するためのシナリオを用いて視覚ストリームを変調するゲート型多シナリオ適応型注意モジュール
3)マルチタスクシナリオ対応のコントラスト学習目標であり,マルチモーダルアライメントを改善し,シナリオ間の特徴分離性を促進する。
大規模な実験により、V2X-REALMは、複雑で困難な運転条件下でのロバスト性、セマンティック推論、安全性、計画精度において既存のベースラインを著しく上回り、エンドツーエンドの自律運転のスケーラビリティを向上することを示した。
関連論文リスト
- SOLVE: Synergy of Language-Vision and End-to-End Networks for Autonomous Driving [51.47621083057114]
SOLVEは、ビジョンランゲージモデルとエンド・ツー・エンド(E2E)モデルを相乗化して自動運転車の計画を強化する革新的なフレームワークである。
提案手法は,VLMとE2Eコンポーネント間の包括的インタラクションを実現するために,共有ビジュアルエンコーダによる機能レベルでの知識共有を重視している。
論文 参考訳(メタデータ) (2025-05-22T15:44:30Z) - Multi-Objective Reinforcement Learning for Critical Scenario Generation of Autonomous Vehicles [11.194377118552024]
我々は,相互依存型安全性と機能要件を同時にテストする重要なシナリオを生成するための,新しい多目的強化学習(MORL)アプローチであるMOEQTを提案する。
我々は,高度エンド・ツー・エンドのAVコントローラと高忠実度シミュレータを用いたMOEQTの評価を行った。
評価の結果,MOEQTはベースラインよりも複数の要件に違反する重要なシナリオを特定する上で,全体的な性能が向上したことが示された。
論文 参考訳(メタデータ) (2025-02-18T16:32:31Z) - V2X-VLM: End-to-End V2X Cooperative Autonomous Driving Through Large Vision-Language Models [13.716889927164383]
自動車間協力(V2X)は、古典的な自動運転の認識限界を克服するための有望なパラダイムとして浮上している。
本稿では、視覚言語モデル(VLM)に基づく新しいエンドツーエンド(E2E)協調自動運転フレームワークであるV2X-VLMを紹介する。
V2X-VLMは、車両やインフラからの多視点カメラビューとテキストベースのシーン記述を統合し、運転環境のより包括的な理解を可能にする。
論文 参考訳(メタデータ) (2024-08-17T16:42:13Z) - DriveVLM: The Convergence of Autonomous Driving and Large Vision-Language Models [31.552397390480525]
視覚言語モデル(VLM)を活用した自律運転システムDriveVLMを紹介する。
DriveVLMは、シーン記述、シーン分析、階層計画のための推論モジュールのユニークな組み合わせを統合している。
本稿では,DriveVLMの強みを従来の自律走行パイプラインと相乗化するハイブリッドシステムであるDriveVLM-Dualを提案する。
論文 参考訳(メタデータ) (2024-02-19T17:04:04Z) - VLP: Vision Language Planning for Autonomous Driving [52.640371249017335]
本稿では,言語理解と自律運転のギャップを埋めるために,言語モデルを利用したビジョン・ランゲージ・プランニングフレームワークを提案する。
平均的なL2エラーと衝突率でそれぞれ35.9%と60.5%の削減を達成して、NuScenesデータセットの最先端のエンドツーエンドプランニング性能を達成している。
論文 参考訳(メタデータ) (2024-01-10T23:00:40Z) - V2X-ViT: Vehicle-to-Everything Cooperative Perception with Vision
Transformer [58.71845618090022]
我々は、道路上のエージェント間で情報を融合するために、V2X-ViTという全体論的アテンションモデルを構築した。
V2X-ViTは異質なマルチエージェント自己アテンションとマルチスケールウィンドウ自己アテンションの交互層から構成される。
我々のアプローチを検証するために、我々は大規模なV2X知覚データセットを作成します。
論文 参考訳(メタデータ) (2022-03-20T20:18:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。