論文の概要: V2X-REALM: Vision-Language Model-Based Robust End-to-End Cooperative Autonomous Driving with Adaptive Long-Tail Modeling
- arxiv url: http://arxiv.org/abs/2506.21041v1
- Date: Thu, 26 Jun 2025 06:42:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:10.001779
- Title: V2X-REALM: Vision-Language Model-Based Robust End-to-End Cooperative Autonomous Driving with Adaptive Long-Tail Modeling
- Title(参考訳): V2X-REALM:適応型ロングテールモデリングによる視覚言語モデルに基づくロバストエンドツーエンド協調運転
- Authors: Junwei You, Pei Li, Zhuoyu Jiang, Zilin Huang, Rui Gan, Haotian Shi, Bin Ran,
- Abstract要約: 本稿では,V2X-REALMを提案する。V2X-REALMは視覚言語モデル(VLM)をベースとした,長期的シナリオ下でのロバストな協調自動運転のための適応型マルチモーダル学習を実現するフレームワークである。
V2X-REALMは、3つの中核的なイノベーションを紹介している: (i) ファンデーションモデルを利用して現実的なロングテール条件を合成するプロンプト駆動のロングテールシナリオ生成と評価パイプライン、 (ii) 曖昧または破損した特徴を再分類するシナリオを用いてビジュアルストリームを変調するマルチシナリオ適応アダプティブアテンションモジュール、 (iii) マルチタスクシナリオを意識したコントラスト学習目標で、マルチモーダルアライメントを改善し、クロスモーダルを促進する。
- 参考スコア(独自算出の注目度): 13.81210267833274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ensuring robust planning and decision-making under rare, diverse, and visually degraded long-tail scenarios remains a fundamental challenge for autonomous driving in urban environments. This issue becomes more critical in cooperative settings, where vehicles and infrastructure jointly perceive and reason across complex environments. To address this challenge, we propose V2X-REALM, a vision-language model (VLM)-based framework with adaptive multimodal learning for robust cooperative autonomous driving under long-tail scenarios. V2X-REALM introduces three core innovations: (i) a prompt-driven long-tail scenario generation and evaluation pipeline that leverages foundation models to synthesize realistic long-tail conditions such as snow and fog across vehicle- and infrastructure-side views, enriching training diversity efficiently; (ii) a gated multi-scenario adaptive attention module that modulates the visual stream using scenario priors to recalibrate ambiguous or corrupted features; and (iii) a multi-task scenario-aware contrastive learning objective that improves multimodal alignment and promotes cross-scenario feature separability. Extensive experiments demonstrate that V2X-REALM significantly outperforms existing baselines in robustness, semantic reasoning, safety, and planning accuracy under complex, challenging driving conditions, advancing the scalability of end-to-end cooperative autonomous driving.
- Abstract(参考訳): 希少で多様で視覚的に劣化したロングテールシナリオの下で、堅牢な計画と意思決定を保証することは、都市環境における自動運転の根本的な課題である。
この問題は、車とインフラが複雑な環境にまたがって共同で知覚し、理性を持つような、協調的な環境においてより重要になる。
この課題に対処するために,V2X-REALMを提案する。V2X-REALMは視覚言語モデル(VLM)をベースとした,長期的シナリオ下でのロバストな協調運転のための適応型マルチモーダル学習を実現するフレームワークである。
V2X-REALMは3つの中心的イノベーションを紹介している。
一 車両及びインフラ面における雪や霧等の現実的な長期条件を合成し、効率よく訓練の多様性を充実させるための、基礎モデルを活用した即時長尾シナリオ生成及び評価パイプライン
(二)不明瞭な特徴又は破損した特徴を再検討するためのシナリオを用いて視覚ストリームを変調するゲート型多シナリオ適応型注意モジュール
3)マルチタスクシナリオ対応のコントラスト学習目標であり,マルチモーダルアライメントを改善し,シナリオ間の特徴分離性を促進する。
大規模な実験により、V2X-REALMは、複雑で困難な運転条件下でのロバスト性、セマンティック推論、安全性、計画精度において既存のベースラインを著しく上回り、エンドツーエンドの自律運転のスケーラビリティを向上することを示した。
関連論文リスト
- VLMPlanner: Integrating Visual Language Models with Motion Planning [18.633637485218802]
VLMPlannerは、学習ベースのリアルタイムプランナと生画像の推論が可能な視覚言語モデル(VLM)を組み合わせたハイブリッドフレームワークである。
我々は,VLMが人間の運転動作を模倣できるコンテキスト適応推論ゲート機構を開発した。
論文 参考訳(メタデータ) (2025-07-27T16:15:21Z) - World Model-Based End-to-End Scene Generation for Accident Anticipation in Autonomous Driving [1.8277374107085946]
本稿では,生成的拡張シーンと適応的時間的推論を組み合わせた包括的枠組みを提案する。
我々は、高解像度で統計的に一貫した運転シナリオを作成するために、ドメインインフォームドプロンプトによって世界モデルを利用するビデオ生成パイプラインを開発した。
並列に、強化グラフ畳み込みと拡張時間演算子を通して時間関係を符号化する動的予測モデルを構築する。
論文 参考訳(メタデータ) (2025-07-17T03:34:54Z) - SOLVE: Synergy of Language-Vision and End-to-End Networks for Autonomous Driving [51.47621083057114]
SOLVEは、ビジョンランゲージモデルとエンド・ツー・エンド(E2E)モデルを相乗化して自動運転車の計画を強化する革新的なフレームワークである。
提案手法は,VLMとE2Eコンポーネント間の包括的インタラクションを実現するために,共有ビジュアルエンコーダによる機能レベルでの知識共有を重視している。
論文 参考訳(メタデータ) (2025-05-22T15:44:30Z) - Safety-Critical Traffic Simulation with Guided Latent Diffusion Model [8.011306318131458]
安全クリティカルな交通シミュレーションは、自動運転システムを評価する上で重要な役割を果たす。
本稿では,物理的に現実的で逆向きなシナリオを生成可能なガイド付き潜時拡散モデル(LDM)を提案する。
我々の研究は、現実的な安全クリティカルなシナリオシミュレーションのための効果的なツールを提供し、自律運転システムのより堅牢な評価の道を開く。
論文 参考訳(メタデータ) (2025-05-01T13:33:34Z) - VLM-C4L: Continual Core Dataset Learning with Corner Case Optimization via Vision-Language Models for Autonomous Driving [20.136096264189156]
コーナーケースデータセットを動的に最適化・拡張するために視覚言語モデル(VLM)を導入した連続学習フレームワークであるVLM-C4Lを提案する。
VLM-C4Lは、VLM誘導による高品質なデータ抽出とコアデータ再生戦略を組み合わせることで、モデルが多様なコーナーケースから漸進的に学習できるようにする。
論文 参考訳(メタデータ) (2025-03-29T11:40:34Z) - CurricuVLM: Towards Safe Autonomous Driving via Personalized Safety-Critical Curriculum Learning with Vision-Language Models [1.6612510324510592]
CurricuVLMは、自律運転エージェントのためのパーソナライズされたカリキュラム学習を可能にする新しいフレームワークである。
我々のアプローチでは、エージェントの動作を分析し、パフォーマンスの弱点を特定し、動的に調整されたトレーニングシナリオを生成するために、視覚言語モデル(VLM)を利用する。
CurricuVLMは、通常のシナリオと安全クリティカルなシナリオの両方において、最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2025-02-21T00:42:40Z) - Multi-Objective Reinforcement Learning for Critical Scenario Generation of Autonomous Vehicles [11.194377118552024]
我々は,相互依存型安全性と機能要件を同時にテストする重要なシナリオを生成するための,新しい多目的強化学習(MORL)アプローチであるMOEQTを提案する。
我々は,高度エンド・ツー・エンドのAVコントローラと高忠実度シミュレータを用いたMOEQTの評価を行った。
評価の結果,MOEQTはベースラインよりも複数の要件に違反する重要なシナリオを特定する上で,全体的な性能が向上したことが示された。
論文 参考訳(メタデータ) (2025-02-18T16:32:31Z) - TeLL-Drive: Enhancing Autonomous Driving with Teacher LLM-Guided Deep Reinforcement Learning [61.33599727106222]
TeLL-Driveは、Teacher LLMを統合して、注意に基づく学生DRLポリシーをガイドするハイブリッドフレームワークである。
自己維持機構はDRLエージェントの探索とこれらの戦略を融合させ、政策収束を加速し、堅牢性を高める。
論文 参考訳(メタデータ) (2025-02-03T14:22:03Z) - Generating Out-Of-Distribution Scenarios Using Language Models [58.47597351184034]
大規模言語モデル(LLM)は自動運転において有望であることを示している。
本稿では,多様なOF-Distribution(OOD)駆動シナリオを生成するためのフレームワークを提案する。
我々は、広範囲なシミュレーションを通じてフレームワークを評価し、新しい"OOD-ness"メトリクスを導入する。
論文 参考訳(メタデータ) (2024-11-25T16:38:17Z) - Towards Interactive and Learnable Cooperative Driving Automation: a Large Language Model-Driven Decision-Making Framework [79.088116316919]
コネクテッド・オートモービルズ(CAV)は世界中の道路試験を開始したが、複雑なシナリオにおける安全性と効率性はまだ十分ではない。
本稿では,対話型かつ学習可能なLLM駆動協調運転フレームワークCoDrivingLLMを提案する。
論文 参考訳(メタデータ) (2024-09-19T14:36:00Z) - V2X-VLM: End-to-End V2X Cooperative Autonomous Driving Through Large Vision-Language Models [13.716889927164383]
自動車間協力(V2X)は、古典的な自動運転の認識限界を克服するための有望なパラダイムとして浮上している。
本稿では、視覚言語モデル(VLM)に基づく新しいエンドツーエンド(E2E)協調自動運転フレームワークであるV2X-VLMを紹介する。
V2X-VLMは、車両やインフラからの多視点カメラビューとテキストベースのシーン記述を統合し、運転環境のより包括的な理解を可能にする。
論文 参考訳(メタデータ) (2024-08-17T16:42:13Z) - DriveVLM: The Convergence of Autonomous Driving and Large Vision-Language Models [31.552397390480525]
視覚言語モデル(VLM)を活用した自律運転システムDriveVLMを紹介する。
DriveVLMは、シーン記述、シーン分析、階層計画のための推論モジュールのユニークな組み合わせを統合している。
本稿では,DriveVLMの強みを従来の自律走行パイプラインと相乗化するハイブリッドシステムであるDriveVLM-Dualを提案する。
論文 参考訳(メタデータ) (2024-02-19T17:04:04Z) - VLP: Vision Language Planning for Autonomous Driving [52.640371249017335]
本稿では,言語理解と自律運転のギャップを埋めるために,言語モデルを利用したビジョン・ランゲージ・プランニングフレームワークを提案する。
平均的なL2エラーと衝突率でそれぞれ35.9%と60.5%の削減を達成して、NuScenesデータセットの最先端のエンドツーエンドプランニング性能を達成している。
論文 参考訳(メタデータ) (2024-01-10T23:00:40Z) - SAFE-SIM: Safety-Critical Closed-Loop Traffic Simulation with Diffusion-Controllable Adversaries [94.84458417662407]
制御可能なクローズドループ安全クリティカルシミュレーションフレームワークであるSAFE-SIMを紹介する。
提案手法は,1)現実の環境を深く反映した現実的な長距離安全クリティカルシナリオの生成,2)より包括的でインタラクティブな評価のための制御可能な敵行動の提供,の2つの利点をもたらす。
複数のプランナにまたがるnuScenesとnuPlanデータセットを使用して、我々のフレームワークを実証的に検証し、リアリズムと制御性の両方の改善を実証した。
論文 参考訳(メタデータ) (2023-12-31T04:14:43Z) - Empowering Autonomous Driving with Large Language Models: A Safety Perspective [82.90376711290808]
本稿では,Large Language Models (LLM) の自律運転システムへの統合について検討する。
LLMは行動計画におけるインテリジェントな意思決定者であり、文脈的安全学習のための安全検証シールドを備えている。
適応型LLM条件モデル予測制御(MPC)と状態機械を用いたLLM対応対話型行動計画スキームという,シミュレーション環境における2つの重要な研究について述べる。
論文 参考訳(メタデータ) (2023-11-28T03:13:09Z) - V2X-ViT: Vehicle-to-Everything Cooperative Perception with Vision
Transformer [58.71845618090022]
我々は、道路上のエージェント間で情報を融合するために、V2X-ViTという全体論的アテンションモデルを構築した。
V2X-ViTは異質なマルチエージェント自己アテンションとマルチスケールウィンドウ自己アテンションの交互層から構成される。
我々のアプローチを検証するために、我々は大規模なV2X知覚データセットを作成します。
論文 参考訳(メタデータ) (2022-03-20T20:18:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。