論文の概要: V2X-VLM: End-to-End V2X Cooperative Autonomous Driving Through Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2408.09251v3
- Date: Thu, 19 Jun 2025 05:02:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:04.705615
- Title: V2X-VLM: End-to-End V2X Cooperative Autonomous Driving Through Large Vision-Language Models
- Title(参考訳): V2X-VLM:大規模視覚言語モデルによるエンドツーエンドV2X協調自動運転
- Authors: Junwei You, Haotian Shi, Zhuoyu Jiang, Zilin Huang, Rui Gan, Keshu Wu, Xi Cheng, Xiaopeng Li, Bin Ran,
- Abstract要約: 自動車間協力(V2X)は、古典的な自動運転の認識限界を克服するための有望なパラダイムとして浮上している。
本稿では、視覚言語モデル(VLM)に基づく新しいエンドツーエンド(E2E)協調自動運転フレームワークであるV2X-VLMを紹介する。
V2X-VLMは、車両やインフラからの多視点カメラビューとテキストベースのシーン記述を統合し、運転環境のより包括的な理解を可能にする。
- 参考スコア(独自算出の注目度): 13.716889927164383
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vehicle-to-everything (V2X) cooperation has emerged as a promising paradigm to overcome the perception limitations of classical autonomous driving by leveraging information from both ego-vehicle and infrastructure sensors. However, effectively fusing heterogeneous visual and semantic information while ensuring robust trajectory planning remains a significant challenge. This paper introduces V2X-VLM, a novel end-to-end (E2E) cooperative autonomous driving framework based on vision-language models (VLMs). V2X-VLM integrates multiperspective camera views from vehicles and infrastructure with text-based scene descriptions to enable a more comprehensive understanding of driving environments. Specifically, we propose a contrastive learning-based mechanism to reinforce the alignment of heterogeneous visual and textual characteristics, which enhances the semantic understanding of complex driving scenarios, and employ a knowledge distillation strategy to stabilize training. Experiments on a large real-world dataset demonstrate that V2X-VLM achieves state-of-the-art trajectory planning accuracy, significantly reducing L2 error and collision rate compared to existing cooperative autonomous driving baselines. Ablation studies validate the contributions of each component. Moreover, the evaluation of robustness and efficiency highlights the practicality of V2X-VLM for real-world deployment to enhance overall autonomous driving safety and decision-making.
- Abstract(参考訳): 車両間協力(V2X)は、エゴ車とインフラセンサーの両方からの情報を活用することで、従来の自動運転の認識限界を克服する有望なパラダイムとして浮上している。
しかし、頑健な軌道計画を確保しつつ、不均一な視覚情報や意味情報を効果的に融合させることは重要な課題である。
本稿では、視覚言語モデル(VLM)に基づく、新しいエンドツーエンド(E2E)協調自動運転フレームワークであるV2X-VLMを紹介する。
V2X-VLMは、車両やインフラからの多視点カメラビューとテキストベースのシーン記述を統合し、運転環境のより包括的な理解を可能にする。
具体的には、複雑な運転シナリオのセマンティックな理解を深め、訓練を安定させるために知識蒸留戦略を用いる、異種視覚的特徴とテキスト的特徴のアライメントを強化するための、対照的な学習に基づくメカニズムを提案する。
大規模な実世界のデータセットの実験では、V2X-VLMが最先端の軌道計画精度を実現し、既存の協調運転ベースラインと比較してL2エラーと衝突率を著しく低減することを示した。
アブレーション研究は各成分の寄与を検証する。
さらに、ロバスト性と効率性の評価は、V2X-VLMの現実的な展開における実用性を強調し、全体の自律運転安全性と意思決定を向上させる。
関連論文リスト
- Towards Intelligent Transportation with Pedestrians and Vehicles In-the-Loop: A Surveillance Video-Assisted Federated Digital Twin Framework [62.47416496137193]
本稿では,歩行者や車いすによるITSを支援するための監視ビデオ支援型デジタルツイン(SV-FDT)フレームワークを提案する。
i)複数のソースからトラフィック監視ビデオを収集するエンドレイヤ、(ii)セマンティックセグメンテーションに基づく視覚理解、ツインエージェントベースのインタラクションモデリング、およびローカルデジタルツインシステム(LDTS)をローカルで作成するエッジレイヤ、(iii)異なるリージョンにわたるLDTSを統合してグローバルDTモデルをリアルタイムで構築するクラウドレイヤの3層で構成されている。
論文 参考訳(メタデータ) (2025-03-06T07:36:06Z) - LargeAD: Large-Scale Cross-Sensor Data Pretraining for Autonomous Driving [52.83707400688378]
LargeADは多用途でスケーラブルなフレームワークで、さまざまな現実世界の運転データセットにわたる大規模3D事前トレーニング用に設計されている。
我々のフレームワークは、VFMを利用して2次元画像から意味的にリッチなスーパーピクセルを抽出し、LiDAR点雲に整列して高品質なコントラストサンプルを生成する。
提案手法は,LDARに基づくセグメント化とオブジェクト検出の両面において,線形探索と微調整の両作業において,最先端の手法よりも大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2025-01-07T18:59:59Z) - Hybrid-Generative Diffusion Models for Attack-Oriented Twin Migration in Vehicular Metaverses [58.264499654343226]
Vehicle Twins (VTs) は、Vehicular Metaverse Users (VMUs) 向けに没入型仮想サービスを提供するデジタルツインである。
車両の高モビリティ、エッジサーバの不均一なデプロイ、潜在的なセキュリティ脅威は、効率的で信頼性の高いVTマイグレーションを実現する上での課題である。
車両メタバースにおけるセキュアで信頼性の高いVTマイグレーションフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-05T11:11:33Z) - Probing Multimodal LLMs as World Models for Driving [72.18727651074563]
自律運転におけるMLLM(Multimodal Large Language Models)の適用について検討する。
GPT-4oのようなモデルの開発は進んでいるが、複雑な運転環境における性能は未解明のままである。
論文 参考訳(メタデータ) (2024-05-09T17:52:42Z) - Unified End-to-End V2X Cooperative Autonomous Driving [21.631099800753795]
UniE2EV2Xは、V2Xに統合されたエンドツーエンドの自動運転システムで、主要な駆動モジュールを統合ネットワーク内で統合する。
このフレームワークは変形可能な注意ベースのデータ融合戦略を採用し、車とインフラの協調を効果的に促進する。
We implement the UniE2EV2X framework on the challenge DeepAccident, a simulation dataset designed for V2X collaborative driving。
論文 参考訳(メタデータ) (2024-05-07T03:01:40Z) - DriveVLM: The Convergence of Autonomous Driving and Large Vision-Language Models [31.552397390480525]
視覚言語モデル(VLM)を活用した自律運転システムDriveVLMを紹介する。
DriveVLMは、シーン記述、シーン分析、階層計画のための推論モジュールのユニークな組み合わせを統合している。
本稿では,DriveVLMの強みを従来の自律走行パイプラインと相乗化するハイブリッドシステムであるDriveVLM-Dualを提案する。
論文 参考訳(メタデータ) (2024-02-19T17:04:04Z) - V2X-Lead: LiDAR-based End-to-End Autonomous Driving with
Vehicle-to-Everything Communication Integration [4.166623313248682]
本稿では,V2X(Vine-to-Everything)通信を統合したLiDARを用いたエンドツーエンド自動運転手法を提案する。
提案手法は,搭載したLiDARセンサとV2X通信データを融合させることにより,不完全な部分的観測を処理することを目的としている。
論文 参考訳(メタデータ) (2023-09-26T20:26:03Z) - Generative AI-empowered Simulation for Autonomous Driving in Vehicular
Mixed Reality Metaverses [130.15554653948897]
車両混合現実(MR)メタバースでは、物理的実体と仮想実体の間の距離を克服することができる。
現実的なデータ収集と物理世界からの融合による大規模交通・運転シミュレーションは困難かつコストがかかる。
生成AIを利用して、無制限の条件付きトラフィックを合成し、シミュレーションでデータを駆動する自律運転アーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-02-16T16:54:10Z) - COOPERNAUT: End-to-End Driving with Cooperative Perception for Networked
Vehicles [54.61668577827041]
本稿では,車間認識を用いたエンドツーエンド学習モデルであるCOOPERNAUTを紹介する。
われわれのAutoCastSim実験は、我々の協調知覚駆動モデルが平均成功率を40%向上させることを示唆している。
論文 参考訳(メタデータ) (2022-05-04T17:55:12Z) - V2X-ViT: Vehicle-to-Everything Cooperative Perception with Vision
Transformer [58.71845618090022]
我々は、道路上のエージェント間で情報を融合するために、V2X-ViTという全体論的アテンションモデルを構築した。
V2X-ViTは異質なマルチエージェント自己アテンションとマルチスケールウィンドウ自己アテンションの交互層から構成される。
我々のアプローチを検証するために、我々は大規模なV2X知覚データセットを作成します。
論文 参考訳(メタデータ) (2022-03-20T20:18:25Z) - V2X-Sim: A Virtual Collaborative Perception Dataset for Autonomous
Driving [26.961213523096948]
V2X(V2X)は、車両と周囲のあらゆる物体の協調を意味する。
V2X-Simデータセットは、自動運転における最初の大規模協調認識データセットである。
論文 参考訳(メタデータ) (2022-02-17T05:14:02Z) - VISTA 2.0: An Open, Data-driven Simulator for Multimodal Sensing and
Policy Learning for Autonomous Vehicles [131.2240621036954]
VISTAはオープンソースのデータ駆動シミュレータで、複数のタイプのセンサーを自律走行車に組み込む。
高忠実で実世界のデータセットを使用して、VISTAはRGBカメラ、3D LiDAR、イベントベースのカメラを表現し、シミュレートする。
センサタイプ毎に知覚制御ポリシーをトレーニングし,テストする能力を示し,フルスケールの自律走行車への展開を通じて,このアプローチのパワーを示す。
論文 参考訳(メタデータ) (2021-11-23T18:58:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。