論文の概要: V2X-VLM: End-to-End V2X Cooperative Autonomous Driving Through Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2408.09251v1
- Date: Sat, 17 Aug 2024 16:42:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-20 21:39:37.402508
- Title: V2X-VLM: End-to-End V2X Cooperative Autonomous Driving Through Large Vision-Language Models
- Title(参考訳): V2X-VLM:大規模視覚言語モデルによるエンドツーエンドV2X協調自動運転
- Authors: Junwei You, Haotian Shi, Zhuoyu Jiang, Zilin Huang, Rui Gan, Keshu Wu, Xi Cheng, Xiaopeng Li, Bin Ran,
- Abstract要約: 本稿では、大規模な視覚言語モデル(VLM)を備えた革新的なE2E車両・インフラ協調自動運転フレームワークであるV2X-VLMを紹介する。
V2X-VLMは、車両に搭載されたカメラ、インフラセンサー、およびテキスト情報からのデータを統合することで、状況認識、意思決定、究極の軌道計画を強化するように設計されている。
VLMの総合的多モデルデータ融合の強みは、複雑でダイナミックな運転シナリオにおける正確かつ安全なE2E軌道計画を可能にする。
- 参考スコア(独自算出の注目度): 13.716889927164383
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Advancements in autonomous driving have increasingly focused on end-to-end (E2E) systems that manage the full spectrum of driving tasks, from environmental perception to vehicle navigation and control. This paper introduces V2X-VLM, an innovative E2E vehicle-infrastructure cooperative autonomous driving (VICAD) framework with large vision-language models (VLMs). V2X-VLM is designed to enhance situational awareness, decision-making, and ultimate trajectory planning by integrating data from vehicle-mounted cameras, infrastructure sensors, and textual information. The strength of the comprehensive multimodel data fusion of the VLM enables precise and safe E2E trajectory planning in complex and dynamic driving scenarios. Validation on the DAIR-V2X dataset demonstrates that V2X-VLM outperforms existing state-of-the-art methods in cooperative autonomous driving.
- Abstract(参考訳): 自動運転の進歩は、環境認識から車両のナビゲーションや制御に至るまで、運転タスクの全範囲を管理するエンドツーエンド(E2E)システムにますます焦点を絞っている。
本稿では,V2X-VLMについて紹介する。V2X-VLMは,大規模な視覚言語モデル(VLM)を備えた,革新的なE2E自動車・インフラ協調自動運転(VICAD)フレームワークである。
V2X-VLMは、車両に搭載されたカメラ、インフラセンサー、およびテキスト情報からのデータを統合することで、状況認識、意思決定、究極の軌道計画を強化するように設計されている。
VLMの総合的多モデルデータ融合の強みは、複雑でダイナミックな運転シナリオにおける正確かつ安全なE2E軌道計画を可能にする。
DAIR-V2Xデータセットの検証は、V2X-VLMが協調自動運転における既存の最先端手法よりも優れていることを示す。
関連論文リスト
- Hybrid-Generative Diffusion Models for Attack-Oriented Twin Migration in Vehicular Metaverses [58.264499654343226]
Vehicle Twins (VTs) は、Vehicular Metaverse Users (VMUs) 向けに没入型仮想サービスを提供するデジタルツインである。
車両の高モビリティ、エッジサーバの不均一なデプロイ、潜在的なセキュリティ脅威は、効率的で信頼性の高いVTマイグレーションを実現する上での課題である。
車両メタバースにおけるセキュアで信頼性の高いVTマイグレーションフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-05T11:11:33Z) - Probing Multimodal LLMs as World Models for Driving [72.18727651074563]
自律運転におけるMLLM(Multimodal Large Language Models)の適用について検討する。
GPT-4oのようなモデルの開発は進んでいるが、複雑な運転環境における性能は未解明のままである。
論文 参考訳(メタデータ) (2024-05-09T17:52:42Z) - Unified End-to-End V2X Cooperative Autonomous Driving [21.631099800753795]
UniE2EV2Xは、V2Xに統合されたエンドツーエンドの自動運転システムで、主要な駆動モジュールを統合ネットワーク内で統合する。
このフレームワークは変形可能な注意ベースのデータ融合戦略を採用し、車とインフラの協調を効果的に促進する。
We implement the UniE2EV2X framework on the challenge DeepAccident, a simulation dataset designed for V2X collaborative driving。
論文 参考訳(メタデータ) (2024-05-07T03:01:40Z) - DriveVLM: The Convergence of Autonomous Driving and Large Vision-Language Models [31.552397390480525]
視覚言語モデル(VLM)を活用した自律運転システムDriveVLMを紹介する。
DriveVLMは、シーン記述、シーン分析、階層計画のための推論モジュールのユニークな組み合わせを統合している。
本稿では,DriveVLMの強みを従来の自律走行パイプラインと相乗化するハイブリッドシステムであるDriveVLM-Dualを提案する。
論文 参考訳(メタデータ) (2024-02-19T17:04:04Z) - V2X-Lead: LiDAR-based End-to-End Autonomous Driving with
Vehicle-to-Everything Communication Integration [4.166623313248682]
本稿では,V2X(Vine-to-Everything)通信を統合したLiDARを用いたエンドツーエンド自動運転手法を提案する。
提案手法は,搭載したLiDARセンサとV2X通信データを融合させることにより,不完全な部分的観測を処理することを目的としている。
論文 参考訳(メタデータ) (2023-09-26T20:26:03Z) - Generative AI-empowered Simulation for Autonomous Driving in Vehicular
Mixed Reality Metaverses [130.15554653948897]
車両混合現実(MR)メタバースでは、物理的実体と仮想実体の間の距離を克服することができる。
現実的なデータ収集と物理世界からの融合による大規模交通・運転シミュレーションは困難かつコストがかかる。
生成AIを利用して、無制限の条件付きトラフィックを合成し、シミュレーションでデータを駆動する自律運転アーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-02-16T16:54:10Z) - COOPERNAUT: End-to-End Driving with Cooperative Perception for Networked
Vehicles [54.61668577827041]
本稿では,車間認識を用いたエンドツーエンド学習モデルであるCOOPERNAUTを紹介する。
われわれのAutoCastSim実験は、我々の協調知覚駆動モデルが平均成功率を40%向上させることを示唆している。
論文 参考訳(メタデータ) (2022-05-04T17:55:12Z) - V2X-ViT: Vehicle-to-Everything Cooperative Perception with Vision
Transformer [58.71845618090022]
我々は、道路上のエージェント間で情報を融合するために、V2X-ViTという全体論的アテンションモデルを構築した。
V2X-ViTは異質なマルチエージェント自己アテンションとマルチスケールウィンドウ自己アテンションの交互層から構成される。
我々のアプローチを検証するために、我々は大規模なV2X知覚データセットを作成します。
論文 参考訳(メタデータ) (2022-03-20T20:18:25Z) - V2X-Sim: A Virtual Collaborative Perception Dataset for Autonomous
Driving [26.961213523096948]
V2X(V2X)は、車両と周囲のあらゆる物体の協調を意味する。
V2X-Simデータセットは、自動運転における最初の大規模協調認識データセットである。
論文 参考訳(メタデータ) (2022-02-17T05:14:02Z) - VISTA 2.0: An Open, Data-driven Simulator for Multimodal Sensing and
Policy Learning for Autonomous Vehicles [131.2240621036954]
VISTAはオープンソースのデータ駆動シミュレータで、複数のタイプのセンサーを自律走行車に組み込む。
高忠実で実世界のデータセットを使用して、VISTAはRGBカメラ、3D LiDAR、イベントベースのカメラを表現し、シミュレートする。
センサタイプ毎に知覚制御ポリシーをトレーニングし,テストする能力を示し,フルスケールの自律走行車への展開を通じて,このアプローチのパワーを示す。
論文 参考訳(メタデータ) (2021-11-23T18:58:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。