論文の概要: V2X-UniPool: Unifying Multimodal Perception and Knowledge Reasoning for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2506.02580v1
- Date: Tue, 03 Jun 2025 08:00:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.419452
- Title: V2X-UniPool: Unifying Multimodal Perception and Knowledge Reasoning for Autonomous Driving
- Title(参考訳): V2X-UniPool:自律運転のためのマルチモーダル認識と知識推論の統合
- Authors: Xuewen Luo, Fengze Yang, Fan Ding, Xiangbo Gao, Shuo Xing, Yang Zhou, Zhengzhong Tu, Chenxi Liu,
- Abstract要約: V2X-UniPoolは、マルチモーダルなV2X(Valby-to-Everything)データをタイムインデックスと言語ベースのナレッジプールに統合する統合フレームワークである。
我々のシステムでは,静的環境と動的トラフィックコンテキストの両方に対して,ADが正確かつ時間的に一貫した推論を行うことができる。
- 参考スコア(独自算出の注目度): 13.181643929201666
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge-driven autonomous driving systems(ADs) offer powerful reasoning capabilities, but face two critical challenges: limited perception due to the short-sightedness of single-vehicle sensors, and hallucination arising from the lack of real-time environmental grounding. To address these issues, this paper introduces V2X-UniPool, a unified framework that integrates multimodal Vehicle-to-Everything (V2X) data into a time-indexed and language-based knowledge pool. By leveraging a dual-query Retrieval-Augmented Generation (RAG) mechanism, which enables retrieval of both static and dynamic knowledge, our system enables ADs to perform accurate, temporally consistent reasoning over both static environment and dynamic traffic context. Experiments on a real-world cooperative driving dataset demonstrate that V2X-UniPool significantly enhances motion planning accuracy and reasoning capability. Remarkably, it enables even zero-shot vehicle-side models to achieve state-of-the-art performance by leveraging V2X-UniPool, while simultaneously reducing transmission cost by over 99.9\% compared to prior V2X methods.
- Abstract(参考訳): 知識駆動型自律運転システム(AD)は強力な推論能力を提供するが、単一車両センサーの近視性による認識の制限と、リアルタイム環境基盤の欠如による幻覚という2つの重要な課題に直面している。
これらの問題に対処するために、V2X-UniPoolは、マルチモーダル車間通信(V2X)データをタイムインデックスと言語ベースの知識プールに統合する統合フレームワークである。
静的な知識と動的な知識の両方の検索を可能にする二重クエリ検索拡張生成(RAG)機構を利用することで,静的な環境と動的トラフィックコンテキストの両方に対して,ADが正確かつ時間的に一貫した推論を行えるようにした。
実世界の協調運転データセットの実験により、V2X-UniPoolは運動計画の精度と推論能力を大幅に向上することが示された。
特筆すべきは、V2X-UniPoolを利用することで、ゼロショット車側モデルでも最先端の性能を達成することができ、同時に従来のV2X法と比較して、送信コストを99.9%以上削減できることである。
関連論文リスト
- SOLVE: Synergy of Language-Vision and End-to-End Networks for Autonomous Driving [51.47621083057114]
SOLVEは、ビジョンランゲージモデルとエンド・ツー・エンド(E2E)モデルを相乗化して自動運転車の計画を強化する革新的なフレームワークである。
提案手法は,VLMとE2Eコンポーネント間の包括的インタラクションを実現するために,共有ビジュアルエンコーダによる機能レベルでの知識共有を重視している。
論文 参考訳(メタデータ) (2025-05-22T15:44:30Z) - DriveTransformer: Unified Transformer for Scalable End-to-End Autonomous Driving [62.62464518137153]
DriveTransformerは、スケールアップを簡単にするためのシンプルなE2E-ADフレームワークである。
タスク・セルフ・アテンション、センサー・クロス・アテンション、時間的クロス・アテンションという3つの統合された操作で構成されている。
シミュレーションされたクローズドループベンチマークBench2Driveと、FPSの高い実世界のオープンループベンチマークnuScenesの両方で、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-03-07T11:41:18Z) - Towards Intelligent Transportation with Pedestrians and Vehicles In-the-Loop: A Surveillance Video-Assisted Federated Digital Twin Framework [62.47416496137193]
本稿では,歩行者や車いすによるITSを支援するための監視ビデオ支援型デジタルツイン(SV-FDT)フレームワークを提案する。
i)複数のソースからトラフィック監視ビデオを収集するエンドレイヤ、(ii)セマンティックセグメンテーションに基づく視覚理解、ツインエージェントベースのインタラクションモデリング、およびローカルデジタルツインシステム(LDTS)をローカルで作成するエッジレイヤ、(iii)異なるリージョンにわたるLDTSを統合してグローバルDTモデルをリアルタイムで構築するクラウドレイヤの3層で構成されている。
論文 参考訳(メタデータ) (2025-03-06T07:36:06Z) - DiFSD: Ego-Centric Fully Sparse Paradigm with Uncertainty Denoising and Iterative Refinement for Efficient End-to-End Self-Driving [55.53171248839489]
我々は、エンドツーエンドの自動運転のためのエゴ中心の完全スパースパラダイムであるDiFSDを提案する。
特に、DiFSDは主にスパース知覚、階層的相互作用、反復的な運動プランナーから構成される。
nuScenesとBench2Driveデータセットで実施された実験は、DiFSDの優れた計画性能と優れた効率を実証している。
論文 参考訳(メタデータ) (2024-09-15T15:55:24Z) - V2X-VLM: End-to-End V2X Cooperative Autonomous Driving Through Large Vision-Language Models [13.716889927164383]
本稿では、V2Xシステムと大型ビジョン言語モデル(VLM)を備えた、革新的なE2E車両・インフラ協調自動運転(VICAD)フレームワークであるV2X-VLMを紹介する。
V2X-VLMは、車両に搭載されたカメラ、インフラセンサー、およびテキスト情報からの多モデルデータを統合することで、状況認識、意思決定、究極の軌道計画を強化するように設計されている。
DAIR-V2Xデータセットの評価は、V2X-VLMが最先端の協調運転法より優れていることを示している。
論文 参考訳(メタデータ) (2024-08-17T16:42:13Z) - Unified End-to-End V2X Cooperative Autonomous Driving [21.631099800753795]
UniE2EV2Xは、V2Xに統合されたエンドツーエンドの自動運転システムで、主要な駆動モジュールを統合ネットワーク内で統合する。
このフレームワークは変形可能な注意ベースのデータ融合戦略を採用し、車とインフラの協調を効果的に促進する。
We implement the UniE2EV2X framework on the challenge DeepAccident, a simulation dataset designed for V2X collaborative driving。
論文 参考訳(メタデータ) (2024-05-07T03:01:40Z) - V2X-Lead: LiDAR-based End-to-End Autonomous Driving with
Vehicle-to-Everything Communication Integration [4.166623313248682]
本稿では,V2X(Vine-to-Everything)通信を統合したLiDARを用いたエンドツーエンド自動運転手法を提案する。
提案手法は,搭載したLiDARセンサとV2X通信データを融合させることにより,不完全な部分的観測を処理することを目的としている。
論文 参考訳(メタデータ) (2023-09-26T20:26:03Z) - Generative AI-empowered Simulation for Autonomous Driving in Vehicular
Mixed Reality Metaverses [130.15554653948897]
車両混合現実(MR)メタバースでは、物理的実体と仮想実体の間の距離を克服することができる。
現実的なデータ収集と物理世界からの融合による大規模交通・運転シミュレーションは困難かつコストがかかる。
生成AIを利用して、無制限の条件付きトラフィックを合成し、シミュレーションでデータを駆動する自律運転アーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-02-16T16:54:10Z) - V2X-ViT: Vehicle-to-Everything Cooperative Perception with Vision
Transformer [58.71845618090022]
我々は、道路上のエージェント間で情報を融合するために、V2X-ViTという全体論的アテンションモデルを構築した。
V2X-ViTは異質なマルチエージェント自己アテンションとマルチスケールウィンドウ自己アテンションの交互層から構成される。
我々のアプローチを検証するために、我々は大規模なV2X知覚データセットを作成します。
論文 参考訳(メタデータ) (2022-03-20T20:18:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。