論文の概要: V2X-UniPool: Unifying Multimodal Perception and Knowledge Reasoning for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2506.02580v2
- Date: Thu, 02 Oct 2025 20:56:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 14:21:29.778869
- Title: V2X-UniPool: Unifying Multimodal Perception and Knowledge Reasoning for Autonomous Driving
- Title(参考訳): V2X-UniPool:自律運転のためのマルチモーダル認識と知識推論の統合
- Authors: Xuewen Luo, Fengze Yang, Fan Ding, Xiangbo Gao, Shuo Xing, Yang Zhou, Zhengzhong Tu, Chenxi Liu,
- Abstract要約: V2X-UniPoolは、知識駆動型ADのための言語ベースの推論とV2X知覚を統一するフレームワークである。
マルチモーダルなV2Xデータを構造化された言語ベースの知識に変換し、時間的に一貫した推論のためにタイムインデックスの知識プールに編成し、リアルタイムな文脈で決定を下すためにRetrieval-Augmented Generation(RAG)を使用する。
- 参考スコア(独自算出の注目度): 25.783789125870523
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous driving (AD) has achieved significant progress, yet single-vehicle perception remains constrained by sensing range and occlusions. Vehicle-to-Everything (V2X) communication addresses these limits by enabling collaboration across vehicles and infrastructure, but it also faces heterogeneity, synchronization, and latency constraints. Language models offer strong knowledge-driven reasoning and decision-making capabilities, but they are not inherently designed to process raw sensor streams and are prone to hallucination. We propose V2X-UniPool, the first framework that unifies V2X perception with language-based reasoning for knowledge-driven AD. It transforms multimodal V2X data into structured, language-based knowledge, organizes it in a time-indexed knowledge pool for temporally consistent reasoning, and employs Retrieval-Augmented Generation (RAG) to ground decisions in real-time context. Experiments on the real-world DAIR-V2X dataset show that V2X-UniPool achieves state-of-the-art planning accuracy and safety while reducing communication cost by more than 80\%, achieving the lowest overhead among evaluated methods. These results highlight the promise of bridging V2X perception and language reasoning to advance scalable and trustworthy driving. Our code is available at: https://github.com/Xuewen2025/V2X-UniPool
- Abstract(参考訳): 自律運転(AD)は大きな進歩を遂げているが、単一車両の知覚は感知範囲と閉塞によって制限されている。
車両間通信(V2X)は、車両とインフラ間の協調を可能にすることによって、これらの制限に対処するが、不均一性、同期、レイテンシの制約にも直面する。
言語モデルは、強力な知識駆動推論と意思決定能力を提供するが、それらは本来、生のセンサーストリームを処理するように設計されておらず、幻覚を起こす傾向がある。
V2X-UniPoolは,知識駆動型ADのための言語に基づく推論とV2X認識を統一する最初のフレームワークである。
マルチモーダルなV2Xデータを構造化された言語ベースの知識に変換し、時間的に一貫した推論のためにタイムインデックスの知識プールに編成し、リアルタイムな文脈で決定を下すためにRetrieval-Augmented Generation(RAG)を使用する。
実世界のDAIR-V2Xデータセットの実験では、V2X-UniPoolは最先端の計画精度と安全性を達成し、通信コストを80%以上削減し、評価手法の中で最低のオーバーヘッドを達成している。
これらの結果は、スケーラブルで信頼性の高い運転を促進するために、V2X知覚と言語推論をブリッジするという約束を強調している。
私たちのコードは、https://github.com/Xuewen2025/V2X-UniPoolで利用可能です。
関連論文リスト
- REACT: A Real-Time Edge-AI Based V2X Framework for Accident Avoidance in Autonomous Driving System [12.513296074529727]
本稿では、細調整された軽量VLM上に構築されたリアルタイムV2X統合軌道最適化フレームワークREACTを提案する。
エッジデバイス上でのリアルタイムパフォーマンスを確保するため、REACTはエッジ適応戦略を導入し、モデルの複雑さを低減し、推論を加速する。
ReACTは最先端の性能、衝突率77%の低下、48.2%のビデオパノプティクス品質(VPQ)、およびJetson AGX Orinでの0.57秒の推論遅延を実現している。
論文 参考訳(メタデータ) (2025-08-01T20:16:04Z) - Research Challenges and Progress in the End-to-End V2X Cooperative Autonomous Driving Competition [57.698383942708]
車両間通信(V2X)は、知覚範囲を拡大し運転安全性を高めるための重要な手段となっている。
我々は,協調的時間知覚と協調的エンドツーエンド計画という2つのトラックを特徴とする,V2X協力によるエンドツーエンド自律運転を組織した。
本稿では,バンド幅認識融合,堅牢なマルチエージェント計画,異種センサ統合といった重要な研究課題を取り上げ,課題の設計と成果について述べる。
論文 参考訳(メタデータ) (2025-07-29T09:06:40Z) - SOLVE: Synergy of Language-Vision and End-to-End Networks for Autonomous Driving [51.47621083057114]
SOLVEは、ビジョンランゲージモデルとエンド・ツー・エンド(E2E)モデルを相乗化して自動運転車の計画を強化する革新的なフレームワークである。
提案手法は,VLMとE2Eコンポーネント間の包括的インタラクションを実現するために,共有ビジュアルエンコーダによる機能レベルでの知識共有を重視している。
論文 参考訳(メタデータ) (2025-05-22T15:44:30Z) - DriveTransformer: Unified Transformer for Scalable End-to-End Autonomous Driving [62.62464518137153]
DriveTransformerは、スケールアップを簡単にするためのシンプルなE2E-ADフレームワークである。
タスク・セルフ・アテンション、センサー・クロス・アテンション、時間的クロス・アテンションという3つの統合された操作で構成されている。
シミュレーションされたクローズドループベンチマークBench2Driveと、FPSの高い実世界のオープンループベンチマークnuScenesの両方で、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-03-07T11:41:18Z) - Towards Intelligent Transportation with Pedestrians and Vehicles In-the-Loop: A Surveillance Video-Assisted Federated Digital Twin Framework [62.47416496137193]
本稿では,歩行者や車いすによるITSを支援するための監視ビデオ支援型デジタルツイン(SV-FDT)フレームワークを提案する。
i)複数のソースからトラフィック監視ビデオを収集するエンドレイヤ、(ii)セマンティックセグメンテーションに基づく視覚理解、ツインエージェントベースのインタラクションモデリング、およびローカルデジタルツインシステム(LDTS)をローカルで作成するエッジレイヤ、(iii)異なるリージョンにわたるLDTSを統合してグローバルDTモデルをリアルタイムで構築するクラウドレイヤの3層で構成されている。
論文 参考訳(メタデータ) (2025-03-06T07:36:06Z) - DiFSD: Ego-Centric Fully Sparse Paradigm with Uncertainty Denoising and Iterative Refinement for Efficient End-to-End Self-Driving [55.53171248839489]
我々は、エンドツーエンドの自動運転のためのエゴ中心の完全スパースパラダイムであるDiFSDを提案する。
特に、DiFSDは主にスパース知覚、階層的相互作用、反復的な運動プランナーから構成される。
nuScenesとBench2Driveデータセットで実施された実験は、DiFSDの優れた計画性能と優れた効率を実証している。
論文 参考訳(メタデータ) (2024-09-15T15:55:24Z) - V2X-VLM: End-to-End V2X Cooperative Autonomous Driving Through Large Vision-Language Models [13.716889927164383]
本稿では、V2Xシステムと大型ビジョン言語モデル(VLM)を備えた、革新的なE2E車両・インフラ協調自動運転(VICAD)フレームワークであるV2X-VLMを紹介する。
V2X-VLMは、車両に搭載されたカメラ、インフラセンサー、およびテキスト情報からの多モデルデータを統合することで、状況認識、意思決定、究極の軌道計画を強化するように設計されている。
DAIR-V2Xデータセットの評価は、V2X-VLMが最先端の協調運転法より優れていることを示している。
論文 参考訳(メタデータ) (2024-08-17T16:42:13Z) - Unified End-to-End V2X Cooperative Autonomous Driving [21.631099800753795]
UniE2EV2Xは、V2Xに統合されたエンドツーエンドの自動運転システムで、主要な駆動モジュールを統合ネットワーク内で統合する。
このフレームワークは変形可能な注意ベースのデータ融合戦略を採用し、車とインフラの協調を効果的に促進する。
We implement the UniE2EV2X framework on the challenge DeepAccident, a simulation dataset designed for V2X collaborative driving。
論文 参考訳(メタデータ) (2024-05-07T03:01:40Z) - V2X-Lead: LiDAR-based End-to-End Autonomous Driving with
Vehicle-to-Everything Communication Integration [4.166623313248682]
本稿では,V2X(Vine-to-Everything)通信を統合したLiDARを用いたエンドツーエンド自動運転手法を提案する。
提案手法は,搭載したLiDARセンサとV2X通信データを融合させることにより,不完全な部分的観測を処理することを目的としている。
論文 参考訳(メタデータ) (2023-09-26T20:26:03Z) - Generative AI-empowered Simulation for Autonomous Driving in Vehicular
Mixed Reality Metaverses [130.15554653948897]
車両混合現実(MR)メタバースでは、物理的実体と仮想実体の間の距離を克服することができる。
現実的なデータ収集と物理世界からの融合による大規模交通・運転シミュレーションは困難かつコストがかかる。
生成AIを利用して、無制限の条件付きトラフィックを合成し、シミュレーションでデータを駆動する自律運転アーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-02-16T16:54:10Z) - V2X-ViT: Vehicle-to-Everything Cooperative Perception with Vision
Transformer [58.71845618090022]
我々は、道路上のエージェント間で情報を融合するために、V2X-ViTという全体論的アテンションモデルを構築した。
V2X-ViTは異質なマルチエージェント自己アテンションとマルチスケールウィンドウ自己アテンションの交互層から構成される。
我々のアプローチを検証するために、我々は大規模なV2X知覚データセットを作成します。
論文 参考訳(メタデータ) (2022-03-20T20:18:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。