論文の概要: V2XPnP: Vehicle-to-Everything Spatio-Temporal Fusion for Multi-Agent Perception and Prediction
- arxiv url: http://arxiv.org/abs/2412.01812v2
- Date: Thu, 13 Mar 2025 23:42:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 15:33:20.358535
- Title: V2XPnP: Vehicle-to-Everything Spatio-Temporal Fusion for Multi-Agent Perception and Prediction
- Title(参考訳): V2XPnP:マルチエージェント・パーセプションと予測のための車両間時空間融合
- Authors: Zewei Zhou, Hao Xiang, Zhaoliang Zheng, Seth Z. Zhao, Mingyue Lei, Yun Zhang, Tianhui Cai, Xinyi Liu, Johnson Liu, Maheswari Bajji, Xin Xia, Zhiyu Huang, Bolei Zhou, Jiaqi Ma,
- Abstract要約: 車間通信(V2X)技術は、単一車両システムにおける可観測性を制限するための有望なパラダイムを提供する。
以前の研究は主に、異なる場所の情報を融合するが、時間的・時間的手がかりを無視する単一フレーム協調認識に焦点を当てていた。
本稿では,1段階,複数段階の通信戦略(送信時)に着目し,その統合を3つの融合戦略で検討する。
- 参考スコア(独自算出の注目度): 44.40410127660706
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Vehicle-to-everything (V2X) technologies offer a promising paradigm to mitigate the limitations of constrained observability in single-vehicle systems. Prior work primarily focuses on single-frame cooperative perception, which fuses agents' information across different spatial locations but ignores temporal cues and temporal tasks (e.g., temporal perception and prediction). In this paper, we focus on the spatio-temporal fusion in V2X scenarios and design one-step and multi-step communication strategies (when to transmit) as well as examine their integration with three fusion strategies - early, late, and intermediate (what to transmit), providing comprehensive benchmarks with 11 fusion models (how to fuse). Furthermore, we propose V2XPnP, a novel intermediate fusion framework within one-step communication for end-to-end perception and prediction. Our framework employs a unified Transformer-based architecture to effectively model complex spatio-temporal relationships across multiple agents, frames, and high-definition map. Moreover, we introduce the V2XPnP Sequential Dataset that supports all V2X collaboration modes and addresses the limitations of existing real-world datasets, which are restricted to single-frame or single-mode cooperation. Extensive experiments demonstrate our framework outperforms state-of-the-art methods in both perception and prediction tasks. The codebase and dataset will be released to facilitate future V2X research.
- Abstract(参考訳): V2X(Valby-to-everything)技術は、単一車両システムにおける制約された可観測性の制限を緩和する、有望なパラダイムを提供する。
従来の作業は、エージェントの情報を異なる空間的場所にわたって融合する単一フレーム協調的知覚に重点を置いていたが、時間的手がかりや時間的タスク(時間的知覚や予測など)を無視している。
本稿では、V2Xシナリオにおける時空間融合に着目し、一段階・多段階通信戦略(送信時)を設計するとともに、3つの融合戦略(早期・後期・中間(送信時))との統合を検証し、11の融合モデルを用いた総合的なベンチマーク(融合方法)を提供する。
さらに,エンド・ツー・エンドの知覚と予測のためのワンステップ通信における新たな中間融合フレームワークであるV2XPnPを提案する。
我々のフレームワークは、複数のエージェント、フレーム、高精細マップをまたいだ複雑な時空間関係を効果的にモデル化するために、Transformerベースの統一アーキテクチャを採用している。
さらに、V2XPnP Sequential Datasetを導入し、すべてのV2Xコラボレーションモードをサポートし、単一のフレームやシングルモードの協調に制限のある既存の実世界のデータセットの制限に対処する。
大規模な実験により、我々のフレームワークは認識タスクと予測タスクの両方において最先端の手法より優れていることを示した。
コードベースとデータセットは、将来のV2X研究を促進するためにリリースされる予定である。
関連論文リスト
- V2X-ReaLO: An Open Online Framework and Dataset for Cooperative Perception in Reality [13.68645389910716]
V2X-ReaLOは,実車およびスマートインフラストラクチャ上にデプロイされたオープンオンライン協調認識フレームワークである。
本稿では,オンライン協調認識システムの性能を評価するために,オープンなベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2025-03-13T04:31:20Z) - Co-MTP: A Cooperative Trajectory Prediction Framework with Multi-Temporal Fusion for Autonomous Driving [16.479343520119073]
Co-MTPは、自律運転のための多時間融合を伴う一般的な協調軌道予測フレームワークである。
将来の領域では、V2Xは周囲の物体の予測結果を提供することができる。
実世界のデータセットV2X-Seq上でのCo-MTPフレームワークの評価を行った。
論文 参考訳(メタデータ) (2025-02-23T14:38:13Z) - DeepInteraction++: Multi-Modality Interaction for Autonomous Driving [80.8837864849534]
我々は,モダリティごとの個別表現を学習し,維持することのできる,新しいモダリティインタラクション戦略を導入する。
DeepInteraction++はマルチモーダルなインタラクション・フレームワークであり、マルチモーダルな表現型インタラクション・エンコーダとマルチモーダルな予測型インタラクション・デコーダを特徴とする。
実験では,3次元物体検出とエンドツーエンドの自律走行の両方において,提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-09T14:04:21Z) - Conformal Trajectory Prediction with Multi-View Data Integration in Cooperative Driving [4.628774934971078]
軌道予測に関する現在の研究は、主にエゴ車両の搭載センサーによって収集されたデータに依存している。
V2INetは、既存の単一ビューモデルを拡張することで、マルチビューデータをモデル化するための新しい軌道予測フレームワークである。
以上の結果から,FDE(Final Displacement Error)とMR(Miss Rate)において,単一GPUを用いた優れた性能を示した。
論文 参考訳(メタデータ) (2024-08-01T08:32:03Z) - Mutual Information-driven Triple Interaction Network for Efficient Image
Dehazing [54.168567276280505]
画像デハージングのための相互情報駆動型トリプルインタラクションネットワーク(MITNet)を提案する。
振幅誘導ヘイズ除去と呼ばれる第1段階は、ヘイズ除去のためのヘイズ画像の振幅スペクトルを復元することを目的としている。
第2段階は位相誘導構造が洗練され、位相スペクトルの変換と微細化を学ぶことに尽力した。
論文 参考訳(メタデータ) (2023-08-14T08:23:58Z) - Practical Collaborative Perception: A Framework for Asynchronous and
Multi-Agent 3D Object Detection [9.967263440745432]
咬合は、LiDARベースのオブジェクト検出方法において大きな課題である。
最先端のV2X手法は、中間協調手法を用いて性能帯域幅のトレードオフを解消する。
我々は,従来の方法よりも帯域幅と性能のトレードオフを向上する,シンプルで効果的な協調手法を考案した。
論文 参考訳(メタデータ) (2023-07-04T03:49:42Z) - V2X-ViT: Vehicle-to-Everything Cooperative Perception with Vision
Transformer [58.71845618090022]
我々は、道路上のエージェント間で情報を融合するために、V2X-ViTという全体論的アテンションモデルを構築した。
V2X-ViTは異質なマルチエージェント自己アテンションとマルチスケールウィンドウ自己アテンションの交互層から構成される。
我々のアプローチを検証するために、我々は大規模なV2X知覚データセットを作成します。
論文 参考訳(メタデータ) (2022-03-20T20:18:25Z) - Full-Duplex Strategy for Video Object Segmentation [141.43983376262815]
Full- Strategy Network (FSNet)はビデオオブジェクトセグメンテーション(VOS)のための新しいフレームワークである
我々のFSNetは、融合復号ステージの前に、クロスモーダルな機能パス(すなわち、送信と受信)を同時に実行します。
我々のFSNetは、VOSとビデオの有能なオブジェクト検出タスクの両方において、他の最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-06T14:50:50Z) - A Spatial-Temporal Attentive Network with Spatial Continuity for
Trajectory Prediction [74.00750936752418]
空間連続性をもつ空間時間減衰ネットワーク(STAN-SC)という新しいモデルを提案する。
まず、最も有用かつ重要な情報を探るために、空間的時間的注意機構を提示する。
第2に、生成軌道の空間的連続性を維持するために、シーケンスと瞬間状態情報に基づく共同特徴系列を実行する。
論文 参考訳(メタデータ) (2020-03-13T04:35:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。