論文の概要: V2XPnP: Vehicle-to-Everything Spatio-Temporal Fusion for Multi-Agent Perception and Prediction
- arxiv url: http://arxiv.org/abs/2412.01812v2
- Date: Thu, 13 Mar 2025 23:42:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:04:00.643893
- Title: V2XPnP: Vehicle-to-Everything Spatio-Temporal Fusion for Multi-Agent Perception and Prediction
- Title(参考訳): V2XPnP:マルチエージェント・パーセプションと予測のための車両間時空間融合
- Authors: Zewei Zhou, Hao Xiang, Zhaoliang Zheng, Seth Z. Zhao, Mingyue Lei, Yun Zhang, Tianhui Cai, Xinyi Liu, Johnson Liu, Maheswari Bajji, Xin Xia, Zhiyu Huang, Bolei Zhou, Jiaqi Ma,
- Abstract要約: 車間通信(V2X)技術は、単一車両システムにおける可観測性を制限するための有望なパラダイムを提供する。
以前の研究は主に、異なる場所の情報を融合するが、時間的・時間的手がかりを無視する単一フレーム協調認識に焦点を当てていた。
本稿では,1段階,複数段階の通信戦略(送信時)に着目し,その統合を3つの融合戦略で検討する。
- 参考スコア(独自算出の注目度): 44.40410127660706
- License:
- Abstract: Vehicle-to-everything (V2X) technologies offer a promising paradigm to mitigate the limitations of constrained observability in single-vehicle systems. Prior work primarily focuses on single-frame cooperative perception, which fuses agents' information across different spatial locations but ignores temporal cues and temporal tasks (e.g., temporal perception and prediction). In this paper, we focus on the spatio-temporal fusion in V2X scenarios and design one-step and multi-step communication strategies (when to transmit) as well as examine their integration with three fusion strategies - early, late, and intermediate (what to transmit), providing comprehensive benchmarks with 11 fusion models (how to fuse). Furthermore, we propose V2XPnP, a novel intermediate fusion framework within one-step communication for end-to-end perception and prediction. Our framework employs a unified Transformer-based architecture to effectively model complex spatio-temporal relationships across multiple agents, frames, and high-definition map. Moreover, we introduce the V2XPnP Sequential Dataset that supports all V2X collaboration modes and addresses the limitations of existing real-world datasets, which are restricted to single-frame or single-mode cooperation. Extensive experiments demonstrate our framework outperforms state-of-the-art methods in both perception and prediction tasks. The codebase and dataset will be released to facilitate future V2X research.
- Abstract(参考訳): V2X(Valby-to-everything)技術は、単一車両システムにおける制約された可観測性の制限を緩和する、有望なパラダイムを提供する。
従来の作業は、エージェントの情報を異なる空間的場所にわたって融合する単一フレーム協調的知覚に重点を置いていたが、時間的手がかりや時間的タスク(時間的知覚や予測など)を無視している。
本稿では、V2Xシナリオにおける時空間融合に着目し、一段階・多段階通信戦略(送信時)を設計するとともに、3つの融合戦略(早期・後期・中間(送信時))との統合を検証し、11の融合モデルを用いた総合的なベンチマーク(融合方法)を提供する。
さらに,エンド・ツー・エンドの知覚と予測のためのワンステップ通信における新たな中間融合フレームワークであるV2XPnPを提案する。
我々のフレームワークは、複数のエージェント、フレーム、高精細マップをまたいだ複雑な時空間関係を効果的にモデル化するために、Transformerベースの統一アーキテクチャを採用している。
さらに、V2XPnP Sequential Datasetを導入し、すべてのV2Xコラボレーションモードをサポートし、単一のフレームやシングルモードの協調に制限のある既存の実世界のデータセットの制限に対処する。
大規模な実験により、我々のフレームワークは認識タスクと予測タスクの両方において最先端の手法より優れていることを示した。
コードベースとデータセットは、将来のV2X研究を促進するためにリリースされる予定である。
関連論文リスト
- Multimodal joint prediction of traffic spatial-temporal data with graph sparse attention mechanism and bidirectional temporal convolutional network [25.524351892847257]
本稿では,二方向時間畳み込みネットワーク(GSABT)を用いたグラフスパース注意機構(Graph Sparse Attention Mechanism)を提案する。
自己注意重みを乗じて空間的局所的特徴を捉えるマルチモーダルグラフを用いて,空間的グローバルな特徴を得るためにTop-Uスパースアテンション機構を用いる。
我々は空間次元と時間次元の両方に柔軟に拡張できる多モード共同予測フレームワークを設計した。
論文 参考訳(メタデータ) (2024-12-24T12:57:52Z) - DeepInteraction++: Multi-Modality Interaction for Autonomous Driving [80.8837864849534]
我々は,モダリティごとの個別表現を学習し,維持することのできる,新しいモダリティインタラクション戦略を導入する。
DeepInteraction++はマルチモーダルなインタラクション・フレームワークであり、マルチモーダルな表現型インタラクション・エンコーダとマルチモーダルな予測型インタラクション・デコーダを特徴とする。
実験では,3次元物体検出とエンドツーエンドの自律走行の両方において,提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-09T14:04:21Z) - Conformal Trajectory Prediction with Multi-View Data Integration in Cooperative Driving [4.628774934971078]
軌道予測に関する現在の研究は、主にエゴ車両の搭載センサーによって収集されたデータに依存している。
V2INetは、既存の単一ビューモデルを拡張することで、マルチビューデータをモデル化するための新しい軌道予測フレームワークである。
以上の結果から,FDE(Final Displacement Error)とMR(Miss Rate)において,単一GPUを用いた優れた性能を示した。
論文 参考訳(メタデータ) (2024-08-01T08:32:03Z) - AccidentBlip: Agent of Accident Warning based on MA-former [24.81148840857782]
AccidentBlipは視覚のみのフレームワークで、ビデオの各フレームを処理するために自設計のMotion Accident Transformer(MA-former)を使用している。
AccidentBlipは、DeepAccidentデータセット上の事故検出と予測タスクの両方のパフォーマンスを達成する。
また、V2VおよびV2Xシナリオにおける現在のSOTAメソッドよりも優れており、複雑な現実世界環境を理解するのに優れた能力を示している。
論文 参考訳(メタデータ) (2024-04-18T12:54:25Z) - Practical Collaborative Perception: A Framework for Asynchronous and
Multi-Agent 3D Object Detection [9.967263440745432]
咬合は、LiDARベースのオブジェクト検出方法において大きな課題である。
最先端のV2X手法は、中間協調手法を用いて性能帯域幅のトレードオフを解消する。
我々は,従来の方法よりも帯域幅と性能のトレードオフを向上する,シンプルで効果的な協調手法を考案した。
論文 参考訳(メタデータ) (2023-07-04T03:49:42Z) - V2X-ViT: Vehicle-to-Everything Cooperative Perception with Vision
Transformer [58.71845618090022]
我々は、道路上のエージェント間で情報を融合するために、V2X-ViTという全体論的アテンションモデルを構築した。
V2X-ViTは異質なマルチエージェント自己アテンションとマルチスケールウィンドウ自己アテンションの交互層から構成される。
我々のアプローチを検証するために、我々は大規模なV2X知覚データセットを作成します。
論文 参考訳(メタデータ) (2022-03-20T20:18:25Z) - Full-Duplex Strategy for Video Object Segmentation [141.43983376262815]
Full- Strategy Network (FSNet)はビデオオブジェクトセグメンテーション(VOS)のための新しいフレームワークである
我々のFSNetは、融合復号ステージの前に、クロスモーダルな機能パス(すなわち、送信と受信)を同時に実行します。
我々のFSNetは、VOSとビデオの有能なオブジェクト検出タスクの両方において、他の最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-06T14:50:50Z) - End-to-end Contextual Perception and Prediction with Interaction
Transformer [79.14001602890417]
我々は3次元物体の検出と将来の動きを自動運転の文脈で予測する問題に取り組む。
空間的・時間的依存関係を捉えるために,新しいトランスフォーマーアーキテクチャを用いたリカレントニューラルネットワークを提案する。
私たちのモデルはエンドツーエンドでトレーニングでき、リアルタイムで実行されます。
論文 参考訳(メタデータ) (2020-08-13T14:30:12Z) - A Spatial-Temporal Attentive Network with Spatial Continuity for
Trajectory Prediction [74.00750936752418]
空間連続性をもつ空間時間減衰ネットワーク(STAN-SC)という新しいモデルを提案する。
まず、最も有用かつ重要な情報を探るために、空間的時間的注意機構を提示する。
第2に、生成軌道の空間的連続性を維持するために、シーケンスと瞬間状態情報に基づく共同特徴系列を実行する。
論文 参考訳(メタデータ) (2020-03-13T04:35:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。