Fugu-MT 論文翻訳(概要): V2XPnP: Vehicle-to-Everything Spatio-Temporal Fusion for Multi-Agent Perception and Prediction

論文の概要: V2XPnP: Vehicle-to-Everything Spatio-Temporal Fusion for Multi-Agent Perception and Prediction

arxiv url: http://arxiv.org/abs/2412.01812v2
Date: Thu, 13 Mar 2025 23:42:25 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-17 15:33:20.358535
Title: V2XPnP: Vehicle-to-Everything Spatio-Temporal Fusion for Multi-Agent Perception and Prediction
Title（参考訳）: V2XPnP:マルチエージェント・パーセプションと予測のための車両間時空間融合
Authors: Zewei Zhou, Hao Xiang, Zhaoliang Zheng, Seth Z. Zhao, Mingyue Lei, Yun Zhang, Tianhui Cai, Xinyi Liu, Johnson Liu, Maheswari Bajji, Xin Xia, Zhiyu Huang, Bolei Zhou, Jiaqi Ma,
Abstract要約: 車間通信(V2X)技術は、単一車両システムにおける可観測性を制限するための有望なパラダイムを提供する。以前の研究は主に、異なる場所の情報を融合するが、時間的・時間的手がかりを無視する単一フレーム協調認識に焦点を当てていた。本稿では,1段階,複数段階の通信戦略(送信時)に着目し,その統合を3つの融合戦略で検討する。
参考スコア（独自算出の注目度）: 44.40410127660706
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Vehicle-to-everything (V2X) technologies offer a promising paradigm to mitigate the limitations of constrained observability in single-vehicle systems. Prior work primarily focuses on single-frame cooperative perception, which fuses agents' information across different spatial locations but ignores temporal cues and temporal tasks (e.g., temporal perception and prediction). In this paper, we focus on the spatio-temporal fusion in V2X scenarios and design one-step and multi-step communication strategies (when to transmit) as well as examine their integration with three fusion strategies - early, late, and intermediate (what to transmit), providing comprehensive benchmarks with 11 fusion models (how to fuse). Furthermore, we propose V2XPnP, a novel intermediate fusion framework within one-step communication for end-to-end perception and prediction. Our framework employs a unified Transformer-based architecture to effectively model complex spatio-temporal relationships across multiple agents, frames, and high-definition map. Moreover, we introduce the V2XPnP Sequential Dataset that supports all V2X collaboration modes and addresses the limitations of existing real-world datasets, which are restricted to single-frame or single-mode cooperation. Extensive experiments demonstrate our framework outperforms state-of-the-art methods in both perception and prediction tasks. The codebase and dataset will be released to facilitate future V2X research.
Abstract（参考訳）: V2X(Valby-to-everything)技術は、単一車両システムにおける制約された可観測性の制限を緩和する、有望なパラダイムを提供する。従来の作業は、エージェントの情報を異なる空間的場所にわたって融合する単一フレーム協調的知覚に重点を置いていたが、時間的手がかりや時間的タスク(時間的知覚や予測など)を無視している。本稿では、V2Xシナリオにおける時空間融合に着目し、一段階・多段階通信戦略(送信時)を設計するとともに、3つの融合戦略(早期・後期・中間(送信時))との統合を検証し、11の融合モデルを用いた総合的なベンチマーク(融合方法)を提供する。さらに,エンド・ツー・エンドの知覚と予測のためのワンステップ通信における新たな中間融合フレームワークであるV2XPnPを提案する。我々のフレームワークは、複数のエージェント、フレーム、高精細マップをまたいだ複雑な時空間関係を効果的にモデル化するために、Transformerベースの統一アーキテクチャを採用している。さらに、V2XPnP Sequential Datasetを導入し、すべてのV2Xコラボレーションモードをサポートし、単一のフレームやシングルモードの協調に制限のある既存の実世界のデータセットの制限に対処する。大規模な実験により、我々のフレームワークは認識タスクと予測タスクの両方において最先端の手法より優れていることを示した。コードベースとデータセットは、将来のV2X研究を促進するためにリリースされる予定である。

関連論文リスト

Research Challenges and Progress in the End-to-End V2X Cooperative Autonomous Driving Competition [57.698383942708]
車両間通信(V2X)は、知覚範囲を拡大し運転安全性を高めるための重要な手段となっている。我々は,協調的時間知覚と協調的エンドツーエンド計画という2つのトラックを特徴とする,V2X協力によるエンドツーエンド自律運転を組織した。本稿では,バンド幅認識融合,堅牢なマルチエージェント計画,異種センサ統合といった重要な研究課題を取り上げ,課題の設計と成果について述べる。
論文参考訳（メタデータ） (2025-07-29T09:06:40Z)
V2X-ReaLO: An Open Online Framework and Dataset for Cooperative Perception in Reality [13.68645389910716]
V2X-ReaLOは,実車およびスマートインフラストラクチャ上にデプロイされたオープンオンライン協調認識フレームワークである。本稿では,オンライン協調認識システムの性能を評価するために,オープンなベンチマークデータセットを提案する。
論文参考訳（メタデータ） (2025-03-13T04:31:20Z)
Co-MTP: A Cooperative Trajectory Prediction Framework with Multi-Temporal Fusion for Autonomous Driving [16.479343520119073]
Co-MTPは、自律運転のための多時間融合を伴う一般的な協調軌道予測フレームワークである。将来の領域では、V2Xは周囲の物体の予測結果を提供することができる。実世界のデータセットV2X-Seq上でのCo-MTPフレームワークの評価を行った。
論文参考訳（メタデータ） (2025-02-23T14:38:13Z)
WHALES: A Multi-agent Scheduling Dataset for Enhanced Cooperation in Autonomous Driving [13.290191462007668]
We present WHALES, a first large-scale V2X dataset designed for benchmark communication-aware agent scheduling and scalable collaborative perception。 WHALESは、シーン当たり平均8.4の協調エージェントと、さまざまなトラフィックシナリオにまたがる2.01百万の注釈付き3Dオブジェクトを備えた、最先端のSOTA(State-of-the-art)標準を確立している。そこで本研究では,歴史的視点に基づくエージェントの優先順位付けを行う新しいスケジューリングベースラインであるCoverage-Aware Historical Scheduler(CAHS)を提案する。
論文参考訳（メタデータ） (2024-11-20T14:12:34Z)
DeepInteraction++: Multi-Modality Interaction for Autonomous Driving [80.8837864849534]
我々は,モダリティごとの個別表現を学習し,維持することのできる,新しいモダリティインタラクション戦略を導入する。 DeepInteraction++はマルチモーダルなインタラクション・フレームワークであり、マルチモーダルな表現型インタラクション・エンコーダとマルチモーダルな予測型インタラクション・デコーダを特徴とする。実験では,3次元物体検出とエンドツーエンドの自律走行の両方において,提案手法の優れた性能を示す。
論文参考訳（メタデータ） (2024-08-09T14:04:21Z)
Conformal Trajectory Prediction with Multi-View Data Integration in Cooperative Driving [4.628774934971078]
軌道予測に関する現在の研究は、主にエゴ車両の搭載センサーによって収集されたデータに依存している。 V2INetは、既存の単一ビューモデルを拡張することで、マルチビューデータをモデル化するための新しい軌道予測フレームワークである。以上の結果から,FDE(Final Displacement Error)とMR(Miss Rate)において,単一GPUを用いた優れた性能を示した。
論文参考訳（メタデータ） (2024-08-01T08:32:03Z)
AccidentBlip: Agent of Accident Warning based on MA-former [24.81148840857782]
AccidentBlipは視覚のみのフレームワークで、ビデオの各フレームを処理するために自設計のMotion Accident Transformer(MA-former)を使用している。 AccidentBlipは、DeepAccidentデータセット上の事故検出と予測タスクの両方のパフォーマンスを達成する。また、V2VおよびV2Xシナリオにおける現在のSOTAメソッドよりも優れており、複雑な現実世界環境を理解するのに優れた能力を示している。
論文参考訳（メタデータ） (2024-04-18T12:54:25Z)
Mutual Information-driven Triple Interaction Network for Efficient Image Dehazing [54.168567276280505]
画像デハージングのための相互情報駆動型トリプルインタラクションネットワーク(MITNet)を提案する。振幅誘導ヘイズ除去と呼ばれる第1段階は、ヘイズ除去のためのヘイズ画像の振幅スペクトルを復元することを目的としている。第2段階は位相誘導構造が洗練され、位相スペクトルの変換と微細化を学ぶことに尽力した。
論文参考訳（メタデータ） (2023-08-14T08:23:58Z)
Practical Collaborative Perception: A Framework for Asynchronous and Multi-Agent 3D Object Detection [9.967263440745432]
咬合は、LiDARベースのオブジェクト検出方法において大きな課題である。最先端のV2X手法は、中間協調手法を用いて性能帯域幅のトレードオフを解消する。我々は,従来の方法よりも帯域幅と性能のトレードオフを向上する,シンプルで効果的な協調手法を考案した。
論文参考訳（メタデータ） (2023-07-04T03:49:42Z)
V2X-ViT: Vehicle-to-Everything Cooperative Perception with Vision Transformer [58.71845618090022]
我々は、道路上のエージェント間で情報を融合するために、V2X-ViTという全体論的アテンションモデルを構築した。 V2X-ViTは異質なマルチエージェント自己アテンションとマルチスケールウィンドウ自己アテンションの交互層から構成される。我々のアプローチを検証するために、我々は大規模なV2X知覚データセットを作成します。
論文参考訳（メタデータ） (2022-03-20T20:18:25Z)
Full-Duplex Strategy for Video Object Segmentation [141.43983376262815]
Full- Strategy Network (FSNet)はビデオオブジェクトセグメンテーション(VOS)のための新しいフレームワークである我々のFSNetは、融合復号ステージの前に、クロスモーダルな機能パス(すなわち、送信と受信)を同時に実行します。我々のFSNetは、VOSとビデオの有能なオブジェクト検出タスクの両方において、他の最先端技術よりも優れていることを示す。
論文参考訳（メタデータ） (2021-08-06T14:50:50Z)
A Spatial-Temporal Attentive Network with Spatial Continuity for Trajectory Prediction [74.00750936752418]
空間連続性をもつ空間時間減衰ネットワーク(STAN-SC)という新しいモデルを提案する。まず、最も有用かつ重要な情報を探るために、空間的時間的注意機構を提示する。第2に、生成軌道の空間的連続性を維持するために、シーケンスと瞬間状態情報に基づく共同特徴系列を実行する。
論文参考訳（メタデータ） (2020-03-13T04:35:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。