論文の概要: End-to-End 3D Spatiotemporal Perception with Multimodal Fusion and V2X Collaboration
- arxiv url: http://arxiv.org/abs/2512.21831v1
- Date: Fri, 26 Dec 2025 02:20:22 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-29 12:02:21.058909
- Title: End-to-End 3D Spatiotemporal Perception with Multimodal Fusion and V2X Collaboration
- Title(参考訳): マルチモーダル核融合とV2Xによる3次元時空間知覚
- Authors: Zhenwei Yang, Yibo Ai, Weidong Zhang,
- Abstract要約: X-2V2Xは、v2xコラボレーションのためのマルチモーダルフューズされたエンドツーエンドフレームワークである。
共有表現内でのマルチビューマルチモーダルセンシングを統一する。
X-V2Xは複雑な交通シナリオにおいて頑健で時間的に安定した認識を実現する。
- 参考スコア(独自算出の注目度): 7.235781104512231
- License:
- Abstract: Multi-view cooperative perception and multimodal fusion are essential for reliable 3D spatiotemporal understanding in autonomous driving, especially under occlusions, limited viewpoints, and communication delays in V2X scenarios. This paper proposes XET-V2X, a multi-modal fused end-to-end tracking framework for v2x collaboration that unifies multi-view multimodal sensing within a shared spatiotemporal representation. To efficiently align heterogeneous viewpoints and modalities, XET-V2X introduces a dual-layer spatial cross-attention module based on multi-scale deformable attention. Multi-view image features are first aggregated to enhance semantic consistency, followed by point cloud fusion guided by the updated spatial queries, enabling effective cross-modal interaction while reducing computational overhead. Experiments on the real-world V2X-Seq-SPD dataset and the simulated V2X-Sim-V2V and V2X-Sim-V2I benchmarks demonstrate consistent improvements in detection and tracking performance under varying communication delays. Both quantitative results and qualitative visualizations indicate that XET-V2X achieves robust and temporally stable perception in complex traffic scenarios.
- Abstract(参考訳): 多視点協調認識とマルチモーダル融合は、特に閉塞、限られた視点、V2Xシナリオにおける通信遅延の下で、自律運転における信頼性の高い3次元時空間的理解に不可欠である。
本稿では、マルチビューマルチモーダルセンシングを共有時空間表現内で統合する、v2xコラボレーションのためのマルチモーダルフューズされたエンドツーエンド追跡フレームワークであるXET-V2Xを提案する。
XET-V2Xは、異種視点とモダリティを効率的に整合させるため、マルチスケールの変形可能な注意に基づく二重層空間横断モジュールを導入している。
マルチビュー画像の特徴は、まずセマンティック一貫性を高めるために集約され、次に、更新された空間クエリによって導かれる点雲融合により、計算オーバーヘッドを低減し、効果的な相互モーダル相互作用を可能にする。
実世界のV2X-Seq-SPDデータセットとシミュレーションされたV2X-Sim-V2VとV2X-Sim-V2Iベンチマークの実験は、様々な通信遅延の下で検出および追跡性能が一貫した改善を示した。
XET-V2Xは複雑な交通シナリオにおいて頑健かつ時間的に安定した認識を達成できることを示す。
関連論文リスト
- X-ReID: Multi-granularity Information Interaction for Video-Based Visible-Infrared Person Re-Identification [79.37768038337971]
本稿では,VVI-ReIDのためのX-ReIDという新しいクロスモーダル特徴学習フレームワークを提案する。
具体的には、まずクロスモダリティプロトタイプコラボレーション(CPC)を提案する。
次に, 隣接フレームからの短期的相互作用, 長期的クロスフレーム情報融合, クロスモダリティ特徴アライメントを組み込んだMII(Multi-granularity Information Interaction)を設計する。
論文 参考訳(メタデータ) (2025-11-22T07:57:15Z) - LargeAD: Large-Scale Cross-Sensor Data Pretraining for Autonomous Driving [88.85002707211777]
LargeADは多用途でスケーラブルなフレームワークで、さまざまな現実世界の運転データセットにわたる大規模3D事前トレーニング用に設計されている。
我々のフレームワークはVFMを利用して2次元画像から意味的にリッチなスーパーピクセルを抽出する。
このアライメントは、クロスモーダルな表現学習を促進し、2Dデータと3Dデータのセマンティック一貫性を高める。
論文 参考訳(メタデータ) (2025-01-07T18:59:59Z) - V2XPnP: Vehicle-to-Everything Spatio-Temporal Fusion for Multi-Agent Perception and Prediction [44.40410127660706]
V2X(Valby-to-everything)技術は、単一車両システムにおける制限された可観測性の制限を提供する。
我々は,1段階,複数段階の通信戦略(送信時)に焦点を当て,その統合を3つの融合戦略で検討する。
我々のフレームワークは、認識タスクと予測タスクの両方において最先端の手法より優れています。
論文 参考訳(メタデータ) (2024-12-02T18:55:34Z) - V2X-ViT: Vehicle-to-Everything Cooperative Perception with Vision
Transformer [58.71845618090022]
我々は、道路上のエージェント間で情報を融合するために、V2X-ViTという全体論的アテンションモデルを構築した。
V2X-ViTは異質なマルチエージェント自己アテンションとマルチスケールウィンドウ自己アテンションの交互層から構成される。
我々のアプローチを検証するために、我々は大規模なV2X知覚データセットを作成します。
論文 参考訳(メタデータ) (2022-03-20T20:18:25Z) - Full-Duplex Strategy for Video Object Segmentation [141.43983376262815]
Full- Strategy Network (FSNet)はビデオオブジェクトセグメンテーション(VOS)のための新しいフレームワークである
我々のFSNetは、融合復号ステージの前に、クロスモーダルな機能パス(すなわち、送信と受信)を同時に実行します。
我々のFSNetは、VOSとビデオの有能なオブジェクト検出タスクの両方において、他の最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-06T14:50:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。