論文の概要: HeCoFuse: Cross-Modal Complementary V2X Cooperative Perception with Heterogeneous Sensors
- arxiv url: http://arxiv.org/abs/2507.13677v1
- Date: Fri, 18 Jul 2025 06:02:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-21 20:43:26.19655
- Title: HeCoFuse: Cross-Modal Complementary V2X Cooperative Perception with Heterogeneous Sensors
- Title(参考訳): HeCoFuse:異種センサを用いた相補的V2X協調知覚
- Authors: Chuheng Wei, Ziye Qin, Walter Zimmer, Guoyuan Wu, Matthew J. Barth,
- Abstract要約: HeCoFuseは、センサーの混在する協調認識のために設計された統合フレームワークである。
HeCoFuseは、クロスモダリティのフィーチャーアライメントや非バランスな表現品質といった重要な課題に取り組むことができる。
実際のTUMTraf-V2Xデータセットの実験では、HeCoFuseは43.22%の3D mAPを達成した。
- 参考スコア(独自算出の注目度): 10.154689913045447
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-world Vehicle-to-Everything (V2X) cooperative perception systems often operate under heterogeneous sensor configurations due to cost constraints and deployment variability across vehicles and infrastructure. This heterogeneity poses significant challenges for feature fusion and perception reliability. To address these issues, we propose HeCoFuse, a unified framework designed for cooperative perception across mixed sensor setups where nodes may carry Cameras (C), LiDARs (L), or both. By introducing a hierarchical fusion mechanism that adaptively weights features through a combination of channel-wise and spatial attention, HeCoFuse can tackle critical challenges such as cross-modality feature misalignment and imbalanced representation quality. In addition, an adaptive spatial resolution adjustment module is employed to balance computational cost and fusion effectiveness. To enhance robustness across different configurations, we further implement a cooperative learning strategy that dynamically adjusts fusion type based on available modalities. Experiments on the real-world TUMTraf-V2X dataset demonstrate that HeCoFuse achieves 43.22% 3D mAP under the full sensor configuration (LC+LC), outperforming the CoopDet3D baseline by 1.17%, and reaches an even higher 43.38% 3D mAP in the L+LC scenario, while maintaining 3D mAP in the range of 21.74% to 43.38% across nine heterogeneous sensor configurations. These results, validated by our first-place finish in the CVPR 2025 DriveX challenge, establish HeCoFuse as the current state-of-the-art on TUM-Traf V2X dataset while demonstrating robust performance across diverse sensor deployments.
- Abstract(参考訳): V2X(Real-world Vehicle-to-Everything)の協調認識システムは、コストの制約と車両やインフラ間の展開のばらつきにより、しばしば異質なセンサー構成の下で運用される。
この異質性は、特徴融合と知覚信頼性に重大な課題をもたらす。
これらの問題に対処するために、ノードがカメラ(C)、LiDAR(L)、あるいはその両方を運ぶことができる混合センサー装置間の協調認識を目的とした統合フレームワークHeCoFuseを提案する。
チャネルワイドと空間的注意の組み合わせによって特徴を適応的に重み付けする階層的融合機構を導入することで、HeCoFuseは、相互モダリティの特徴的不整合や不均衡表現品質といった重要な課題に取り組むことができる。
さらに、計算コストと融合効率のバランスをとるために適応的な空間分解能調整モジュールが使用される。
異なる構成間のロバスト性を高めるため、利用可能なモダリティに基づいて融合型を動的に調整する協調学習戦略をさらに実装する。
実世界のTUMTraf-V2Xデータセットの実験では、HeCoFuseはフルセンサー構成(LC+LC)の下で43.22%の3D mAPを達成し、CoopDet3Dベースラインを1.17%上回り、L+LCシナリオでは43.38%の3D mAPに達した。
これらの結果は、CVPR 2025 DriveXチャレンジの初回フィニッシュによって検証され、HeCoFuseを現在のTUM-Traf V2Xデータセットの最先端として確立するとともに、多様なセンサー展開における堅牢なパフォーマンスを実証しています。
関連論文リスト
- Research Challenges and Progress in the End-to-End V2X Cooperative Autonomous Driving Competition [57.698383942708]
車両間通信(V2X)は、知覚範囲を拡大し運転安全性を高めるための重要な手段となっている。
我々は,協調的時間知覚と協調的エンドツーエンド計画という2つのトラックを特徴とする,V2X協力によるエンドツーエンド自律運転を組織した。
本稿では,バンド幅認識融合,堅牢なマルチエージェント計画,異種センサ統合といった重要な研究課題を取り上げ,課題の設計と成果について述べる。
論文 参考訳(メタデータ) (2025-07-29T09:06:40Z) - Lightweight RGB-D Salient Object Detection from a Speed-Accuracy Tradeoff Perspective [54.91271106816616]
現在のRGB-D法は通常、大規模なバックボーンを利用して精度を向上させるが効率を犠牲にする。
本稿では,軽量RGB-D SODのためのSATNet(Speed-Accuracy Tradeoff Network)を提案する。
深度について,高品質の深度マップを生成するための深度任意のモデルを導入する。
モダリティ融合において,モダリティ間の整合性を検討するために,DAM(Decoupled Attention Module)を提案する。
特徴表現のために,双方向の反転フレームワークを用いたDIRM (Dual Information Representation Module) を開発した。
論文 参考訳(メタデータ) (2025-05-07T19:37:20Z) - FUSE: Label-Free Image-Event Joint Monocular Depth Estimation via Frequency-Decoupled Alignment and Degradation-Robust Fusion [63.87313550399871]
画像強調共同深度推定法は、頑健な知覚に相補的なモダリティを利用するが、一般化可能性の課題に直面している。
自己監督型転送(PST)と周波数デカップリング型フュージョンモジュール(FreDF)を提案する。
PSTは、画像基礎モデルと潜在空間アライメントによるクロスモーダルな知識伝達を確立する。
FreDFは、低周波構造成分から高周波エッジ特性を明示的に分離し、モード比周波数ミスマッチを解消する。
論文 参考訳(メタデータ) (2025-03-25T15:04:53Z) - Griffin: Aerial-Ground Cooperative Detection and Tracking Dataset and Benchmark [15.405137983083875]
航空と地上の協力は、UAVの空中視界と地上の車両の局部的な観測を統合することで、有望な解決策を提供する。
本稿では,3つの重要な貢献を通じて,地上3次元協調認識のための包括的ソリューションを提案する。
論文 参考訳(メタデータ) (2025-03-10T07:00:07Z) - RG-Attn: Radian Glue Attention for Multi-modality Multi-agent Cooperative Perception [12.90369816793173]
車間通信(V2X)は、単一エージェントシステムの知覚限界を克服する最適なソリューションを提供する。
PTP(Paint-To-Puzzle)とCo-Sketching-Co-Co(Co-Sketching-Co-Co)という2つの異なるアーキテクチャを提案する。
提案手法は,実・模擬協調認識データセット上でのSOTA(State-of-the-art)性能を実現する。
論文 参考訳(メタデータ) (2025-01-28T09:08:31Z) - AgentAlign: Misalignment-Adapted Multi-Agent Perception for Resilient Inter-Agent Sensor Correlations [8.916036880001734]
既存の研究は、マルチエージェント設定における脆弱なマルチセンサ相関を概観している。
AgentAlignは、現実世界の異種エージェントのクロスモダリティ機能アライメントフレームワークである。
多様な環境条件下での現実的なセンサの欠陥をシミュレートする新しいV2XSet-noiseデータセットを提案する。
論文 参考訳(メタデータ) (2024-12-09T01:51:18Z) - Divide-and-Conquer: Confluent Triple-Flow Network for RGB-T Salient Object Detection [70.84835546732738]
RGB-Thermal Salient Object Detectionは、目視と熱赤外画像のペア内の目立つ物体をピンポイントすることを目的としている。
従来のエンコーダ・デコーダアーキテクチャは、欠陥モードから生じるノイズに対する頑健さを十分に考慮していなかったかもしれない。
本稿では,Divide-and-Conquer戦略を用いた,堅牢なConfluent Triple-Flow NetworkであるConTriNetを提案する。
論文 参考訳(メタデータ) (2024-12-02T14:44:39Z) - S3TU-Net: Structured Convolution and Superpixel Transformer for Lung Nodule Segmentation [5.2752693301728355]
マルチ次元空間コネクタとスーパーピクセルベースの視覚変換器を統合したセグメンテーションモデルS3TU-Netを提案する。
S3TU-NetはマルチビューCNN-Transformerハイブリッドアーキテクチャ上に構築されており、スーパーピクセルアルゴリズム、構造化重み付け、空間シフト技術が組み込まれている。
LIDC-IDRIデータセットの実験結果は、S3TU-Netがそれぞれ89.04%、90.73%、90.70%のDSC、精度、IoUを達成したことを示している。
論文 参考訳(メタデータ) (2024-11-19T15:00:18Z) - CAFuser: Condition-Aware Multimodal Fusion for Robust Semantic Perception of Driving Scenes [56.52618054240197]
本研究では,運転シーンのロバストな意味認識のための条件対応型マルチモーダル融合手法を提案する。
CAFuserは、RGBカメラ入力を用いて環境条件を分類し、コンディショントークンを生成する。
我々のモデルは、特に悪条件シナリオにおいて、ロバスト性と精度を著しく向上させる。
論文 参考訳(メタデータ) (2024-10-14T17:56:20Z) - SiCP: Simultaneous Individual and Cooperative Perception for 3D Object Detection in Connected and Automated Vehicles [18.23919432049492]
連結車両と自動車両の協調認識は、伝統的に2台以上の車両の特徴マップの融合によって達成される。
この欠点は、車両資源が2つの知覚モデルを同時に使用するには不十分なため、協調的な知覚の採用を妨げる。
我々は、最先端のスタンドアロン認識バックボーンを幅広くサポートする汎用フレームワークである、同時個人協調知覚(SiCP)を提示する。
論文 参考訳(メタデータ) (2023-12-08T04:12:26Z) - V2X-ViT: Vehicle-to-Everything Cooperative Perception with Vision
Transformer [58.71845618090022]
我々は、道路上のエージェント間で情報を融合するために、V2X-ViTという全体論的アテンションモデルを構築した。
V2X-ViTは異質なマルチエージェント自己アテンションとマルチスケールウィンドウ自己アテンションの交互層から構成される。
我々のアプローチを検証するために、我々は大規模なV2X知覚データセットを作成します。
論文 参考訳(メタデータ) (2022-03-20T20:18:25Z) - Robust Self-Supervised LiDAR Odometry via Representative Structure
Discovery and 3D Inherent Error Modeling [67.75095378830694]
そこで我々は,2段階のオドメトリ推定ネットワークを構築し,一連の部分領域変換を推定してエゴモーメントを求める。
本稿では,トレーニング,推論,マッピングフェーズにおける信頼できない構造の影響を軽減することを目的とする。
我々の2フレームのオードメトリーは、翻訳/回転誤差の点で、過去の芸術の状態を16%/12%上回っている。
論文 参考訳(メタデータ) (2022-02-27T12:52:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。