論文の概要: CooPre: Cooperative Pretraining for V2X Cooperative Perception
- arxiv url: http://arxiv.org/abs/2408.11241v1
- Date: Tue, 20 Aug 2024 23:39:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-22 18:58:50.488052
- Title: CooPre: Cooperative Pretraining for V2X Cooperative Perception
- Title(参考訳): CooPre: V2X協調知覚のための協調的事前訓練
- Authors: Seth Z. Zhao, Hao Xiang, Chenfeng Xu, Xin Xia, Bolei Zhou, Jiaqi Ma,
- Abstract要約: 本稿では,V2X協調認識のための自己教師付き学習手法を提案する。
膨大な量のラベルのない3D V2Xデータを用いて知覚性能を向上させる。
- 参考スコア(独自算出の注目度): 47.00472259100765
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing Vehicle-to-Everything (V2X) cooperative perception methods rely on accurate multi-agent 3D annotations. Nevertheless, it is time-consuming and expensive to collect and annotate real-world data, especially for V2X systems. In this paper, we present a self-supervised learning method for V2X cooperative perception, which utilizes the vast amount of unlabeled 3D V2X data to enhance the perception performance. Beyond simply extending the previous pre-training methods for point-cloud representation learning, we introduce a novel self-supervised Cooperative Pretraining framework (termed as CooPre) customized for a collaborative scenario. We point out that cooperative point-cloud sensing compensates for information loss among agents. This motivates us to design a novel proxy task for the 3D encoder to reconstruct LiDAR point clouds across different agents. Besides, we develop a V2X bird-eye-view (BEV) guided masking strategy which effectively allows the model to pay attention to 3D features across heterogeneous V2X agents (i.e., vehicles and infrastructure) in the BEV space. Noticeably, such a masking strategy effectively pretrains the 3D encoder and is compatible with mainstream cooperative perception backbones. Our approach, validated through extensive experiments on representative datasets (i.e., V2X-Real, V2V4Real, and OPV2V), leads to a performance boost across all V2X settings. Additionally, we demonstrate the framework's improvements in cross-domain transferability, data efficiency, and robustness under challenging scenarios. The code will be made publicly available.
- Abstract(参考訳): 既存のV2Xの協調認識手法は、正確なマルチエージェント3Dアノテーションに依存している。
それでも、特にV2Xシステムにおいて、実際のデータの収集と注釈作成には時間がかかり、費用がかかる。
本稿では,膨大な量のラベルのない3D V2Xデータを用いて,V2X協調認識のための自己教師型学習手法を提案する。
従来のポイントクラウド表現学習の事前学習手法を単に拡張するだけでなく、協調シナリオ用にカスタマイズされた新しい自己教師型協調事前学習フレームワーク(CooPreと略す)を導入する。
協調的な点クラウドセンシングはエージェント間の情報損失を補うことを指摘している。
これにより、3Dエンコーダのための新しいプロキシタスクを設計し、異なるエージェント間でLiDARポイントクラウドを再構築する動機付けになります。
さらに、BEV空間における異種V2Xエージェント(車とインフラ)間の3D特徴に効果的に注意を払っているV2Xバードアイビュー(BEV)ガイドマスキング戦略を開発した。
このようなマスキング戦略は、3Dエンコーダを効果的に事前訓練し、主要な協調認識バックボーンと互換性がある。
我々のアプローチは、代表データセット(V2X-Real、V2V4Real、OPV2V)に関する広範な実験を通じて検証され、すべてのV2X設定のパフォーマンスが向上する。
さらに、挑戦的なシナリオ下で、クロスドメイン転送可能性、データ効率、堅牢性におけるフレームワークの改善を実演する。
コードは公開されます。
関連論文リスト
- LiOn-XA: Unsupervised Domain Adaptation via LiDAR-Only Cross-Modal Adversarial Training [61.26381389532653]
LiOn-XAは、LiDAR-Only Cross-Modal (X)学習と3D LiDARポイントクラウドセマンティックセマンティックセグメンテーションのためのAdversarial Trainingを組み合わせた、教師なしドメイン適応(UDA)アプローチである。
3つの現実的適応シナリオに関する実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2024-10-21T09:50:17Z) - UVCPNet: A UAV-Vehicle Collaborative Perception Network for 3D Object Detection [11.60579201022641]
地上共同作業に特化して設計された枠組みを提案する。
研究のためにV2U-COOという仮想データセットを開発した。
第2に、ターゲット情報を調整するために、クロスドメイン・クロスアダプティブ(CDCA)モジュールを設計する。
第3に,より正確な深度推定結果を得るために,協調深度最適化(CDO)モジュールを導入する。
論文 参考訳(メタデータ) (2024-06-07T05:25:45Z) - End-to-End Autonomous Driving through V2X Cooperation [23.44597411612664]
先駆的な協調自動運転フレームワークUniV2Xを紹介する。
UniV2Xは様々なビューにまたがるすべてのキー駆動モジュールをシームレスに統合ネットワークに統合する。
論文 参考訳(メタデータ) (2024-03-31T15:22:11Z) - DI-V2X: Learning Domain-Invariant Representation for
Vehicle-Infrastructure Collaborative 3D Object Detection [78.09431523221458]
DI-V2Xは、新しい蒸留フレームワークを通じてドメイン不変表現を学習することを目的としている。
DI-V2Xは、ドメイン混合インスタンス拡張(DMA)モジュール、プログレッシブドメイン不変蒸留(PDD)モジュール、ドメイン適応融合(DAF)モジュールの3つの必須成分から構成される。
論文 参考訳(メタデータ) (2023-12-25T14:40:46Z) - Learning Cooperative Trajectory Representations for Motion Forecasting [4.380073528690906]
協調情報から動きと相互作用の特徴を利用するための予測指向表現パラダイムを提案する。
V2X-Graphは、協調動作予測のための解釈可能かつエンドツーエンドな特徴量融合を実現するための代表的なフレームワークである。
車両から全車まで(V2X)のシナリオを更に評価するため,V2X-Traj を用いたV2X運動予測データセットを構築した。
論文 参考訳(メタデータ) (2023-11-01T08:53:05Z) - FSD V2: Improving Fully Sparse 3D Object Detection with Virtual Voxels [57.05834683261658]
FSDv2は、手作りのインスタンスレベルの表現によって引き起こされる帰納バイアスを排除しつつ、以前のFSDv1を単純化することを目的とした進化である。
仮想ボクセルエンコーダ,仮想ボクセルミキサー,仮想ボクセル割り当て戦略など,仮想ボクセル概念を補完するコンポーネント群を開発した。
論文 参考訳(メタデータ) (2023-08-07T17:59:48Z) - V2V4Real: A Real-world Large-scale Dataset for Vehicle-to-Vehicle
Cooperative Perception [49.7212681947463]
車両から車両への協調認識システム(V2V)は、自動運転産業に革命をもたらす大きな可能性を秘めている。
V2V4Realは、V2V知覚のための世界初の大規模実世界のマルチモーダルデータセットである。
我々のデータセットは、20KのLiDARフレーム、40KのRGBフレーム、240Kの注釈付き5クラスの3Dバウンディングボックス、HDMapからなる410kmの走行領域をカバーしている。
論文 参考訳(メタデータ) (2023-03-14T02:49:20Z) - CoBEVT: Cooperative Bird's Eye View Semantic Segmentation with Sparse
Transformers [36.838065731893735]
CoBEVTは、BEVマップ予測を協調的に生成できる最初の汎用マルチエージェント認識フレームワークである。
CoBEVTは協調的BEVセマンティックセグメンテーションのための最先端性能を実現する。
論文 参考訳(メタデータ) (2022-07-05T17:59:28Z) - V2X-ViT: Vehicle-to-Everything Cooperative Perception with Vision
Transformer [58.71845618090022]
我々は、道路上のエージェント間で情報を融合するために、V2X-ViTという全体論的アテンションモデルを構築した。
V2X-ViTは異質なマルチエージェント自己アテンションとマルチスケールウィンドウ自己アテンションの交互層から構成される。
我々のアプローチを検証するために、我々は大規模なV2X知覚データセットを作成します。
論文 参考訳(メタデータ) (2022-03-20T20:18:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。