論文の概要: MR3D-Net: Dynamic Multi-Resolution 3D Sparse Voxel Grid Fusion for LiDAR-Based Collective Perception
- arxiv url: http://arxiv.org/abs/2408.06137v1
- Date: Mon, 12 Aug 2024 13:27:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-13 14:15:41.020414
- Title: MR3D-Net: Dynamic Multi-Resolution 3D Sparse Voxel Grid Fusion for LiDAR-Based Collective Perception
- Title(参考訳): MR3D-Net:LiDARによる集団知覚のための動的マルチリゾリューション3Dスパースボクセルグリッドフュージョン
- Authors: Sven Teufel, Jörg Gamerdinger, Georg Volk, Oliver Bringmann,
- Abstract要約: MR3D-Netは,LiDARに基づく集団認識のための動的マルチレゾリューション3次元スパースボクセルグリッド融合バックボーンアーキテクチャである。
本研究では,様々な解像度の分散ボクセルグリッドが,通信帯域に適応できる有意義でコンパクトな環境表現を提供することを示す。
- 参考スコア(独自算出の注目度): 0.5714074111744111
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The safe operation of automated vehicles depends on their ability to perceive the environment comprehensively. However, occlusion, sensor range, and environmental factors limit their perception capabilities. To overcome these limitations, collective perception enables vehicles to exchange information. However, fusing this exchanged information is a challenging task. Early fusion approaches require large amounts of bandwidth, while intermediate fusion approaches face interchangeability issues. Late fusion of shared detections is currently the only feasible approach. However, it often results in inferior performance due to information loss. To address this issue, we propose MR3D-Net, a dynamic multi-resolution 3D sparse voxel grid fusion backbone architecture for LiDAR-based collective perception. We show that sparse voxel grids at varying resolutions provide a meaningful and compact environment representation that can adapt to the communication bandwidth. MR3D-Net achieves state-of-the-art performance on the OPV2V 3D object detection benchmark while reducing the required bandwidth by up to 94% compared to early fusion. Code is available at https://github.com/ekut-es/MR3D-Net
- Abstract(参考訳): 自動運転車の安全運転は、環境を包括的に知覚する能力に依存している。
しかし、閉塞、センサー範囲、環境要因は知覚能力を制限する。
これらの制限を克服するために、車両は情報を交換することができる。
しかし、この交換された情報を融合することは難しい課題である。
初期核融合法は大量の帯域を必要とするが、中間核融合法は交換可能性の問題に直面している。
共有検出の後期融合は、現在唯一実現可能なアプローチである。
しかし、情報損失により性能が低下することが多い。
この問題に対処するために, MR3D-Netを提案する。
本研究では,様々な解像度の分散ボクセルグリッドが,通信帯域に適応できる有意義でコンパクトな環境表現を提供することを示す。
MR3D-Net は OPV2V 3D オブジェクト検出ベンチマークの最先端性能を達成し、初期核融合と比較して必要な帯域幅を最大94%削減した。
コードはhttps://github.com/ekut-es/MR3D-Netで入手できる。
関連論文リスト
- HEAD: A Bandwidth-Efficient Cooperative Perception Approach for Heterogeneous Connected and Autonomous Vehicles [9.10239345027499]
HEADは3次元物体検出ネットワークにおける分類と回帰ヘッドの特徴を融合する手法である。
実験の結果,HEADは通信帯域幅と知覚性能を効果的にバランスさせる融合法であることがわかった。
論文 参考訳(メタデータ) (2024-08-27T22:05:44Z) - UniTR: A Unified and Efficient Multi-Modal Transformer for
Bird's-Eye-View Representation [113.35352122662752]
屋外3次元知覚のためのマルチモーダルバックボーンUniTRを提案する。
UniTRは、統一されたモデリングと共有パラメータで様々なモダリティを処理する。
UniTRは基本的にタスクに依存しないバックボーンであり、異なる3D知覚タスクを自然にサポートする。
論文 参考訳(メタデータ) (2023-08-15T12:13:44Z) - Multi-Modal 3D Object Detection by Box Matching [109.43430123791684]
マルチモーダル3次元検出のためのボックスマッチング(FBMNet)による新しいフュージョンネットワークを提案する。
3Dオブジェクトと2Dオブジェクトの提案を学習することで、ROI特徴を組み合わせることで、検出のための融合を効果的に行うことができる。
論文 参考訳(メタデータ) (2023-05-12T18:08:51Z) - MSF3DDETR: Multi-Sensor Fusion 3D Detection Transformer for Autonomous
Driving [0.0]
MSF3DDETR: 画像とLiDAR機能を融合して検出精度を向上させるマルチセンサフュージョン3D検出変換器アーキテクチャを提案する。
我々のエンドツーエンドのシングルステージ、アンカーフリー、NMSフリーネットワークは、マルチビューイメージとLiDARポイントクラウドを取り込み、3Dバウンディングボックスを予測する。
MSF3DDETRネットワークは、DeTRにインスパイアされたハンガリーのアルゴリズムに基づくバイパーティイトマッチングとセット・ツー・セット・ロスを使用して、nuScenesデータセット上でエンドツーエンドにトレーニングされている。
論文 参考訳(メタデータ) (2022-10-27T10:55:15Z) - EPNet++: Cascade Bi-directional Fusion for Multi-Modal 3D Object
Detection [56.03081616213012]
本稿では,新しいCasscade Bi-directional Fusion(CB-Fusion)モジュールを導入することで,マルチモーダル3Dオブジェクト検出のためのEPNet++を提案する。
提案したCB-Fusionモジュールは、カスケード双方向相互作用融合方式で画像特徴と点特徴の豊富な意味情報を高める。
KITTI、JRDB、SUN-RGBDデータセットの実験結果は、最先端の手法よりもEPNet++の方が優れていることを示している。
論文 参考訳(メタデータ) (2021-12-21T10:48:34Z) - Embracing Single Stride 3D Object Detector with Sparse Transformer [63.179720817019096]
自律走行のためのLiDARを用いた3次元物体検出では、物体サイズと入力シーンサイズとの比が2次元検出の場合に比べて有意に小さい。
多くの3D検出器は2D検出器の一般的な慣習に従っており、点雲の定量化後も特徴マップを分解する。
本稿では,SST(Single-stride Sparse Transformer)を提案する。
論文 参考訳(メタデータ) (2021-12-13T02:12:02Z) - Progressive Coordinate Transforms for Monocular 3D Object Detection [52.00071336733109]
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
論文 参考訳(メタデータ) (2021-08-12T15:22:33Z) - RPVNet: A Deep and Efficient Range-Point-Voxel Fusion Network for LiDAR
Point Cloud Segmentation [28.494690309193068]
RPVNetと呼ばれる、新しいレンジポイント・ボクセル融合ネットワークを提案する。
このネットワークでは,これら3つの視点を相互に相互に相互作用する深層融合フレームワークを考案する。
この効率的な相互作用と比較的低いボクセル解像度を利用することで、より効率的であることが証明された。
論文 参考訳(メタデータ) (2021-03-24T04:24:12Z) - Volumetric Propagation Network: Stereo-LiDAR Fusion for Long-Range Depth
Estimation [81.08111209632501]
長距離深度推定のための幾何認識型ステレオLiDAR融合ネットワークを提案する。
ステレオ画像の対応を統一した3Dボリューム空間で導くためのキューとして、スパースで正確な点群を活用します。
我々のネットワークは,KITTIおよびVirtual-KITTIデータセット上での最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-03-24T03:24:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。