論文の概要: SDVRF: Sparse-to-Dense Voxel Region Fusion for Multi-modal 3D Object
Detection
- arxiv url: http://arxiv.org/abs/2304.08304v3
- Date: Sun, 17 Sep 2023 09:22:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-20 00:08:54.448667
- Title: SDVRF: Sparse-to-Dense Voxel Region Fusion for Multi-modal 3D Object
Detection
- Title(参考訳): SDVRF:マルチモーダル3次元物体検出のための低密度Voxel領域融合
- Authors: Binglu Ren and Jianqin Yin
- Abstract要約: 本稿では,各ボクセルの局所点雲を動的に投影することで得られる新しい概念であるVoxel Region(VR)を提案する。
Sparse-to-Dense Voxel Region Fusion (SDVRF) という新しい融合法を提案する。
具体的には、VR内の画像特徴マップの画素数を増やして、スパースポイントから抽出されたボクセル特徴を補い、より密接な融合を実現する。
- 参考スコア(独自算出の注目度): 6.490564374810672
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the perception task of autonomous driving, multi-modal methods have become
a trend due to the complementary characteristics of LiDAR point clouds and
image data. However, the performance of multi-modal methods is usually limited
by the sparsity of the point cloud or the noise problem caused by the
misalignment between LiDAR and the camera. To solve these two problems, we
present a new concept, Voxel Region (VR), which is obtained by projecting the
sparse local point clouds in each voxel dynamically. And we propose a novel
fusion method named Sparse-to-Dense Voxel Region Fusion (SDVRF). Specifically,
more pixels of the image feature map inside the VR are gathered to supplement
the voxel feature extracted from sparse points and achieve denser fusion.
Meanwhile, different from prior methods, which project the size-fixed grids,
our strategy of generating dynamic regions achieves better alignment and avoids
introducing too much background noise. Furthermore, we propose a multi-scale
fusion framework to extract more contextual information and capture the
features of objects of different sizes. Experiments on the KITTI dataset show
that our method improves the performance of different baselines, especially on
classes of small size, including Pedestrian and Cyclist.
- Abstract(参考訳): 自律運転の認識タスクでは,LiDAR点雲と画像データの相補的特徴から,マルチモーダル手法がトレンドとなっている。
しかし、マルチモーダル法の性能は、通常、点雲の間隔や、LiDARとカメラのミスアライメントに起因するノイズの問題によって制限される。
これら2つの問題を解決するために,各ボクセルの局所点雲を動的に投影することで得られるVoxel Region(VR)という概念を提案する。
また,Sparse-to-Dense Voxel Region Fusion (SDVRF) という新しい融合法を提案する。
具体的には、VR内の画像特徴マップの画素数を増やして、スパースポイントから抽出されたボクセル特徴を補い、より密接な融合を実現する。
一方、サイズを固定したグリッドを投影する従来の方法とは異なり、動的領域を生成するという我々の戦略は、アライメントが良くなり、バックグラウンドノイズが多すぎることを避ける。
さらに,より文脈的な情報を抽出し,異なる大きさのオブジェクトの特徴を捉えるマルチスケール融合フレームワークを提案する。
KITTIデータセットを用いた実験により,提案手法は,特にペデストリアンやサイクリストなど小型のクラスにおいて,異なるベースラインの性能を向上させることが示された。
関連論文リスト
- Mutual-Guided Dynamic Network for Image Fusion [51.615598671899335]
画像融合のための新しい相互誘導動的ネットワーク(MGDN)を提案する。
5つのベンチマークデータセットによる実験結果から,提案手法は4つの画像融合タスクにおいて既存手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-08-24T03:50:37Z) - Homogeneous Multi-modal Feature Fusion and Interaction for 3D Object
Detection [16.198358858773258]
マルチモーダル3D物体検出は、自律運転において活発な研究課題となっている。
スパース3D点と高密度2Dピクセルの相互特徴融合を探索するのは簡単ではない。
最近のアプローチでは、画像特徴と2次元画像平面に投影される点雲の特徴を融合させるか、スパース点雲と高密度画像画素を組み合わせるかのどちらかである。
論文 参考訳(メタデータ) (2022-10-18T06:15:56Z) - FFPA-Net: Efficient Feature Fusion with Projection Awareness for 3D
Object Detection [19.419030878019974]
構造化されていない3D点雲は2D平面に充填され、3D点雲はプロジェクション対応の畳み込み層を用いて高速に抽出される。
データ前処理において、異なるセンサ信号間の対応するインデックスを予め設定する。
2つの新しいプラグアンドプレイ融合モジュールLiCamFuseとBiLiCamFuseが提案されている。
論文 参考訳(メタデータ) (2022-09-15T16:13:19Z) - Unifying Voxel-based Representation with Transformer for 3D Object
Detection [143.91910747605107]
マルチモード3Dオブジェクト検出のための統一フレームワークUVTRを提案する。
提案手法は, ボクセル空間におけるマルチモーダリティ表現を統一し, 高精度かつ堅牢な単一モード・クロスモーダリティ3D検出を実現することを目的とする。
UVTRは、69.7%、55.1%、71.1%のNDSで、それぞれLiDAR、カメラ、マルチモダリティの入力を行う。
論文 参考訳(メタデータ) (2022-06-01T17:02:40Z) - Voxel Field Fusion for 3D Object Detection [140.6941303279114]
本稿では,3次元オブジェクト検出のための概念的にシンプルなフレームワークであるvoxel field fusionを提案する。
提案手法は, ボクセル領域における画像特徴を線として表現し, 融合することにより, モダリティの整合性を維持することを目的としている。
このフレームワークは、さまざまなベンチマークで一貫したゲインを達成し、KITTIとnuScenesデータセットでの従来のフュージョンベースのメソッドを上回っている。
論文 参考訳(メタデータ) (2022-05-31T16:31:36Z) - VPFNet: Voxel-Pixel Fusion Network for Multi-class 3D Object Detection [5.12292602924464]
本稿では,Voxel-Pixel Fusion Network (VPFNet) という,核融合に基づく3次元物体検出ネットワークを提案する。
提案手法は,マルチレベル難易度下でのマルチクラス3Dオブジェクト検出タスクに対して,KITTIベンチマークを用いて評価する。
平均平均精度(mAP)において、すべての最先端手法より優れていることを示す。
論文 参考訳(メタデータ) (2021-11-01T14:17:09Z) - DeepMultiCap: Performance Capture of Multiple Characters Using Sparse
Multiview Cameras [63.186486240525554]
deep multicapは、スパースマルチビューカメラを用いたマルチパーソンパフォーマンスキャプチャのための新しい手法である。
本手法では,事前走査型テンプレートモデルを用いることなく,時間変化した表面の詳細をキャプチャできる。
論文 参考訳(メタデータ) (2021-05-01T14:32:13Z) - RPVNet: A Deep and Efficient Range-Point-Voxel Fusion Network for LiDAR
Point Cloud Segmentation [28.494690309193068]
RPVNetと呼ばれる、新しいレンジポイント・ボクセル融合ネットワークを提案する。
このネットワークでは,これら3つの視点を相互に相互に相互作用する深層融合フレームワークを考案する。
この効率的な相互作用と比較的低いボクセル解像度を利用することで、より効率的であることが証明された。
論文 参考訳(メタデータ) (2021-03-24T04:24:12Z) - Volumetric Propagation Network: Stereo-LiDAR Fusion for Long-Range Depth
Estimation [81.08111209632501]
長距離深度推定のための幾何認識型ステレオLiDAR融合ネットワークを提案する。
ステレオ画像の対応を統一した3Dボリューム空間で導くためのキューとして、スパースで正確な点群を活用します。
我々のネットワークは,KITTIおよびVirtual-KITTIデータセット上での最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-03-24T03:24:46Z) - Reconfigurable Voxels: A New Representation for LiDAR-Based Point Clouds [76.52448276587707]
本稿では,3次元点群から表現を構成する新しい手法であるReconfigurable Voxelsを提案する。
具体的には,各地区を一定数のボクセルで適応的にカバーするランダムウォーク方式を考案する。
この手法は,特に疎水領域において,ボクセル特性の安定性を効果的に向上することがわかった。
論文 参考訳(メタデータ) (2020-04-06T15:07:16Z) - MNEW: Multi-domain Neighborhood Embedding and Weighting for Sparse Point
Clouds Segmentation [1.2380933178502298]
マルチドメインの近傍埋め込みや,その幾何学的距離,特徴的類似度,周辺空間の疎度に基づく注意重み付けなどを含むMNEWを提案する。
MNEWは、LiDARベースの自動運転認識の適用において重要であるスパースポイントクラウドの最高性能を達成する。
論文 参考訳(メタデータ) (2020-04-05T18:02:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。