論文の概要: SDVRF: Sparse-to-Dense Voxel Region Fusion for Multi-modal 3D Object
Detection
- arxiv url: http://arxiv.org/abs/2304.08304v1
- Date: Mon, 17 Apr 2023 14:17:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-18 15:01:24.669720
- Title: SDVRF: Sparse-to-Dense Voxel Region Fusion for Multi-modal 3D Object
Detection
- Title(参考訳): SDVRF:マルチモーダル3次元物体検出のための低密度Voxel領域融合
- Authors: Binglu Ren and Jianqin Yin
- Abstract要約: 本稿では,各ボクセルの局所点雲を動的に投影することで得られる新しい概念であるVoxel Region(VR)を提案する。
本稿では,Sparse-to-Dense Voxel Region Fusion (SDVRF) と呼ばれる新しい融合法を提案する。
- 参考スコア(独自算出の注目度): 4.24515544235173
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the perception task of autonomous driving, multi-modal methods have become
a trend due to the complementary characteristics of LiDAR point clouds and
image data. However, the performance of previous methods is usually limited by
the sparsity of the point cloud or the noise problem caused by the misalignment
between LiDAR and the camera. To solve these two problems, we present a new
concept, Voxel Region (VR), which is obtained by projecting the sparse local
point clouds in each voxel dynamically. And we propose a novel fusion method,
named Sparse-to-Dense Voxel Region Fusion (SDVRF). Specifically, more pixels of
the image feature map inside the VR are gathered to supplement the voxel
feature extracted from sparse points and achieve denser fusion. Meanwhile,
different from prior methods, which project the size-fixed grids, our strategy
of generating dynamic regions achieves better alignment and avoids introducing
too much background noise. Furthermore, we propose a multi-scale fusion
framework to extract more contextual information and capture the features of
objects of different sizes. Experiments on the KITTI dataset show that our
method improves the performance of different baselines, especially on classes
of small size, including Pedestrian and Cyclist.
- Abstract(参考訳): 自律運転の認識タスクでは,LiDAR点雲と画像データの相補的特徴から,マルチモーダル手法がトレンドとなっている。
しかし,従来の手法の性能は,通常点雲の間隔や,LiDARとカメラのミスアライメントに起因するノイズの問題によって制限される。
これら2つの問題を解決するために,各ボクセルの局所点雲を動的に投影することで得られるVoxel Region(VR)という概念を提案する。
そこで我々は,Sparse-to-Dense Voxel Region Fusion (SDVRF) という新しい融合法を提案する。
具体的には、VR内の画像特徴マップの画素数を増やして、スパースポイントから抽出されたボクセル特徴を補い、より密接な融合を実現する。
一方、サイズを固定したグリッドを投影する従来の方法とは異なり、動的領域を生成するという我々の戦略は、アライメントが良くなり、バックグラウンドノイズが多すぎることを避ける。
さらに,より文脈的な情報を抽出し,異なる大きさのオブジェクトの特徴を捉えるマルチスケール融合フレームワークを提案する。
KITTIデータセットを用いた実験により,提案手法は,特にペデストリアンやサイクリストなど小型のクラスにおいて,異なるベースラインの性能を向上させることが示された。
関連論文リスト
- A Global Depth-Range-Free Multi-View Stereo Transformer Network with Pose Embedding [76.44979557843367]
本稿では,事前の深度範囲を排除した新しい多視点ステレオ(MVS)フレームワークを提案する。
長距離コンテキスト情報を集約するMDA(Multi-view Disparity Attention)モジュールを導入する。
ソース画像のエピポーラ線上のサンプリング点に対応する電流画素の品質を明示的に推定する。
論文 参考訳(メタデータ) (2024-11-04T08:50:16Z) - Monocular Visual Place Recognition in LiDAR Maps via Cross-Modal State Space Model and Multi-View Matching [2.400446821380503]
我々はRGB画像とポイントクラウドの両方のディスクリプタを学習するための効率的なフレームワークを導入する。
視覚状態空間モデル(VMamba)をバックボーンとして、ピクセルビューとシーンの共同トレーニング戦略を採用している。
視覚的な3Dポイントオーバーラップ戦略は、マルチビューの監視のために、ポイントクラウドビューとRGBイメージの類似性を定量化するように設計されている。
論文 参考訳(メタデータ) (2024-10-08T18:31:41Z) - PVAFN: Point-Voxel Attention Fusion Network with Multi-Pooling Enhancing for 3D Object Detection [59.355022416218624]
点とボクセルの表現の統合は、LiDARベースの3Dオブジェクト検出においてより一般的になりつつある。
PVAFN(Point-Voxel Attention Fusion Network)と呼ばれる新しい2段3次元物体検出器を提案する。
PVAFNはマルチプール戦略を使用して、マルチスケールとリージョン固有の情報を効果的に統合する。
論文 参考訳(メタデータ) (2024-08-26T19:43:01Z) - Multi-view Aggregation Network for Dichotomous Image Segmentation [76.75904424539543]
Dichotomous Image (DIS) は近年,高解像度自然画像からの高精度物体分割に向けて出現している。
既存の手法は、グローバルなローカライゼーションと局所的な洗練を徐々に完了させるために、退屈な複数のエンコーダ・デコーダストリームとステージに依存している。
これに触発されて、我々は多視点オブジェクト認識問題としてdisをモデル化し、擬似多視点アグリゲーションネットワーク(MVANet)を提供する。
一般的なdis-5Kデータセットの実験では、我々のMVANetは精度と速度の両方で最先端の手法を大きく上回っている。
論文 参考訳(メタデータ) (2024-04-11T03:00:00Z) - VoxelNextFusion: A Simple, Unified and Effective Voxel Fusion Framework
for Multi-Modal 3D Object Detection [33.46363259200292]
既存のボクセル法は、1対1で濃密な画像特徴を持つスパース・ボクセル特徴を融合する際の課題に直面する。
本稿では,VoxelNextFusionについて述べる。VoxelNextFusionは,Voxelベースの手法に特化して設計されたマルチモーダル3Dオブジェクト検出フレームワークである。
論文 参考訳(メタデータ) (2024-01-05T08:10:49Z) - Mutual-Guided Dynamic Network for Image Fusion [51.615598671899335]
画像融合のための新しい相互誘導動的ネットワーク(MGDN)を提案する。
5つのベンチマークデータセットによる実験結果から,提案手法は4つの画像融合タスクにおいて既存手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-08-24T03:50:37Z) - PV-SSD: A Multi-Modal Point Cloud Feature Fusion Method for Projection Features and Variable Receptive Field Voxel Features [1.5338480419018068]
非常にスパースな3Dデータからのリアルタイム推論は、非常に難しい課題だ。
この問題に対処するため、典型的なアプローチのクラスは、点雲のキャストを正規のデータ表現に変換する。
本稿では,射影特徴と可変受容野ボクセル特徴に対するマルチモーダル点雲特徴融合法を提案する。
論文 参考訳(メタデータ) (2023-08-13T15:30:02Z) - Homogeneous Multi-modal Feature Fusion and Interaction for 3D Object
Detection [16.198358858773258]
マルチモーダル3D物体検出は、自律運転において活発な研究課題となっている。
スパース3D点と高密度2Dピクセルの相互特徴融合を探索するのは簡単ではない。
最近のアプローチでは、画像特徴と2次元画像平面に投影される点雲の特徴を融合させるか、スパース点雲と高密度画像画素を組み合わせるかのどちらかである。
論文 参考訳(メタデータ) (2022-10-18T06:15:56Z) - Unifying Voxel-based Representation with Transformer for 3D Object
Detection [143.91910747605107]
マルチモード3Dオブジェクト検出のための統一フレームワークUVTRを提案する。
提案手法は, ボクセル空間におけるマルチモーダリティ表現を統一し, 高精度かつ堅牢な単一モード・クロスモーダリティ3D検出を実現することを目的とする。
UVTRは、69.7%、55.1%、71.1%のNDSで、それぞれLiDAR、カメラ、マルチモダリティの入力を行う。
論文 参考訳(メタデータ) (2022-06-01T17:02:40Z) - VPFNet: Voxel-Pixel Fusion Network for Multi-class 3D Object Detection [5.12292602924464]
本稿では,Voxel-Pixel Fusion Network (VPFNet) という,核融合に基づく3次元物体検出ネットワークを提案する。
提案手法は,マルチレベル難易度下でのマルチクラス3Dオブジェクト検出タスクに対して,KITTIベンチマークを用いて評価する。
平均平均精度(mAP)において、すべての最先端手法より優れていることを示す。
論文 参考訳(メタデータ) (2021-11-01T14:17:09Z) - Volumetric Propagation Network: Stereo-LiDAR Fusion for Long-Range Depth
Estimation [81.08111209632501]
長距離深度推定のための幾何認識型ステレオLiDAR融合ネットワークを提案する。
ステレオ画像の対応を統一した3Dボリューム空間で導くためのキューとして、スパースで正確な点群を活用します。
我々のネットワークは,KITTIおよびVirtual-KITTIデータセット上での最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-03-24T03:24:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。