論文の概要: VPFNet: Voxel-Pixel Fusion Network for Multi-class 3D Object Detection
- arxiv url: http://arxiv.org/abs/2111.00966v1
- Date: Mon, 1 Nov 2021 14:17:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-02 13:27:37.780741
- Title: VPFNet: Voxel-Pixel Fusion Network for Multi-class 3D Object Detection
- Title(参考訳): vpfnet:マルチクラス3dオブジェクト検出のためのvoxel-pixel fusion network
- Authors: Chia-Hung Wang, Hsueh-Wei Chen, Li-Chen Fu
- Abstract要約: 本稿では,Voxel-Pixel Fusion Network (VPFNet) という,核融合に基づく3次元物体検出ネットワークを提案する。
提案手法は,マルチレベル難易度下でのマルチクラス3Dオブジェクト検出タスクに対して,KITTIベンチマークを用いて評価する。
平均平均精度(mAP)において、すべての最先端手法より優れていることを示す。
- 参考スコア(独自算出の注目度): 5.12292602924464
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many LiDAR-based methods for detecting large objects, single-class object
detection, or under easy situations were claimed to perform quite well.
However, their performances of detecting small objects or under hard situations
did not surpass those of the fusion-based ones due to failure to leverage the
image semantics. In order to elevate the detection performance in a complicated
environment, this paper proposes a deep learning (DL)-embedded fusion-based
multi-class 3D object detection network which admits both LiDAR and camera
sensor data streams, named Voxel-Pixel Fusion Network (VPFNet). Inside this
network, a key novel component is called Voxel-Pixel Fusion (VPF) layer, which
takes advantage of the geometric relation of a voxel-pixel pair and fuses the
voxel features and the pixel features with proper mechanisms. Moreover, several
parameters are particularly designed to guide and enhance the fusion effect
after considering the characteristics of a voxel-pixel pair. Finally, the
proposed method is evaluated on the KITTI benchmark for multi-class 3D object
detection task under multilevel difficulty, and is shown to outperform all
state-of-the-art methods in mean average precision (mAP). It is also noteworthy
that our approach here ranks the first on the KITTI leaderboard for the
challenging pedestrian class.
- Abstract(参考訳): 多くのLiDARを用いた大規模物体検出法、単一クラス物体検出法、あるいは簡単な状況下では、非常によく機能すると主張した。
しかし,イメージセマンティクスの活用に失敗したため,小型物体の検出や硬い状況下での性能は,融合ベースのものを超えなかった。
本稿では,複雑な環境下での検知性能を高めるために,LiDARとカメラセンサデータストリームを併用した深層学習(DL)組み込み核融合型3Dオブジェクト検出ネットワーク,Voxel-Pixel Fusion Network (VPFNet)を提案する。
このネットワーク内では、voxel-pixel fusion(vpf)層と呼ばれ、voxel-pixelペアの幾何学的関係を利用して、voxelの特徴とピクセルの特徴を適切なメカニズムで融合する。
さらに,voxel-pixel対の特性を考慮し,核融合効果を誘導・増強するために,いくつかのパラメータが特に設計されている。
提案手法は,マルチレベル難易度下でのマルチクラス3次元オブジェクト検出タスクのKITTIベンチマークで評価し,平均平均精度(mAP)ですべての最先端手法より優れていることを示す。
ここでの我々のアプローチは、挑戦的な歩行者クラスでKITTIのリーダーボードにランクインしている点も注目に値する。
関連論文リスト
- PVAFN: Point-Voxel Attention Fusion Network with Multi-Pooling Enhancing for 3D Object Detection [59.355022416218624]
点とボクセルの表現の統合は、LiDARベースの3Dオブジェクト検出においてより一般的になりつつある。
PVAFN(Point-Voxel Attention Fusion Network)と呼ばれる新しい2段3次元物体検出器を提案する。
PVAFNはマルチプール戦略を使用して、マルチスケールとリージョン固有の情報を効果的に統合する。
論文 参考訳(メタデータ) (2024-08-26T19:43:01Z) - VoxelNextFusion: A Simple, Unified and Effective Voxel Fusion Framework
for Multi-Modal 3D Object Detection [33.46363259200292]
既存のボクセル法は、1対1で濃密な画像特徴を持つスパース・ボクセル特徴を融合する際の課題に直面する。
本稿では,VoxelNextFusionについて述べる。VoxelNextFusionは,Voxelベースの手法に特化して設計されたマルチモーダル3Dオブジェクト検出フレームワークである。
論文 参考訳(メタデータ) (2024-01-05T08:10:49Z) - VirtualPainting: Addressing Sparsity with Virtual Points and
Distance-Aware Data Augmentation for 3D Object Detection [3.5259183508202976]
本稿では,カメラ画像を用いた仮想LiDAR点の生成を含む革新的なアプローチを提案する。
また、画像ベースセグメンテーションネットワークから得られる意味ラベルを用いて、これらの仮想点を強化する。
このアプローチは、様々な3Dフレームワークと2Dセマンティックセグメンテーションメソッドにシームレスに統合できる汎用的なソリューションを提供する。
論文 参考訳(メタデータ) (2023-12-26T18:03:05Z) - FusionViT: Hierarchical 3D Object Detection via LiDAR-Camera Vision
Transformer Fusion [8.168523242105763]
本稿では,新しい視覚変換器を用いた3次元物体検出モデルFusionViTを紹介する。
我々のFusionViTモデルは最先端の性能を達成でき、既存のベースライン法より優れています。
論文 参考訳(メタデータ) (2023-11-07T00:12:01Z) - MLF-DET: Multi-Level Fusion for Cross-Modal 3D Object Detection [54.52102265418295]
MLF-DETと呼ばれる,高性能なクロスモーダル3DオブジェクトDrectionのための,新規かつ効果的なマルチレベルフュージョンネットワークを提案する。
特徴レベルの融合では、マルチスケールのボクセル特徴と画像の特徴を密集したマルチスケールのボクセル画像融合(MVI)モジュールを提示する。
本稿では,画像のセマンティクスを利用して検出候補の信頼度を補正するFCR(Feature-cued Confidence Rectification)モジュールを提案する。
論文 参考訳(メタデータ) (2023-07-18T11:26:02Z) - Multi-View Photometric Stereo Revisited [100.97116470055273]
多視点測光ステレオ(MVPS)は、画像から被写体を詳細に正確に3D取得する方法として好まれる。
MVPSは異方性や光沢などの他の対象物質と同様に,等方性に対しても有効である。
提案手法は、複数のベンチマークデータセットで広範囲にテストした場合に、最先端の結果を示す。
論文 参考訳(メタデータ) (2022-10-14T09:46:15Z) - Paint and Distill: Boosting 3D Object Detection with Semantic Passing
Network [70.53093934205057]
ライダーやカメラセンサーからの3Dオブジェクト検出タスクは、自動運転に不可欠である。
本研究では,既存のライダーベース3D検出モデルの性能向上を図るために,SPNetという新しいセマンティックパスフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-12T12:35:34Z) - DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection [83.18142309597984]
ライダーとカメラは、自動運転における3D検出を補完する情報を提供する重要なセンサーである。
我々はDeepFusionという名前の汎用マルチモーダル3D検出モデル群を開発した。
論文 参考訳(メタデータ) (2022-03-15T18:46:06Z) - Deep Continuous Fusion for Multi-Sensor 3D Object Detection [103.5060007382646]
本稿では,LIDARとカメラを併用して高精度な位置検出を実現する3Dオブジェクト検出器を提案する。
我々は,連続畳み込みを利用して画像とlidar特徴マップを異なるレベルの解像度で融合する,エンドツーエンド学習可能なアーキテクチャを設計した。
論文 参考訳(メタデータ) (2020-12-20T18:43:41Z) - Multi-View Adaptive Fusion Network for 3D Object Detection [14.506796247331584]
LiDAR-カメラ融合に基づく3Dオブジェクト検出は、自動運転の新たな研究テーマになりつつある。
本稿では,LiDARの鳥眼ビュー,LiDARレンジビュー,カメラビューイメージを3Dオブジェクト検出の入力として利用する,単一ステージ多視点融合フレームワークを提案する。
これら2つのコンポーネントを統合するために,MVAF-Netというエンドツーエンドの学習ネットワークを設計する。
論文 参考訳(メタデータ) (2020-11-02T00:06:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。