論文の概要: VPFNet: Improving 3D Object Detection with Virtual Point based LiDAR and
Stereo Data Fusion
- arxiv url: http://arxiv.org/abs/2111.14382v2
- Date: Wed, 1 Dec 2021 14:24:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-02 13:07:00.489158
- Title: VPFNet: Improving 3D Object Detection with Virtual Point based LiDAR and
Stereo Data Fusion
- Title(参考訳): VPFNet:仮想ポイントベースLiDARとステレオデータ融合による3次元物体検出の改善
- Authors: Hanqi Zhu, Jiajun Deng, Yu Zhang, Jianmin Ji, Qiuyu Mao, Houqiang Li,
Yanyong Zhang
- Abstract要約: VPFNetは、ポイントクラウドとイメージデータを仮想のポイントで巧みに調整し集約する新しいアーキテクチャである。
当社のVPFNetは,KITTIテストセットで83.21%の中等度3D AP,91.86%中等度BEV APを達成し,2021年5月21日以来の1位となった。
- 参考スコア(独自算出の注目度): 62.24001258298076
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It has been well recognized that fusing the complementary information from
depth-aware LiDAR point clouds and semantic-rich stereo images would benefit 3D
object detection. Nevertheless, it is not trivial to explore the inherently
unnatural interaction between sparse 3D points and dense 2D pixels. To ease
this difficulty, the recent proposals generally project the 3D points onto the
2D image plane to sample the image data and then aggregate the data at the
points. However, this approach often suffers from the mismatch between the
resolution of point clouds and RGB images, leading to sub-optimal performance.
Specifically, taking the sparse points as the multi-modal data aggregation
locations causes severe information loss for high-resolution images, which in
turn undermines the effectiveness of multi-sensor fusion. In this paper, we
present VPFNet -- a new architecture that cleverly aligns and aggregates the
point cloud and image data at the `virtual' points. Particularly, with their
density lying between that of the 3D points and 2D pixels, the virtual points
can nicely bridge the resolution gap between the two sensors, and thus preserve
more information for processing. Moreover, we also investigate the data
augmentation techniques that can be applied to both point clouds and RGB
images, as the data augmentation has made non-negligible contribution towards
3D object detectors to date. We have conducted extensive experiments on KITTI
dataset, and have observed good performance compared to the state-of-the-art
methods. Remarkably, our VPFNet achieves 83.21\% moderate 3D AP and 91.86\%
moderate BEV AP on the KITTI test set, ranking the 1st since May 21th, 2021.
The network design also takes computation efficiency into consideration -- we
can achieve a FPS of 15 on a single NVIDIA RTX 2080Ti GPU. The code will be
made available for reproduction and further investigation.
- Abstract(参考訳): 奥行きを認識できるlidar点雲と意味に富んだステレオ画像からの補完情報を融合することは3dオブジェクト検出に有用であると認識されている。
それでも、スパース3D点と密度2Dピクセルの間の本質的に不自然な相互作用を探索することは簡単ではない。
この困難を解消するため、最近の提案では一般的に3Dポイントを2次元画像平面に投影し、画像データをサンプリングし、その点にデータを集約する。
しかし、このアプローチはポイントクラウドの解像度とRGBイメージのミスマッチに悩まされ、亜最適性能をもたらすことが多い。
具体的には、スパースポイントをマルチモーダルデータ集約位置として捉えると、高解像度画像に対して深刻な情報損失が生じ、それによってマルチセンサ融合の有効性が損なわれる。
本稿では、"仮想"ポイントでポイントクラウドとイメージデータを巧みに調整し、集約する新しいアーキテクチャであるVPFNetを紹介します。
特に、その密度が3Dポイントと2Dピクセルの間にあることにより、仮想ポイントは2つのセンサー間の解像度ギャップをうまくブリッジし、処理のためのより多くの情報を保持することができる。
さらに,3次元物体検出装置への非無視的な貢献により,点雲とRGB画像の両方に適用可能なデータ拡張技術についても検討した。
我々は、KITTIデータセットに関する広範な実験を行い、最先端の手法と比較して優れた性能を示した。
注目すべきは、当社のVPFNetがKITTIテストセットで83.21\%中等度3D APと91.86\%中等度BEV APを達成したことだ。
ネットワーク設計は計算効率も考慮に入れています -- 単一のnvidia rtx 2080ti gpuで15fpsを実現できます。
コードは再生およびさらなる調査のために利用可能になる。
関連論文リスト
- Multi-Sem Fusion: Multimodal Semantic Fusion for 3D Object Detection [11.575945934519442]
LiDARとカメラ融合技術は、自律運転において3次元物体検出を実現することを約束している。
多くのマルチモーダルな3Dオブジェクト検出フレームワークは、2D画像からのセマンティック知識を3D LiDARポイントクラウドに統合する。
本稿では2次元画像と3次元ポイントシーン解析結果の両方から意味情報を融合する汎用多モード融合フレームワークであるMulti-Sem Fusion(MSF)を提案する。
論文 参考訳(メタデータ) (2022-12-10T10:54:41Z) - Bridged Transformer for Vision and Point Cloud 3D Object Detection [92.86856146086316]
Bridged Transformer (BrT) は、3Dオブジェクト検出のためのエンドツーエンドアーキテクチャである。
BrTは3Dオブジェクトと2Dオブジェクトのバウンディングボックスを、ポイントとイメージパッチの両方から識別する。
BrTがSUN RGB-DおよびScanNetV2データセットの最先端手法を上回ることを示す。
論文 参考訳(メタデータ) (2022-10-04T05:44:22Z) - Image-to-Lidar Self-Supervised Distillation for Autonomous Driving Data [80.14669385741202]
本稿では,自律運転データに適した3次元知覚モデルのための自己教師付き事前学習手法を提案する。
我々は、自動走行装置における同期・校正画像とLidarセンサーの可用性を活用している。
私たちのメソッドは、ポイントクラウドや画像アノテーションを一切必要としません。
論文 参考訳(メタデータ) (2022-03-30T12:40:30Z) - RoIFusion: 3D Object Detection from LiDAR and Vision [7.878027048763662]
本稿では,3次元関心領域(RoI)の集合を点雲から対応する画像の2次元ロIに投影することで,新しい融合アルゴリズムを提案する。
提案手法は,KITTI 3Dオブジェクト検出課題ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2020-09-09T20:23:27Z) - Cross-Modality 3D Object Detection [63.29935886648709]
本稿では,3次元物体検出のための新しい2段階多モード融合ネットワークを提案する。
アーキテクチャ全体が2段階の融合を促進する。
KITTIデータセットを用いた実験により,提案したマルチステージ融合により,ネットワークがより良い表現を学習できることが示唆された。
論文 参考訳(メタデータ) (2020-08-16T11:01:20Z) - ZoomNet: Part-Aware Adaptive Zooming Neural Network for 3D Object
Detection [69.68263074432224]
ステレオ画像に基づく3D検出のためのZoomNetという新しいフレームワークを提案する。
ZoomNetのパイプラインは、通常の2Dオブジェクト検出モデルから始まり、左右のバウンディングボックスのペアを取得するために使用される。
さらに,RGB画像のテクスチャキューを多用し,より正確な異質度推定を行うため,適応ズームという概念的に真直ぐなモジュールを導入する。
論文 参考訳(メタデータ) (2020-03-01T17:18:08Z) - ImVoteNet: Boosting 3D Object Detection in Point Clouds with Image Votes [93.82668222075128]
RGB-Dシーンに対するImVoteNetと呼ばれる3次元検出アーキテクチャを提案する。
ImVoteNetは、画像に2D票、ポイントクラウドに3D票を投じることに基づいている。
挑戦的なSUN RGB-Dデータセット上でモデルを検証した。
論文 参考訳(メタデータ) (2020-01-29T05:09:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。