論文の概要: ImVoteNet: Boosting 3D Object Detection in Point Clouds with Image Votes
- arxiv url: http://arxiv.org/abs/2001.10692v1
- Date: Wed, 29 Jan 2020 05:09:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-05 21:21:59.927646
- Title: ImVoteNet: Boosting 3D Object Detection in Point Clouds with Image Votes
- Title(参考訳): imvotenet: 画像投票でポイントクラウド内の3dオブジェクト検出を促進する
- Authors: Charles R. Qi, Xinlei Chen, Or Litany, Leonidas J. Guibas
- Abstract要約: RGB-Dシーンに対するImVoteNetと呼ばれる3次元検出アーキテクチャを提案する。
ImVoteNetは、画像に2D票、ポイントクラウドに3D票を投じることに基づいている。
挑戦的なSUN RGB-Dデータセット上でモデルを検証した。
- 参考スコア(独自算出の注目度): 93.82668222075128
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D object detection has seen quick progress thanks to advances in deep
learning on point clouds. A few recent works have even shown state-of-the-art
performance with just point clouds input (e.g. VoteNet). However, point cloud
data have inherent limitations. They are sparse, lack color information and
often suffer from sensor noise. Images, on the other hand, have high resolution
and rich texture. Thus they can complement the 3D geometry provided by point
clouds. Yet how to effectively use image information to assist point cloud
based detection is still an open question. In this work, we build on top of
VoteNet and propose a 3D detection architecture called ImVoteNet specialized
for RGB-D scenes. ImVoteNet is based on fusing 2D votes in images and 3D votes
in point clouds. Compared to prior work on multi-modal detection, we explicitly
extract both geometric and semantic features from the 2D images. We leverage
camera parameters to lift these features to 3D. To improve the synergy of 2D-3D
feature fusion, we also propose a multi-tower training scheme. We validate our
model on the challenging SUN RGB-D dataset, advancing state-of-the-art results
by 5.7 mAP. We also provide rich ablation studies to analyze the contribution
of each design choice.
- Abstract(参考訳): 3Dオブジェクト検出は、ポイントクラウドでのディープラーニングの進歩により、急速に進歩している。
いくつかの最近の研究は、ただの点クラウド入力(VoteNetなど)で最先端のパフォーマンスを示している。
しかし、ポイントクラウドデータには固有の制限がある。
色情報がなく、センサーノイズに悩まされることが多い。
一方、画像は高解像度で豊かなテクスチャを持つ。
これにより、点雲が提供する3次元幾何学を補うことができる。
しかし、ポイントクラウドによる検出を支援するために画像情報を効果的に利用する方法は、まだ未解決の問題である。
本研究では,VoteNet上に構築し,RGB-Dシーンに特化したImVoteNetと呼ばれる3D検出アーキテクチャを提案する。
ImVoteNetは、画像に2D票、ポイントクラウドに3D票を投じることに基づいている。
従来のマルチモーダル検出法と比較して,2次元画像から幾何学的特徴と意味的特徴の両方を明示的に抽出する。
カメラパラメータを利用して、これらの特徴を3Dに引き上げます。
2D-3D機能融合の相乗効果を改善するために,マルチトウワートレーニング方式を提案する。
我々は,SUN RGB-Dデータセットの精度を5.7mAPで検証した。
また,各設計選択の貢献度を分析するために,豊富なアブレーション研究を行う。
関連論文リスト
- Glissando-Net: Deep sinGLe vIew category level poSe eStimation ANd 3D recOnstruction [23.243959739520427]
Glissando-Netと呼ばれる深層学習モデルを提案し、同時にポーズを推定し、オブジェクトの3次元形状を再構築する。
Glissando-Netは2つの自動エンコーダで構成されており、共同で訓練されている。
論文 参考訳(メタデータ) (2025-01-24T19:39:15Z) - TriVol: Point Cloud Rendering via Triple Volumes [57.305748806545026]
我々は,高密度かつ軽量な3D表現であるTriVolをNeRFと組み合わせて,点雲から写実的な画像を描画する。
我々のフレームワークは、微調整なしでシーン/オブジェクトのカテゴリを描画できる優れた一般化能力を持っている。
論文 参考訳(メタデータ) (2023-03-29T06:34:12Z) - Leveraging Single-View Images for Unsupervised 3D Point Cloud Completion [53.93172686610741]
Cross-PCCは3次元完全点雲を必要としない教師なしの点雲補完法である。
2次元画像の相補的な情報を活用するために,単視点RGB画像を用いて2次元特徴を抽出する。
我々の手法は、いくつかの教師付き手法に匹敵する性能を達成できる。
論文 参考訳(メタデータ) (2022-12-01T15:11:21Z) - Sparse2Dense: Learning to Densify 3D Features for 3D Object Detection [85.08249413137558]
LiDARが生成する点雲は、最先端の3Dオブジェクト検出器の主要な情報源である。
小さい、遠く、不完全な点の少ない物体は、しばしば検出するのが困難である。
Sparse2Denseは、潜在空間における点雲の密度化を学習することで、3D検出性能を効率的に向上する新しいフレームワークである。
論文 参考訳(メタデータ) (2022-11-23T16:01:06Z) - Bridged Transformer for Vision and Point Cloud 3D Object Detection [92.86856146086316]
Bridged Transformer (BrT) は、3Dオブジェクト検出のためのエンドツーエンドアーキテクチャである。
BrTは3Dオブジェクトと2Dオブジェクトのバウンディングボックスを、ポイントとイメージパッチの両方から識別する。
BrTがSUN RGB-DおよびScanNetV2データセットの最先端手法を上回ることを示す。
論文 参考訳(メタデータ) (2022-10-04T05:44:22Z) - VPFNet: Improving 3D Object Detection with Virtual Point based LiDAR and
Stereo Data Fusion [62.24001258298076]
VPFNetは、ポイントクラウドとイメージデータを仮想のポイントで巧みに調整し集約する新しいアーキテクチャである。
当社のVPFNetは,KITTIテストセットで83.21%の中等度3D AP,91.86%中等度BEV APを達成し,2021年5月21日以来の1位となった。
論文 参考訳(メタデータ) (2021-11-29T08:51:20Z) - An Overview Of 3D Object Detection [21.159668390764832]
マルチクラスオブジェクト認識を行うために,RGBデータとポイントクラウドデータの両方を用いるフレームワークを提案する。
最近リリースされたnuScenesデータセット - 大規模なデータセットには多くのデータフォーマットが含まれています - をトレーニングし、提案したアーキテクチャを評価します。
論文 参考訳(メタデータ) (2020-10-29T14:04:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。