論文の概要: Sparse Fuse Dense: Towards High Quality 3D Detection with Depth
Completion
- arxiv url: http://arxiv.org/abs/2203.09780v1
- Date: Fri, 18 Mar 2022 07:56:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-21 15:09:49.368056
- Title: Sparse Fuse Dense: Towards High Quality 3D Detection with Depth
Completion
- Title(参考訳): Sparse Fuse Dense:Depth Completionによる高品質3D検出に向けて
- Authors: Xiaopei Wu, Liang Peng, Honghui Yang, Liang Xie, Chenxi Huang, Chengqi
Deng, Haifeng Liu, Deng Cai
- Abstract要約: 現在のLiDARのみの3D検出方法は、必然的に点雲の間隔に悩まされる。
本稿では,奥行き完了から発生する疑似点雲を利用した,新しいマルチモーダルフレームワークSFD(Sparse Fuse Dense)を提案する。
本手法は, SFD の有効性を実証し, 3D オブジェクト検出リーダボードのKITTI カーにおける最上位項目を保持する。
- 参考スコア(独自算出の注目度): 31.52721107477401
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current LiDAR-only 3D detection methods inevitably suffer from the sparsity
of point clouds. Many multi-modal methods are proposed to alleviate this issue,
while different representations of images and point clouds make it difficult to
fuse them, resulting in suboptimal performance. In this paper, we present a
novel multi-modal framework SFD (Sparse Fuse Dense), which utilizes pseudo
point clouds generated from depth completion to tackle the issues mentioned
above. Different from prior works, we propose a new RoI fusion strategy 3D-GAF
(3D Grid-wise Attentive Fusion) to make fuller use of information from
different types of point clouds. Specifically, 3D-GAF fuses 3D RoI features
from the couple of point clouds in a grid-wise attentive way, which is more
fine-grained and more precise. In addition, we propose a SynAugment
(Synchronized Augmentation) to enable our multi-modal framework to utilize all
data augmentation approaches tailored to LiDAR-only methods. Lastly, we
customize an effective and efficient feature extractor CPConv (Color Point
Convolution) for pseudo point clouds. It can explore 2D image features and 3D
geometric features of pseudo point clouds simultaneously. Our method holds the
highest entry on the KITTI car 3D object detection leaderboard, demonstrating
the effectiveness of our SFD. Code will be made publicly available.
- Abstract(参考訳): 現在のLiDARのみの3D検出方法は、必然的に点雲の間隔に悩まされる。
多くのマルチモーダル手法がこの問題を軽減するために提案されているが、画像と点雲の異なる表現はそれらを融合させることを難しくし、結果として準最適性能をもたらす。
本稿では,上記の問題に対処するために,深度補完から生成された疑似点雲を利用するマルチモーダルフレームワークsfd(sparse fuse dense)を提案する。
先行研究と異なり,異なる種類の点雲からの情報を十分に活用するために,新しいroi融合戦略である3d-gaf(3dグリッド・アズ・アズ・インテンティブ・フュージョン)を提案する。
具体的には、3D-GAFは、2つの点の雲の3D RoI機能をグリッドワイドに融合させる。
さらに,LiDARのみの手法に合わせたデータ拡張アプローチを,マルチモーダルフレームワークで活用するためのシンクロナイズド拡張(Synchronized Augmentation)を提案する。
最後に、擬似点雲に対して有効で効率的な特徴抽出器CPConv(Color Point Convolution)をカスタマイズする。
擬似点雲の2次元画像特徴と3次元幾何学的特徴を同時に探索することができる。
本手法は, SFD の有効性を実証し, 3D オブジェクト検出リーダボードのKITTI カーにおける最上位項目を保持する。
コードは公開される予定だ。
関連論文リスト
- GaussianAnything: Interactive Point Cloud Latent Diffusion for 3D Generation [75.39457097832113]
本稿では,インタラクティブなポイントクラウド構造ラテント空間を備えたスケーラブルで高品質な3D生成を実現する,新しい3D生成フレームワークを提案する。
本フレームワークでは,複数ビューのRGB-D(epth)-N(ormal)レンダリングを入力として使用する変分オートエンコーダを,3次元形状情報を保存する独自のラテント空間設計を用いて構成する。
提案手法であるGaussianAnythingは,複数モード条件付き3D生成をサポートし,ポイントクラウド,キャプション,シングル/マルチビュー画像入力を可能にする。
論文 参考訳(メタデータ) (2024-11-12T18:59:32Z) - Point Cloud Self-supervised Learning via 3D to Multi-view Masked
Autoencoder [21.73287941143304]
Multi-Modality Masked AutoEncoders (MAE) 法は2次元画像と3次元点雲の両方を事前学習に利用している。
本稿では、3次元から多視点のマスク付きオートエンコーダを用いて、3次元点雲のマルチモーダル特性をフル活用する手法を提案する。
提案手法は,様々な下流タスクにおいて,最先端のタスクよりも大きなマージンで性能を向上する。
論文 参考訳(メタデータ) (2023-11-17T22:10:03Z) - TriVol: Point Cloud Rendering via Triple Volumes [57.305748806545026]
我々は,高密度かつ軽量な3D表現であるTriVolをNeRFと組み合わせて,点雲から写実的な画像を描画する。
我々のフレームワークは、微調整なしでシーン/オブジェクトのカテゴリを描画できる優れた一般化能力を持っている。
論文 参考訳(メタデータ) (2023-03-29T06:34:12Z) - Homogeneous Multi-modal Feature Fusion and Interaction for 3D Object
Detection [16.198358858773258]
マルチモーダル3D物体検出は、自律運転において活発な研究課題となっている。
スパース3D点と高密度2Dピクセルの相互特徴融合を探索するのは簡単ではない。
最近のアプローチでは、画像特徴と2次元画像平面に投影される点雲の特徴を融合させるか、スパース点雲と高密度画像画素を組み合わせるかのどちらかである。
論文 参考訳(メタデータ) (2022-10-18T06:15:56Z) - Bridged Transformer for Vision and Point Cloud 3D Object Detection [92.86856146086316]
Bridged Transformer (BrT) は、3Dオブジェクト検出のためのエンドツーエンドアーキテクチャである。
BrTは3Dオブジェクトと2Dオブジェクトのバウンディングボックスを、ポイントとイメージパッチの両方から識別する。
BrTがSUN RGB-DおよびScanNetV2データセットの最先端手法を上回ることを示す。
論文 参考訳(メタデータ) (2022-10-04T05:44:22Z) - FFPA-Net: Efficient Feature Fusion with Projection Awareness for 3D
Object Detection [19.419030878019974]
構造化されていない3D点雲は2D平面に充填され、3D点雲はプロジェクション対応の畳み込み層を用いて高速に抽出される。
データ前処理において、異なるセンサ信号間の対応するインデックスを予め設定する。
2つの新しいプラグアンドプレイ融合モジュールLiCamFuseとBiLiCamFuseが提案されている。
論文 参考訳(メタデータ) (2022-09-15T16:13:19Z) - From Multi-View to Hollow-3D: Hallucinated Hollow-3D R-CNN for 3D Object
Detection [101.20784125067559]
本稿では,3次元物体検出の問題に対処するため,Halucinated Hollow-3D R-CNNという新しいアーキテクチャを提案する。
本稿では,まず,視点ビューと鳥眼ビューに点雲を逐次投影することで,多視点特徴を抽出する。
3Dオブジェクトは、新しい階層型Voxel RoIプール操作でボックスリファインメントモジュールを介して検出される。
論文 参考訳(メタデータ) (2021-07-30T02:00:06Z) - RoIFusion: 3D Object Detection from LiDAR and Vision [7.878027048763662]
本稿では,3次元関心領域(RoI)の集合を点雲から対応する画像の2次元ロIに投影することで,新しい融合アルゴリズムを提案する。
提案手法は,KITTI 3Dオブジェクト検出課題ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2020-09-09T20:23:27Z) - Cross-Modality 3D Object Detection [63.29935886648709]
本稿では,3次元物体検出のための新しい2段階多モード融合ネットワークを提案する。
アーキテクチャ全体が2段階の融合を促進する。
KITTIデータセットを用いた実験により,提案したマルチステージ融合により,ネットワークがより良い表現を学習できることが示唆された。
論文 参考訳(メタデータ) (2020-08-16T11:01:20Z) - ImVoteNet: Boosting 3D Object Detection in Point Clouds with Image Votes [93.82668222075128]
RGB-Dシーンに対するImVoteNetと呼ばれる3次元検出アーキテクチャを提案する。
ImVoteNetは、画像に2D票、ポイントクラウドに3D票を投じることに基づいている。
挑戦的なSUN RGB-Dデータセット上でモデルを検証した。
論文 参考訳(メタデータ) (2020-01-29T05:09:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。