論文の概要: Sparse Dense Fusion for 3D Object Detection
- arxiv url: http://arxiv.org/abs/2304.04179v1
- Date: Sun, 9 Apr 2023 07:10:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-11 17:08:39.456081
- Title: Sparse Dense Fusion for 3D Object Detection
- Title(参考訳): 3次元物体検出のための疎密融合
- Authors: Yulu Gao, Chonghao Sima, Shaoshuai Shi, Shangzhe Di, Si Liu, Hongyang
Li
- Abstract要約: カメラ-LiDAR融合は3Dオブジェクト検出で人気を博している。
我々は,1)3次元の幾何学的先行情報を保持するが,カメラからリッチな意味情報を失うこと,2)密度のみの代替手段が意味的連続性を保持すること,そして,LiDARの正確な幾何学的情報を見逃すこと,の2つの課題を分析する。
本稿では,Sparse Dense Fusion(SDF)を提案する。Sparse Dense Fusion(SDF)は,Transformerアーキテクチャを通じて,スパースフュージョンと高密度フュージョンモジュールの両方を組み込んだ補完的なフレームワークである。
- 参考スコア(独自算出の注目度): 24.288662560178334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the prevalence of multimodal learning, camera-LiDAR fusion has gained
popularity in 3D object detection. Although multiple fusion approaches have
been proposed, they can be classified into either sparse-only or dense-only
fashion based on the feature representation in the fusion module. In this
paper, we analyze them in a common taxonomy and thereafter observe two
challenges: 1) sparse-only solutions preserve 3D geometric prior and yet lose
rich semantic information from the camera, and 2) dense-only alternatives
retain the semantic continuity but miss the accurate geometric information from
LiDAR. By analyzing these two formulations, we conclude that the information
loss is inevitable due to their design scheme. To compensate for the
information loss in either manner, we propose Sparse Dense Fusion (SDF), a
complementary framework that incorporates both sparse-fusion and dense-fusion
modules via the Transformer architecture. Such a simple yet effective
sparse-dense fusion structure enriches semantic texture and exploits spatial
structure information simultaneously. Through our SDF strategy, we assemble two
popular methods with moderate performance and outperform baseline by 4.3% in
mAP and 2.5% in NDS, ranking first on the nuScenes benchmark. Extensive
ablations demonstrate the effectiveness of our method and empirically align our
analysis.
- Abstract(参考訳): マルチモーダル学習の普及に伴い、カメラ-LiDAR融合は3Dオブジェクト検出で人気を博している。
複数の融合法が提案されているが、融合モジュールの特徴表現に基づいてスパースのみまたは密度のみの手法に分類することができる。
本稿では,これらを共通分類法で分析し,その後2つの課題を考察する。
1) スパースのみの解は3次元幾何学的前もって保存するが、カメラからの豊富な意味情報が失われる。
2) 密度のみの代替案は意味的連続性を維持するが、LiDARの正確な幾何学的情報を見逃す。
これら2つの定式化を解析することにより、情報損失は設計手法により避けられないと結論付ける。
いずれの方法においても情報損失を補うために,Transformerアーキテクチャを介してスパース融合と高密度融合の両方を組み込んだ相補的なフレームワークであるスパース・デンス・フュージョン(SDF)を提案する。
このような単純で効果的なスパースセンス融合構造は意味的テクスチャを豊かにし、同時に空間構造情報を利用する。
SDF戦略を通じて,mAPが4.3%,NDSが2.5%,性能が4.3%向上した2つの人気手法を,nuScenesベンチマークで第1位にランク付けした。
本手法の有効性を実証し,分析結果を実証的に整理した。
関連論文リスト
- Efficient Feature Aggregation and Scale-Aware Regression for Monocular 3D Object Detection [40.14197775884804]
MonoASRHは、効率的なハイブリッド特徴集約モジュール(EH-FAM)と適応スケール対応3D回帰ヘッド(ASRH)で構成される新しいモノクル3D検出フレームワークである。
EH-FAMは、小規模オブジェクトのセマンティックな特徴を抽出するために、グローバルな受容領域を持つマルチヘッドアテンションを用いる。
ASRHは2次元境界ボックス次元を符号化し、EH-FAMで集約された意味的特徴とスケール特徴を融合する。
論文 参考訳(メタデータ) (2024-11-05T02:33:25Z) - MLF-DET: Multi-Level Fusion for Cross-Modal 3D Object Detection [54.52102265418295]
MLF-DETと呼ばれる,高性能なクロスモーダル3DオブジェクトDrectionのための,新規かつ効果的なマルチレベルフュージョンネットワークを提案する。
特徴レベルの融合では、マルチスケールのボクセル特徴と画像の特徴を密集したマルチスケールのボクセル画像融合(MVI)モジュールを提示する。
本稿では,画像のセマンティクスを利用して検出候補の信頼度を補正するFCR(Feature-cued Confidence Rectification)モジュールを提案する。
論文 参考訳(メタデータ) (2023-07-18T11:26:02Z) - Multi-Sem Fusion: Multimodal Semantic Fusion for 3D Object Detection [11.575945934519442]
LiDARとカメラ融合技術は、自律運転において3次元物体検出を実現することを約束している。
多くのマルチモーダルな3Dオブジェクト検出フレームワークは、2D画像からのセマンティック知識を3D LiDARポイントクラウドに統合する。
本稿では2次元画像と3次元ポイントシーン解析結果の両方から意味情報を融合する汎用多モード融合フレームワークであるMulti-Sem Fusion(MSF)を提案する。
論文 参考訳(メタデータ) (2022-12-10T10:54:41Z) - FusionRCNN: LiDAR-Camera Fusion for Two-stage 3D Object Detection [11.962073589763676]
既存の3D検出器は、2段階のパラダイムを採用することで精度を大幅に向上させる。
特に遠く離れた地点では、点雲の広がりは、LiDARのみの精製モジュールがオブジェクトを正確に認識し、配置することを困難にしている。
We propose a novel multi-modality two-stage approach called FusionRCNN, which is effective and efficient fuses point clouds and camera image in the Regions of Interest(RoI)。
FusionRCNNは、強力なSECONDベースラインを6.14%のmAPで大幅に改善し、競合する2段階アプローチよりも優れている。
論文 参考訳(メタデータ) (2022-09-22T02:07:25Z) - MSMDFusion: Fusing LiDAR and Camera at Multiple Scales with Multi-Depth
Seeds for 3D Object Detection [89.26380781863665]
自律運転システムにおける高精度で信頼性の高い3次元物体検出を実現するためには,LiDARとカメラ情報の融合が不可欠である。
近年のアプローチでは、2次元カメラ画像の3次元空間への昇華点によるカメラ特徴のセマンティックな密度の探索が試みられている。
マルチグラニュラリティLiDARとカメラ機能とのマルチスケールなプログレッシブインタラクションに焦点を当てた,新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-07T12:29:29Z) - Focal Sparse Convolutional Networks for 3D Object Detection [121.45950754511021]
我々はスパースCNNの能力を高めるために2つの新しいモジュールを導入する。
焦点スパース・コンボリューション(Focals Conv)であり、焦点スパース・コンボリューションの多様変種である。
スパース・コンボリューションにおける空間的に学習可能な空間空間性は,高度な3次元物体検出に不可欠であることを示す。
論文 参考訳(メタデータ) (2022-04-26T17:34:10Z) - MBDF-Net: Multi-Branch Deep Fusion Network for 3D Object Detection [17.295359521427073]
3次元物体検出のためのMulti-Branch Deep Fusion Network (MBDF-Net)を提案する。
最初の段階では、マルチブランチ機能抽出ネットワークは、Adaptive Attention Fusionモジュールを使用して、単一モーダルなセマンティックな特徴からクロスモーダルな融合機能を生成する。
第2段階では、関心領域(RoI)をプールした核融合モジュールを用いて局所的な特徴を改良する。
論文 参考訳(メタデータ) (2021-08-29T15:40:15Z) - Similarity-Aware Fusion Network for 3D Semantic Segmentation [87.51314162700315]
本研究では,3次元セマンティックセグメンテーションのための2次元画像と3次元点雲を適応的に融合する類似性認識融合ネットワーク(SAFNet)を提案する。
我々は、入力とバックプロジェクションされた(2Dピクセルから)点雲の間の幾何学的および文脈的類似性を初めて学習する、後期融合戦略を採用している。
SAFNetは、様々なデータ完全性にまたがって、既存の最先端の核融合ベースのアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2021-07-04T09:28:18Z) - Volumetric Propagation Network: Stereo-LiDAR Fusion for Long-Range Depth
Estimation [81.08111209632501]
長距離深度推定のための幾何認識型ステレオLiDAR融合ネットワークを提案する。
ステレオ画像の対応を統一した3Dボリューム空間で導くためのキューとして、スパースで正確な点群を活用します。
我々のネットワークは,KITTIおよびVirtual-KITTIデータセット上での最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-03-24T03:24:46Z) - Cross-Modality 3D Object Detection [63.29935886648709]
本稿では,3次元物体検出のための新しい2段階多モード融合ネットワークを提案する。
アーキテクチャ全体が2段階の融合を促進する。
KITTIデータセットを用いた実験により,提案したマルチステージ融合により,ネットワークがより良い表現を学習できることが示唆された。
論文 参考訳(メタデータ) (2020-08-16T11:01:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。