論文の概要: LoGoNet: Towards Accurate 3D Object Detection with Local-to-Global
Cross-Modal Fusion
- arxiv url: http://arxiv.org/abs/2303.03595v1
- Date: Tue, 7 Mar 2023 02:00:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-08 16:44:41.707779
- Title: LoGoNet: Towards Accurate 3D Object Detection with Local-to-Global
Cross-Modal Fusion
- Title(参考訳): LoGoNet: 局所-Global-Cross-Modal Fusionによる高精度3次元物体検出を目指して
- Authors: Xin Li, Tao Ma, Yuenan Hou, Botian Shi, Yucheng Yang, Youquan Liu,
Xingjiao Wu, Qin Chen, Yikang Li, Yu Qiao, Liang He
- Abstract要約: ローカル-グローバル融合ネットワーク(LoGoNet)
LoGoNetは3Dオブジェクト検出リーダーボードで1位だ。
3つのクラスの検出性能が80 APH (L2) を超えるのは初めてである。
- 参考スコア(独自算出の注目度): 40.44084541717407
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LiDAR-camera fusion methods have shown impressive performance in 3D object
detection. Recent advanced multi-modal methods mainly perform global fusion,
where image features and point cloud features are fused across the whole scene.
Such practice lacks fine-grained region-level information, yielding suboptimal
fusion performance. In this paper, we present the novel Local-to-Global fusion
network (LoGoNet), which performs LiDAR-camera fusion at both local and global
levels. Concretely, the Global Fusion (GoF) of LoGoNet is built upon previous
literature, while we exclusively use point centroids to more precisely
represent the position of voxel features, thus achieving better cross-modal
alignment. As to the Local Fusion (LoF), we first divide each proposal into
uniform grids and then project these grid centers to the images. The image
features around the projected grid points are sampled to be fused with
position-decorated point cloud features, maximally utilizing the rich
contextual information around the proposals. The Feature Dynamic Aggregation
(FDA) module is further proposed to achieve information interaction between
these locally and globally fused features, thus producing more informative
multi-modal features. Extensive experiments on both Waymo Open Dataset (WOD)
and KITTI datasets show that LoGoNet outperforms all state-of-the-art 3D
detection methods. Notably, LoGoNet ranks 1st on Waymo 3D object detection
leaderboard and obtains 81.02 mAPH (L2) detection performance. It is noteworthy
that, for the first time, the detection performance on three classes surpasses
80 APH (L2) simultaneously. Code will be available at
\url{https://github.com/sankin97/LoGoNet}.
- Abstract(参考訳): LiDAR-カメラ融合法は3次元物体検出において顕著な性能を示した。
最近の高度なマルチモーダル手法は、画像機能とポイントクラウド機能をシーン全体に融合するグローバル融合を主に行う。
このような実践は、きめ細かい領域レベルの情報を欠き、最適の核融合性能をもたらす。
本稿では,ローカルとグローバルの両方のレベルでlidarカメラ融合を行う,新しいlocal-to-global fusion network (logonet)を提案する。
具体的には、logienetのグローバル融合(gof)は、以前の文献に基づいて構築されていますが、我々は、ボクセルの特徴の位置をより正確に表現するためにポイントセントロイドのみを使用し、より優れたクロスモーダルアライメントを実現しています。
ローカルフュージョン(LoF)については、まず各提案を均一なグリッドに分割し、そのグリッドセンターを画像に投影する。
投影されたグリッドポイント周辺の画像特徴は、位置デコレーションされたポイントクラウド特徴と融合し、提案に関する豊富なコンテキスト情報を最大限活用するためにサンプリングされる。
機能動的アグリゲーション(FDA)モジュールは、これらの局所的およびグローバルに融合した特徴間の情報相互作用を達成するために、さらに提案されている。
Waymo Open Dataset(WOD)とKITTIのデータセットに関する大規模な実験は、LoGoNetがすべての最先端の3D検出方法より優れていることを示している。
特に、LoGoNetはWaymo 3Dオブジェクト検出リーダーボードで1位となり、81.02 mAPH (L2)検出性能を得る。
注目に値するのは、3つのクラスの検出性能が80 APH (L2) を同時に上回ったことだ。
コードは \url{https://github.com/sankin97/LoGoNet} で入手できる。
関連論文リスト
- PoIFusion: Multi-Modal 3D Object Detection via Fusion at Points of Interest [65.48057241587398]
PoIFusionは、関心点(PoIs)におけるRGBイメージとLiDARポイントクラウドに関する情報を融合するフレームワークである。
提案手法は,各モダリティの視点を維持し,計算にやさしいプロジェクションと計算によってマルチモーダル特徴を得る。
我々はnuScenesとArgoverse2データセットについて広範囲に実験を行い、我々のアプローチを評価した。
論文 参考訳(メタデータ) (2024-03-14T09:28:12Z) - RGB-T Semantic Segmentation with Location, Activation, and Sharpening [27.381263494613556]
本稿では,RGB-Tセマンティックセマンティックセグメンテーションのための新しい機能融合ネットワークemphLASNetを提案する。
2つの公開データセットの実験結果から、LASNetが関連する最先端手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2022-10-26T07:42:34Z) - DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection [83.18142309597984]
ライダーとカメラは、自動運転における3D検出を補完する情報を提供する重要なセンサーである。
我々はDeepFusionという名前の汎用マルチモーダル3D検出モデル群を開発した。
論文 参考訳(メタデータ) (2022-03-15T18:46:06Z) - LATFormer: Locality-Aware Point-View Fusion Transformer for 3D Shape
Recognition [38.540048855119004]
そこで我々は,3次元形状検索と分類のためのLATFormer(Locality-Aware Point-View Fusion Transformer)を提案する。
LATFormerの中核となるコンポーネントはLocality-Aware Fusion (LAF) という名前のモジュールで、2つのモードにまたがる関連領域の局所的特徴を統合する。
LATFormerでは,LAFモジュールを用いて双方向および階層的に2つのモードのマルチスケール機能を融合し,より情報的な特徴を得る。
論文 参考訳(メタデータ) (2021-09-03T03:23:27Z) - MBDF-Net: Multi-Branch Deep Fusion Network for 3D Object Detection [17.295359521427073]
3次元物体検出のためのMulti-Branch Deep Fusion Network (MBDF-Net)を提案する。
最初の段階では、マルチブランチ機能抽出ネットワークは、Adaptive Attention Fusionモジュールを使用して、単一モーダルなセマンティックな特徴からクロスモーダルな融合機能を生成する。
第2段階では、関心領域(RoI)をプールした核融合モジュールを用いて局所的な特徴を改良する。
論文 参考訳(メタデータ) (2021-08-29T15:40:15Z) - Similarity-Aware Fusion Network for 3D Semantic Segmentation [87.51314162700315]
本研究では,3次元セマンティックセグメンテーションのための2次元画像と3次元点雲を適応的に融合する類似性認識融合ネットワーク(SAFNet)を提案する。
我々は、入力とバックプロジェクションされた(2Dピクセルから)点雲の間の幾何学的および文脈的類似性を初めて学習する、後期融合戦略を採用している。
SAFNetは、様々なデータ完全性にまたがって、既存の最先端の核融合ベースのアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2021-07-04T09:28:18Z) - Volumetric Propagation Network: Stereo-LiDAR Fusion for Long-Range Depth
Estimation [81.08111209632501]
長距離深度推定のための幾何認識型ステレオLiDAR融合ネットワークを提案する。
ステレオ画像の対応を統一した3Dボリューム空間で導くためのキューとして、スパースで正確な点群を活用します。
我々のネットワークは,KITTIおよびVirtual-KITTIデータセット上での最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-03-24T03:24:46Z) - Cross-Modality 3D Object Detection [63.29935886648709]
本稿では,3次元物体検出のための新しい2段階多モード融合ネットワークを提案する。
アーキテクチャ全体が2段階の融合を促進する。
KITTIデータセットを用いた実験により,提案したマルチステージ融合により,ネットワークがより良い表現を学習できることが示唆された。
論文 参考訳(メタデータ) (2020-08-16T11:01:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。