論文の概要: FFPA-Net: Efficient Feature Fusion with Projection Awareness for 3D
Object Detection
- arxiv url: http://arxiv.org/abs/2209.07419v1
- Date: Thu, 15 Sep 2022 16:13:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-16 13:05:20.421687
- Title: FFPA-Net: Efficient Feature Fusion with Projection Awareness for 3D
Object Detection
- Title(参考訳): FFPA-Net:3次元物体検出のための投影認識機能付き効率的な特徴融合
- Authors: Chaokang Jiang, Guangming Wang, Jinxing Wu, Yanzi Miao, Hesheng Wang
- Abstract要約: 構造化されていない3D点雲は2D平面に充填され、3D点雲はプロジェクション対応の畳み込み層を用いて高速に抽出される。
データ前処理において、異なるセンサ信号間の対応するインデックスを予め設定する。
2つの新しいプラグアンドプレイ融合モジュールLiCamFuseとBiLiCamFuseが提案されている。
- 参考スコア(独自算出の注目度): 19.419030878019974
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Promising complementarity exists between the texture features of color images
and the geometric information of LiDAR point clouds. However, there still
present many challenges for efficient and robust feature fusion in the field of
3D object detection. In this paper, first, unstructured 3D point clouds are
filled in the 2D plane and 3D point cloud features are extracted faster using
projection-aware convolution layers. Further, the corresponding indexes between
different sensor signals are established in advance in the data preprocessing,
which enables faster cross-modal feature fusion. To address LiDAR points and
image pixels misalignment problems, two new plug-and-play fusion modules,
LiCamFuse and BiLiCamFuse, are proposed. In LiCamFuse, soft query weights with
perceiving the Euclidean distance of bimodal features are proposed. In
BiLiCamFuse, the fusion module with dual attention is proposed to deeply
correlate the geometric and textural features of the scene. The quantitative
results on the KITTI dataset demonstrate that the proposed method achieves
better feature-level fusion. In addition, the proposed network shows a shorter
running time compared to existing methods.
- Abstract(参考訳): カラー画像のテクスチャ特徴とLiDAR点雲の幾何学的情報との間に相補性を推定する。
しかし、3dオブジェクト検出の分野では、効率的でロバストな機能融合にはまだ多くの課題がある。
本稿では,まず2次元平面に非構造化の3次元点雲を充填し,プロジェクション対応の畳み込み層を用いて3次元点雲の特徴を高速に抽出する。
さらに、データ前処理において、異なるセンサ信号間の対応するインデックスを予め確立し、より高速なクロスモーダル特徴融合を可能にする。
LiDAR点と画像画素の不整合問題に対処するため、2つの新しいプラグアンドプレイ融合モジュールLiCamFuseとBiLiCamFuseを提案する。
LiCamFuseでは、2モーダル特徴のユークリッド距離を知覚するソフトクエリウェイトを提案する。
BiLiCamFuseでは、シーンの幾何学的特徴とテクスチャ的特徴を深く関連付けるために、二重注意の融合モジュールを提案する。
KITTIデータセットの定量的結果から,提案手法がより優れた特徴レベルの融合を実現することを示す。
また,提案するネットワークは,既存手法に比べて実行時間が短い。
関連論文リスト
- Multi-Sem Fusion: Multimodal Semantic Fusion for 3D Object Detection [11.575945934519442]
LiDARとカメラ融合技術は、自律運転において3次元物体検出を実現することを約束している。
多くのマルチモーダルな3Dオブジェクト検出フレームワークは、2D画像からのセマンティック知識を3D LiDARポイントクラウドに統合する。
本稿では2次元画像と3次元ポイントシーン解析結果の両方から意味情報を融合する汎用多モード融合フレームワークであるMulti-Sem Fusion(MSF)を提案する。
論文 参考訳(メタデータ) (2022-12-10T10:54:41Z) - Homogeneous Multi-modal Feature Fusion and Interaction for 3D Object
Detection [16.198358858773258]
マルチモーダル3D物体検出は、自律運転において活発な研究課題となっている。
スパース3D点と高密度2Dピクセルの相互特徴融合を探索するのは簡単ではない。
最近のアプローチでは、画像特徴と2次元画像平面に投影される点雲の特徴を融合させるか、スパース点雲と高密度画像画素を組み合わせるかのどちらかである。
論文 参考訳(メタデータ) (2022-10-18T06:15:56Z) - FusionRCNN: LiDAR-Camera Fusion for Two-stage 3D Object Detection [11.962073589763676]
既存の3D検出器は、2段階のパラダイムを採用することで精度を大幅に向上させる。
特に遠く離れた地点では、点雲の広がりは、LiDARのみの精製モジュールがオブジェクトを正確に認識し、配置することを困難にしている。
We propose a novel multi-modality two-stage approach called FusionRCNN, which is effective and efficient fuses point clouds and camera image in the Regions of Interest(RoI)。
FusionRCNNは、強力なSECONDベースラインを6.14%のmAPで大幅に改善し、競合する2段階アプローチよりも優れている。
論文 参考訳(メタデータ) (2022-09-22T02:07:25Z) - DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection [83.18142309597984]
ライダーとカメラは、自動運転における3D検出を補完する情報を提供する重要なセンサーである。
我々はDeepFusionという名前の汎用マルチモーダル3D検出モデル群を開発した。
論文 参考訳(メタデータ) (2022-03-15T18:46:06Z) - EPNet++: Cascade Bi-directional Fusion for Multi-Modal 3D Object
Detection [56.03081616213012]
本稿では,新しいCasscade Bi-directional Fusion(CB-Fusion)モジュールを導入することで,マルチモーダル3Dオブジェクト検出のためのEPNet++を提案する。
提案したCB-Fusionモジュールは、カスケード双方向相互作用融合方式で画像特徴と点特徴の豊富な意味情報を高める。
KITTI、JRDB、SUN-RGBDデータセットの実験結果は、最先端の手法よりもEPNet++の方が優れていることを示している。
論文 参考訳(メタデータ) (2021-12-21T10:48:34Z) - Similarity-Aware Fusion Network for 3D Semantic Segmentation [87.51314162700315]
本研究では,3次元セマンティックセグメンテーションのための2次元画像と3次元点雲を適応的に融合する類似性認識融合ネットワーク(SAFNet)を提案する。
我々は、入力とバックプロジェクションされた(2Dピクセルから)点雲の間の幾何学的および文脈的類似性を初めて学習する、後期融合戦略を採用している。
SAFNetは、様々なデータ完全性にまたがって、既存の最先端の核融合ベースのアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2021-07-04T09:28:18Z) - FusionPainting: Multimodal Fusion with Adaptive Attention for 3D Object
Detection [15.641616738865276]
本稿では,2次元RGB画像と3次元点群をセマンティックレベルで融合させて3次元物体検出タスクを増強する汎用多モード核融合フレームワークFusionPaintingを提案する。
特にFusionPaintingフレームワークは、マルチモーダルセマンティックセグメンテーションモジュール、アダプティブアテンションベースのセマンティックフュージョンモジュール、および3Dオブジェクト検出器の3つの主要モジュールで構成されている。
提案手法の有効性を,大規模なnuScenes検出ベンチマークで検証した。
論文 参考訳(メタデータ) (2021-06-23T14:53:22Z) - Perception-aware Multi-sensor Fusion for 3D LiDAR Semantic Segmentation [59.42262859654698]
3Dセマンティックセグメンテーションは、自動運転やロボット工学など、多くのアプリケーションにおいてシーン理解において重要である。
既存の融合法は、2つのモードの差が大きいため、有望な性能を達成できない。
本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
論文 参考訳(メタデータ) (2021-06-21T10:47:26Z) - Volumetric Propagation Network: Stereo-LiDAR Fusion for Long-Range Depth
Estimation [81.08111209632501]
長距離深度推定のための幾何認識型ステレオLiDAR融合ネットワークを提案する。
ステレオ画像の対応を統一した3Dボリューム空間で導くためのキューとして、スパースで正確な点群を活用します。
我々のネットワークは,KITTIおよびVirtual-KITTIデータセット上での最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-03-24T03:24:46Z) - Cross-Modality 3D Object Detection [63.29935886648709]
本稿では,3次元物体検出のための新しい2段階多モード融合ネットワークを提案する。
アーキテクチャ全体が2段階の融合を促進する。
KITTIデータセットを用いた実験により,提案したマルチステージ融合により,ネットワークがより良い表現を学習できることが示唆された。
論文 参考訳(メタデータ) (2020-08-16T11:01:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。