論文の概要: PathFusion: Path-consistent Lidar-Camera Deep Feature Fusion
- arxiv url: http://arxiv.org/abs/2212.06244v1
- Date: Mon, 12 Dec 2022 20:58:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-14 14:49:53.996220
- Title: PathFusion: Path-consistent Lidar-Camera Deep Feature Fusion
- Title(参考訳): PathFusion:パスに一貫性のあるLidar-Camera Deep Feature Fusion
- Authors: Lemeng Wu, Dilin Wang, Meng Li, Yunyang Xiong, Raghuraman
Krishnamoorthi, Qiang Liu, Vikas Chandra
- Abstract要約: パスに一貫性のあるLiDARカメラ・ディープ・フィーチャー・フュージョンを実現するためにPathFusionを提案する。
我々は、nuScenesテストの分割において、テスト時間の増大なしに1.2%以上のmAP改善が観察された。
- 参考スコア(独自算出の注目度): 32.067448937451815
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fusing camera with LiDAR is a promising technique to improve the accuracy of
3D detection due to the complementary physical properties. While most existing
methods focus on fusing camera features directly with raw LiDAR point clouds or
shallow 3D features, it is observed that direct deep 3D feature fusion achieves
inferior accuracy due to feature misalignment. The misalignment that originates
from the feature aggregation across large receptive fields becomes increasingly
severe for deep network stages. In this paper, we propose PathFusion to enable
path-consistent LiDAR-camera deep feature fusion. PathFusion introduces a path
consistency loss between shallow and deep features, which encourages the 2D
backbone and its fusion path to transform 2D features in a way that is
semantically aligned with the transform of the 3D backbone. We apply PathFusion
to the prior-art fusion baseline, Focals Conv, and observe more than 1.2\% mAP
improvements on the nuScenes test split consistently with and without
testing-time augmentations. Moreover, PathFusion also improves KITTI AP3D (R11)
by more than 0.6% on moderate level.
- Abstract(参考訳): LiDARで撮影するカメラは、物理特性の相補性による3次元検出の精度を向上させるための有望な技術である。
既存のほとんどの手法は、カメラ機能を生のLiDAR点雲や浅部3次元特徴と直接融合させることに重点を置いているが、直接深部3次元特徴融合は特徴の不一致により精度が劣る。
深いネットワークの段階において、大きな受容領域にまたがる特徴集約から生じる誤用がますます厳しくなっている。
本稿ではパス一貫性を有するLiDARカメラの深部機能融合を実現するPathFusionを提案する。
PathFusionは浅い特徴と深い特徴の間の経路一貫性の損失を導入し、2Dバックボーンとその融合パスが3Dバックボーンの変換にセマンティックに整合するように2D特徴を変換することを奨励する。
従来の核融合ベースラインである Focals Conv にPathFusion を適用し, nuScenes テストにおける 1.2\% mAP の改善を, テスト時間拡張なしで一貫して観察する。
さらにPathFusionは、KITTI AP3D(R11)を適度なレベルで0.6%以上改善する。
関連論文リスト
- BiCo-Fusion: Bidirectional Complementary LiDAR-Camera Fusion for Semantic- and Spatial-Aware 3D Object Detection [10.321117046185321]
この手紙は、BiCo-Fusionと呼ばれる新しい双方向補体Lidar-Camera融合フレームワークを提案する。
重要な洞察は、LiDAR特徴のセマンティクスとカメラ特徴の空間的認識を強化するために、マルチモーダル特徴を相互に融合させることである。
次に、Unified Fusionを導入して、魔法のLidarとカメラの機能から選択した機能を適応的に重み付けし、統一された3D表現を構築する。
論文 参考訳(メタデータ) (2024-06-27T09:56:38Z) - Joint-MAE: 2D-3D Joint Masked Autoencoders for 3D Point Cloud
Pre-training [65.75399500494343]
Masked Autoencoders (MAE) は、2Dおよび3Dコンピュータビジョンのための自己教師型学習において有望な性能を示した。
自己監督型3次元点雲事前学習のための2D-3DジョイントMAEフレームワークであるJoint-MAEを提案する。
論文 参考訳(メタデータ) (2023-02-27T17:56:18Z) - Self-Supervised Geometry-Aware Encoder for Style-Based 3D GAN Inversion [115.82306502822412]
StyleGANは、画像インバージョンと潜時編集による2次元顔再構成とセマンティック編集において大きな進歩を遂げている。
対応する汎用的な3D GANインバージョンフレームワークがまだ欠けており、3D顔再構成とセマンティック編集の応用が制限されている。
本研究では,その3次元形状と詳細なテクスチャを忠実に復元するために,単一の顔画像から潜伏コードを予測する3D GAN逆変換の課題について検討する。
論文 参考訳(メタデータ) (2022-12-14T18:49:50Z) - Multi-Sem Fusion: Multimodal Semantic Fusion for 3D Object Detection [11.575945934519442]
LiDARとカメラ融合技術は、自律運転において3次元物体検出を実現することを約束している。
多くのマルチモーダルな3Dオブジェクト検出フレームワークは、2D画像からのセマンティック知識を3D LiDARポイントクラウドに統合する。
本稿では2次元画像と3次元ポイントシーン解析結果の両方から意味情報を融合する汎用多モード融合フレームワークであるMulti-Sem Fusion(MSF)を提案する。
論文 参考訳(メタデータ) (2022-12-10T10:54:41Z) - FFPA-Net: Efficient Feature Fusion with Projection Awareness for 3D
Object Detection [19.419030878019974]
構造化されていない3D点雲は2D平面に充填され、3D点雲はプロジェクション対応の畳み込み層を用いて高速に抽出される。
データ前処理において、異なるセンサ信号間の対応するインデックスを予め設定する。
2つの新しいプラグアンドプレイ融合モジュールLiCamFuseとBiLiCamFuseが提案されている。
論文 参考訳(メタデータ) (2022-09-15T16:13:19Z) - MSMDFusion: Fusing LiDAR and Camera at Multiple Scales with Multi-Depth
Seeds for 3D Object Detection [89.26380781863665]
自律運転システムにおける高精度で信頼性の高い3次元物体検出を実現するためには,LiDARとカメラ情報の融合が不可欠である。
近年のアプローチでは、2次元カメラ画像の3次元空間への昇華点によるカメラ特徴のセマンティックな密度の探索が試みられている。
マルチグラニュラリティLiDARとカメラ機能とのマルチスケールなプログレッシブインタラクションに焦点を当てた,新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-07T12:29:29Z) - DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection [83.18142309597984]
ライダーとカメラは、自動運転における3D検出を補完する情報を提供する重要なセンサーである。
我々はDeepFusionという名前の汎用マルチモーダル3D検出モデル群を開発した。
論文 参考訳(メタデータ) (2022-03-15T18:46:06Z) - Volumetric Propagation Network: Stereo-LiDAR Fusion for Long-Range Depth
Estimation [81.08111209632501]
長距離深度推定のための幾何認識型ステレオLiDAR融合ネットワークを提案する。
ステレオ画像の対応を統一した3Dボリューム空間で導くためのキューとして、スパースで正確な点群を活用します。
我々のネットワークは,KITTIおよびVirtual-KITTIデータセット上での最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-03-24T03:24:46Z) - Cross-Modality 3D Object Detection [63.29935886648709]
本稿では,3次元物体検出のための新しい2段階多モード融合ネットワークを提案する。
アーキテクチャ全体が2段階の融合を促進する。
KITTIデータセットを用いた実験により,提案したマルチステージ融合により,ネットワークがより良い表現を学習できることが示唆された。
論文 参考訳(メタデータ) (2020-08-16T11:01:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。