論文の概要: Bidirectional Propagation for Cross-Modal 3D Object Detection
- arxiv url: http://arxiv.org/abs/2301.09077v2
- Date: Tue, 2 May 2023 09:57:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-03 17:25:54.536008
- Title: Bidirectional Propagation for Cross-Modal 3D Object Detection
- Title(参考訳): クロスモーダル3次元物体検出のための双方向伝搬
- Authors: Yifan Zhang, Qijian Zhang, Junhui Hou, Yixuan Yuan, and Guoliang Xing
- Abstract要約: 本稿では,2次元画像枝に逆向きに特徴を流すことができる反対の点対画素方向を提案する。
2Dおよび3Dストリームを共同最適化する場合、2Dイメージブランチからバックプロパゲーションされた勾配は、3Dバックボーンネットワークの表現能力を高めることができる。
アーキテクチャ設計に加えて,2次元イメージブランチのトレーニングのための新しい2次元補助タスクである局所座標マップの正規化も提案する。
- 参考スコア(独自算出の注目度): 53.89242981791315
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent works have revealed the superiority of feature-level fusion for
cross-modal 3D object detection, where fine-grained feature propagation from 2D
image pixels to 3D LiDAR points has been widely adopted for performance
improvement. Still, the potential of heterogeneous feature propagation between
2D and 3D domains has not been fully explored. In this paper, in contrast to
existing pixel-to-point feature propagation, we investigate an opposite
point-to-pixel direction, allowing point-wise features to flow inversely into
the 2D image branch. Thus, when jointly optimizing the 2D and 3D streams, the
gradients back-propagated from the 2D image branch can boost the representation
ability of the 3D backbone network working on LiDAR point clouds. Then,
combining pixel-to-point and point-to-pixel information flow mechanisms, we
construct an bidirectional feature propagation framework, dubbed BiProDet. In
addition to the architectural design, we also propose normalized local
coordinates map estimation, a new 2D auxiliary task for the training of the 2D
image branch, which facilitates learning local spatial-aware features from the
image modality and implicitly enhances the overall 3D detection performance.
Extensive experiments and ablation studies validate the effectiveness of our
method. Notably, we rank $\mathbf{1^{\mathrm{st}}}$ on the highly competitive
KITTI benchmark on the cyclist class by the time of submission. The source code
is available at https://github.com/Eaphan/BiProDet.
- Abstract(参考訳): 近年,2d画像画素から3dlidar点への細粒度特徴伝播が性能改善に広く採用されているクロスモーダル3d物体検出における特徴レベル融合の優位性が明らかにされている。
しかし,2次元領域と3次元領域間の不均一な特徴伝播の可能性は十分に調査されていない。
本稿では,既存の画素間特徴伝搬とは対照的に,逆の点対画素方向を探索し,点対特徴を2次元画像分岐に逆流させる。
したがって、2Dおよび3Dストリームを共同最適化する場合、2Dイメージブランチからバックプロパゲーションされた勾配は、LiDARポイントクラウドで動作する3Dバックボーンネットワークの表現能力を高めることができる。
そして,画素間情報フロー機構と点間情報フロー機構を組み合わせることで,BiProDetと呼ばれる双方向特徴伝達フレームワークを構築する。
アーキテクチャ設計に加えて,局所的な空間認識の特徴を画像のモダリティから学習し,全体の3D検出性能を暗黙的に向上させる2次元イメージブランチのトレーニングのための新しい2次元補助タスクである正規化局所座標マップ推定も提案する。
広範な実験とアブレーション研究により,本手法の有効性が検証された。
特に、サイクリストクラスで非常に競争力のあるKITTIベンチマークで、提出時点で$\mathbf{1^{\mathrm{st}}}$をランク付けします。
ソースコードはhttps://github.com/Eaphan/BiProDet.comで入手できる。
関連論文リスト
- OV-Uni3DETR: Towards Unified Open-Vocabulary 3D Object Detection via Cycle-Modality Propagation [67.56268991234371]
OV-Uni3DETRは、様々なシナリオにおける最先端のパフォーマンスを達成し、既存のメソッドを平均6%以上上回っている。
コードと事前訓練されたモデルは、後にリリースされる。
論文 参考訳(メタデータ) (2024-03-28T17:05:04Z) - Self-supervised Learning of LiDAR 3D Point Clouds via 2D-3D Neural Calibration [107.61458720202984]
本稿では,自律走行シーンにおける3次元知覚を高めるための,新しい自己教師型学習フレームワークを提案する。
本稿では,画像とポイントクラウドデータの領域ギャップを埋めるために,学習可能な変換アライメントを提案する。
我々は剛性ポーズを推定するために密度の高い2D-3D対応を確立する。
論文 参考訳(メタデータ) (2024-01-23T02:41:06Z) - AutoAlignV2: Deformable Feature Aggregation for Dynamic Multi-Modal 3D
Object Detection [17.526914782562528]
我々はAutoAlign上に構築された高速で強力なマルチモーダル3D検出フレームワークであるAutoAlignV2を提案する。
我々の最良のモデルは、nuScenesテストのリーダーボード上で72.4 NDSに達し、新しい最先端の結果が得られます。
論文 参考訳(メタデータ) (2022-07-21T06:17:23Z) - Paint and Distill: Boosting 3D Object Detection with Semantic Passing
Network [70.53093934205057]
ライダーやカメラセンサーからの3Dオブジェクト検出タスクは、自動運転に不可欠である。
本研究では,既存のライダーベース3D検出モデルの性能向上を図るために,SPNetという新しいセマンティックパスフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-12T12:35:34Z) - DetMatch: Two Teachers are Better Than One for Joint 2D and 3D
Semi-Supervised Object Detection [29.722784254501768]
DetMatchは、2Dおよび3Dモダリティに関する共同半教師付き学習のための柔軟なフレームワークである。
両方のセンサーで検出された物体を識別することで、パイプラインはよりクリーンで堅牢な擬似ラベルを生成する。
我々はRGB画像のよりリッチなセマンティクスを活用して、誤った3Dクラスの予測を修正し、3Dボックスのローカライズを改善する。
論文 参考訳(メタデータ) (2022-03-17T17:58:00Z) - Deep Continuous Fusion for Multi-Sensor 3D Object Detection [103.5060007382646]
本稿では,LIDARとカメラを併用して高精度な位置検出を実現する3Dオブジェクト検出器を提案する。
我々は,連続畳み込みを利用して画像とlidar特徴マップを異なるレベルの解像度で融合する,エンドツーエンド学習可能なアーキテクチャを設計した。
論文 参考訳(メタデータ) (2020-12-20T18:43:41Z) - Cross-Modality 3D Object Detection [63.29935886648709]
本稿では,3次元物体検出のための新しい2段階多モード融合ネットワークを提案する。
アーキテクチャ全体が2段階の融合を促進する。
KITTIデータセットを用いた実験により,提案したマルチステージ融合により,ネットワークがより良い表現を学習できることが示唆された。
論文 参考訳(メタデータ) (2020-08-16T11:01:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。