論文の概要: Bidirectional Propagation for Cross-Modal 3D Object Detection
- arxiv url: http://arxiv.org/abs/2301.09077v1
- Date: Sun, 22 Jan 2023 08:26:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-24 15:06:56.615382
- Title: Bidirectional Propagation for Cross-Modal 3D Object Detection
- Title(参考訳): クロスモーダル3次元物体検出のための双方向伝搬
- Authors: Yifan Zhang, Qijian Zhang, Junhui Hou, Yixuan Yuan, and Guoliang Xing
- Abstract要約: 本稿では,2次元画像枝に逆向きに特徴を流すことができる反対の点対画素方向を提案する。
2Dおよび3Dストリームを共同最適化する場合、2Dイメージブランチからバックプロパゲーションされた勾配は、3Dバックボーンネットワークの表現能力を高めることができる。
アーキテクチャ設計に加えて,2次元イメージブランチのトレーニングのための新しい2次元補助タスクである局所座標マップの正規化も提案する。
- 参考スコア(独自算出の注目度): 53.89242981791315
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent works have revealed the superiority of feature-level fusion for
cross-modal 3D object detection, where fine-grained feature propagation from 2D
image pixels to 3D LiDAR points has been widely adopted for performance
improvement. Still, the potential of heterogeneous feature propagation between
2D and 3D domains has not been fully explored. In this paper, in contrast to
existing pixel-to-point feature propagation, we investigate an opposite
point-to-pixel direction, allowing point-wise features to flow inversely into
the 2D image branch. Thus, when jointly optimizing the 2D and 3D streams, the
gradients back-propagated from the 2D image branch can boost the representation
ability of the 3D backbone network working on LiDAR point clouds. Then,
combining pixel-to-point and point-to-pixel information flow mechanisms, we
construct an bidirectional feature propagation framework, dubbed BiProDet. In
addition to the architectural design, we also propose normalized local
coordinates map estimation, a new 2D auxiliary task for the training of the 2D
image branch, which facilitates learning local spatial-aware features from the
image modality and implicitly enhances the overall 3D detection performance.
Extensive experiments and ablation studies validate the effectiveness of our
method. Notably, we rank $\mathbf{1^{\mathrm{st}}}$ on the highly competitive
KITTI benchmark on the cyclist class by the time of submission. The source code
is available at https://github.com/Eaphan/BiProDet.
- Abstract(参考訳): 近年,2d画像画素から3dlidar点への細粒度特徴伝播が性能改善に広く採用されているクロスモーダル3d物体検出における特徴レベル融合の優位性が明らかにされている。
しかし,2次元領域と3次元領域間の不均一な特徴伝播の可能性は十分に調査されていない。
本稿では,既存の画素間特徴伝搬とは対照的に,逆の点対画素方向を探索し,点対特徴を2次元画像分岐に逆流させる。
したがって、2Dおよび3Dストリームを共同最適化する場合、2Dイメージブランチからバックプロパゲーションされた勾配は、LiDARポイントクラウドで動作する3Dバックボーンネットワークの表現能力を高めることができる。
そして,画素間情報フロー機構と点間情報フロー機構を組み合わせることで,BiProDetと呼ばれる双方向特徴伝達フレームワークを構築する。
アーキテクチャ設計に加えて,局所的な空間認識の特徴を画像のモダリティから学習し,全体の3D検出性能を暗黙的に向上させる2次元イメージブランチのトレーニングのための新しい2次元補助タスクである正規化局所座標マップ推定も提案する。
広範な実験とアブレーション研究により,本手法の有効性が検証された。
特に、サイクリストクラスで非常に競争力のあるKITTIベンチマークで、提出時点で$\mathbf{1^{\mathrm{st}}}$をランク付けします。
ソースコードはhttps://github.com/Eaphan/BiProDet.comで入手できる。
関連論文リスト
- Towards Deeper and Better Multi-view Feature Fusion for 3D Semantic
Segmentation [17.557697146752652]
2Dと3Dセマンティックセマンティックセグメンテーションは3Dシーン理解において主流になっている。
この2つの異なる空間から立体的特徴を融合し処理する方法はまだ解明されていない。
本稿では,その単純さに拘わらず,一方向の多視点2次元深部セマンティックな特徴を3次元の深部セマンティックな特徴と整合した3次元空間に投影することで,より優れた機能融合がもたらされることを論じる。
論文 参考訳(メタデータ) (2022-12-13T15:58:25Z) - Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR-based
Perception [122.53774221136193]
運転時のLiDARに基づく認識のための最先端の手法は、しばしば点雲を2D空間に投影し、2D畳み込みによって処理する。
自然な対策として、3Dボクセル化と3D畳み込みネットワークを利用する方法がある。
本研究では,3次元幾何学的パターンを探索するために,円筒状分割と非対称な3次元畳み込みネットワークを設計する,屋外LiDARセグメンテーションのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-12T06:25:11Z) - AutoShape: Real-Time Shape-Aware Monocular 3D Object Detection [15.244852122106634]
形状認識型2D/3D制約を3D検出フレームワークに組み込む手法を提案する。
具体的には、ディープニューラルネットワークを用いて、2次元画像領域の区別された2Dキーポイントを学習する。
2D/3Dキーポイントの基礎的真理を生成するために、自動的なモデル適合手法が提案されている。
論文 参考訳(メタデータ) (2021-08-25T08:50:06Z) - Multi-Modality Task Cascade for 3D Object Detection [22.131228757850373]
多くの手法は2つのモデルを個別に訓練し、単純な特徴結合を用いて3Dセンサーデータを表現している。
本稿では,3次元ボックスの提案を利用して2次元セグメンテーション予測を改善する新しいマルチモードタスクカスケードネットワーク(MTC-RCNN)を提案する。
2段階の3次元モジュール間の2次元ネットワークを組み込むことで,2次元および3次元のタスク性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2021-07-08T17:55:01Z) - Learning from 2D: Pixel-to-Point Knowledge Transfer for 3D Pretraining [21.878815180924832]
豊富な2Dデータセットから学んだ2Dネットワークを活用した新しい3Dプリトレーニング手法を提案する。
実験により,2次元知識を事前学習した3次元モデルにより,実世界の様々な3次元ダウンストリームタスクのパフォーマンスが向上することを示した。
論文 参考訳(メタデータ) (2021-04-10T05:40:42Z) - Bidirectional Projection Network for Cross Dimension Scene Understanding [69.29443390126805]
本稿では,2次元および3次元の連立推論のための縦方向投影網(BPNet)をエンドツーエンドに提示する。
emphBPM、補完的な2D、および3D情報は、複数のアーキテクチャレベルで相互に相互作用することができる。
我々のemphBPNetは2次元および3次元セマンティックセマンティックセグメンテーションのためのScanNetV2ベンチマークで最高性能を達成した。
論文 参考訳(メタデータ) (2021-03-26T08:31:39Z) - Learning Joint 2D-3D Representations for Depth Completion [90.62843376586216]
2Dおよび3Dの関節の特徴を抽出することを学ぶシンプルで効果的なニューラルネットワークブロックを設計します。
具体的には、画像画素に2D畳み込みと3D点に連続畳み込みを施した2つのドメイン固有のサブネットワークから構成される。
論文 参考訳(メタデータ) (2020-12-22T22:58:29Z) - Cross-Modality 3D Object Detection [63.29935886648709]
本稿では,3次元物体検出のための新しい2段階多モード融合ネットワークを提案する。
アーキテクチャ全体が2段階の融合を促進する。
KITTIデータセットを用いた実験により,提案したマルチステージ融合により,ネットワークがより良い表現を学習できることが示唆された。
論文 参考訳(メタデータ) (2020-08-16T11:01:20Z) - Cylinder3D: An Effective 3D Framework for Driving-scene LiDAR Semantic
Segmentation [87.54570024320354]
大規模運転シーンのLiDARセマンティックセマンティックセグメンテーションのための最先端の手法は、しばしば2D空間の点雲を投影して処理する。
3D-to-2Dプロジェクションの問題に取り組むための簡単な解決策は、3D表現を保ち、3D空間の点を処理することである。
我々は3次元シリンダー分割と3次元シリンダー畳み込みに基づくフレームワークをCylinder3Dとして開発し,3次元トポロジの関係と運転シーンの点雲の構造を利用する。
論文 参考訳(メタデータ) (2020-08-04T13:56:19Z) - Self-supervised Feature Learning by Cross-modality and Cross-view
Correspondences [32.01548991331616]
本稿では,2次元画像特徴と3次元ポイントクラウド特徴の両方を学習するための,自己指導型学習手法を提案する。
注釈付きラベルを使わずに、クロスモダリティとクロスビュー対応を利用する。
学習した2次元特徴と3次元特徴の有効性を5つの異なるタスクで伝達することによって評価する。
論文 参考訳(メタデータ) (2020-04-13T02:57:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。