論文の概要: Unleash the Potential of Image Branch for Cross-modal 3D Object
Detection
- arxiv url: http://arxiv.org/abs/2301.09077v3
- Date: Thu, 19 Oct 2023 09:41:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-20 21:01:37.610563
- Title: Unleash the Potential of Image Branch for Cross-modal 3D Object
Detection
- Title(参考訳): クロスモーダル3次元物体検出のためのイメージブランチの可能性
- Authors: Yifan Zhang, Qijian Zhang, Junhui Hou, Yixuan Yuan, and Guoliang Xing
- Abstract要約: 画像分岐のポテンシャルを2つの側面から解き放つことを目的として,新しい3Dオブジェクト検出器UPIDetを提案する。
まず、UPIDetは正規化された局所座標写像推定と呼ばれる新しい2次元補助タスクを導入する。
第2に,イメージブランチのトレーニング目標から逆転する勾配によって,ポイントクラウドバックボーンの表現能力を向上できることを見出した。
- 参考スコア(独自算出の注目度): 67.94357336206136
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To achieve reliable and precise scene understanding, autonomous vehicles
typically incorporate multiple sensing modalities to capitalize on their
complementary attributes. However, existing cross-modal 3D detectors do not
fully utilize the image domain information to address the bottleneck issues of
the LiDAR-based detectors. This paper presents a new cross-modal 3D object
detector, namely UPIDet, which aims to unleash the potential of the image
branch from two aspects. First, UPIDet introduces a new 2D auxiliary task
called normalized local coordinate map estimation. This approach enables the
learning of local spatial-aware features from the image modality to supplement
sparse point clouds. Second, we discover that the representational capability
of the point cloud backbone can be enhanced through the gradients
backpropagated from the training objectives of the image branch, utilizing a
succinct and effective point-to-pixel module. Extensive experiments and
ablation studies validate the effectiveness of our method. Notably, we achieved
the top rank in the highly competitive cyclist class of the KITTI benchmark at
the time of submission. The source code is available at
https://github.com/Eaphan/UPIDet.
- Abstract(参考訳): 信頼性と正確なシーン理解を実現するために、自動運転車は通常、補完的な特性を活かすために複数のセンシングモードを組み込む。
しかし、既存のクロスモーダル3D検出器は、LiDARベースの検出器のボトルネック問題に対処するために画像領域情報を十分に利用していない。
本稿では,イメージブランチのポテンシャルを2つの側面から解き放つことを目的とした,新しい3Dオブジェクト検出器UPIDetを提案する。
まず、upidetは正規化局所座標マップ推定と呼ばれる新しい2次元補助タスクを導入する。
このアプローチは、画像モダリティから局所空間認識特徴の学習を可能にし、スパースポイント雲を補完する。
第2に,画像ブランチのトレーニング目標から逆転する勾配によって,点雲のバックボーンの表現能力を向上し,簡潔で効果的な点対ピクセルモジュールを活用できることを見出した。
広範な実験とアブレーション研究により,本手法の有効性が検証された。
特に,提案時のkittiベンチマークの競争性の高い自転車競技クラスにおいて,上位の成績を得た。
ソースコードはhttps://github.com/Eaphan/UPIDet.comで入手できる。
関連論文リスト
- OV-Uni3DETR: Towards Unified Open-Vocabulary 3D Object Detection via Cycle-Modality Propagation [67.56268991234371]
OV-Uni3DETRは、様々なシナリオにおける最先端のパフォーマンスを達成し、既存のメソッドを平均6%以上上回っている。
コードと事前訓練されたモデルは、後にリリースされる。
論文 参考訳(メタデータ) (2024-03-28T17:05:04Z) - Self-supervised Learning of LiDAR 3D Point Clouds via 2D-3D Neural Calibration [107.61458720202984]
本稿では,自律走行シーンにおける3次元知覚を高めるための,新しい自己教師型学習フレームワークを提案する。
本稿では,画像とポイントクラウドデータの領域ギャップを埋めるために,学習可能な変換アライメントを提案する。
我々は剛性ポーズを推定するために密度の高い2D-3D対応を確立する。
論文 参考訳(メタデータ) (2024-01-23T02:41:06Z) - AutoAlignV2: Deformable Feature Aggregation for Dynamic Multi-Modal 3D
Object Detection [17.526914782562528]
我々はAutoAlign上に構築された高速で強力なマルチモーダル3D検出フレームワークであるAutoAlignV2を提案する。
我々の最良のモデルは、nuScenesテストのリーダーボード上で72.4 NDSに達し、新しい最先端の結果が得られます。
論文 参考訳(メタデータ) (2022-07-21T06:17:23Z) - Paint and Distill: Boosting 3D Object Detection with Semantic Passing
Network [70.53093934205057]
ライダーやカメラセンサーからの3Dオブジェクト検出タスクは、自動運転に不可欠である。
本研究では,既存のライダーベース3D検出モデルの性能向上を図るために,SPNetという新しいセマンティックパスフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-12T12:35:34Z) - DetMatch: Two Teachers are Better Than One for Joint 2D and 3D
Semi-Supervised Object Detection [29.722784254501768]
DetMatchは、2Dおよび3Dモダリティに関する共同半教師付き学習のための柔軟なフレームワークである。
両方のセンサーで検出された物体を識別することで、パイプラインはよりクリーンで堅牢な擬似ラベルを生成する。
我々はRGB画像のよりリッチなセマンティクスを活用して、誤った3Dクラスの予測を修正し、3Dボックスのローカライズを改善する。
論文 参考訳(メタデータ) (2022-03-17T17:58:00Z) - Deep Continuous Fusion for Multi-Sensor 3D Object Detection [103.5060007382646]
本稿では,LIDARとカメラを併用して高精度な位置検出を実現する3Dオブジェクト検出器を提案する。
我々は,連続畳み込みを利用して画像とlidar特徴マップを異なるレベルの解像度で融合する,エンドツーエンド学習可能なアーキテクチャを設計した。
論文 参考訳(メタデータ) (2020-12-20T18:43:41Z) - Cross-Modality 3D Object Detection [63.29935886648709]
本稿では,3次元物体検出のための新しい2段階多モード融合ネットワークを提案する。
アーキテクチャ全体が2段階の融合を促進する。
KITTIデータセットを用いた実験により,提案したマルチステージ融合により,ネットワークがより良い表現を学習できることが示唆された。
論文 参考訳(メタデータ) (2020-08-16T11:01:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。