論文の概要: MDHA: Multi-Scale Deformable Transformer with Hybrid Anchors for Multi-View 3D Object Detection
- arxiv url: http://arxiv.org/abs/2406.17654v2
- Date: Sat, 09 Nov 2024 12:00:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:03:55.794884
- Title: MDHA: Multi-Scale Deformable Transformer with Hybrid Anchors for Multi-View 3D Object Detection
- Title(参考訳): MDHA:マルチビュー3Dオブジェクト検出のためのハイブリッドアンカー付きマルチスケール変形可能トランス
- Authors: Michelle Adeline, Junn Yong Loo, Vishnu Monn Baskaran,
- Abstract要約: MDHAは3Dオブジェクト検出のための新しいスパースクエリベースのフレームワークである。
マルチビュー・マルチスケール画像入力からのハイブリッドアンカーを用いた適応型3D出力の提案を行う。
46.4%のmAPと55.0%のNDSをResNet101バックボーンで達成している。
- 参考スコア(独自算出の注目度): 4.180333673098102
- License:
- Abstract: Multi-view 3D object detection is a crucial component of autonomous driving systems. Contemporary query-based methods primarily depend either on dataset-specific initialization of 3D anchors, introducing bias, or utilize dense attention mechanisms, which are computationally inefficient and unscalable. To overcome these issues, we present MDHA, a novel sparse query-based framework, which constructs adaptive 3D output proposals using hybrid anchors from multi-view, multi-scale image input. Fixed 2D anchors are combined with depth predictions to form 2.5D anchors, which are projected to obtain 3D proposals. To ensure high efficiency, our proposed Anchor Encoder performs sparse refinement and selects the top-$k$ anchors and features. Moreover, while existing multi-view attention mechanisms rely on projecting reference points to multiple images, our novel Circular Deformable Attention mechanism only projects to a single image but allows reference points to seamlessly attend to adjacent images, improving efficiency without compromising on performance. On the nuScenes val set, it achieves 46.4\% mAP and 55.0\% NDS with a ResNet101 backbone. MDHA significantly outperforms the baseline where anchor proposals are modelled as learnable embeddings. Code is available at https://github.com/NaomiEX/MDHA.
- Abstract(参考訳): マルチビュー3Dオブジェクト検出は、自律運転システムにおいて重要な要素である。
現代のクエリベースの手法は、主に3Dアンカーのデータセット固有の初期化、バイアスの導入、あるいは計算的に非効率で計算不可能な高密度アテンション機構の利用に依存する。
これらの問題を解決するために,マルチビュー・マルチスケール画像入力からのハイブリッドアンカーを用いて適応的な3次元出力提案を構築する,新しいスパースクエリベースのフレームワークMDHAを提案する。
固定された2Dアンカーは深さ予測と組み合わせて2.5Dアンカーを形成する。
高効率を実現するため、提案したアンカーエンコーダはスパース改良を行い、上位$k$アンカーと機能を選択する。
さらに,既存のマルチビューアテンション機構は参照ポイントを複数の画像に投影することに依存しているが,新しいCircular Deformable Attention機構は単一の画像に投影するだけで,参照ポイントが隣接する画像にシームレスに対応でき,性能を損なうことなく効率が向上する。
nuScenes val セットでは、46.4\% mAP と 55.0\% NDS を ResNet101 のバックボーンで達成している。
MDHAは、アンカー提案が学習可能な埋め込みとしてモデル化されるベースラインよりも大幅に優れている。
コードはhttps://github.com/NaomiEX/MDHAで入手できる。
関連論文リスト
- DETR4D: Direct Multi-View 3D Object Detection with Sparse Attention [50.11672196146829]
サラウンドビュー画像を用いた3次元物体検出は、自動運転にとって必須の課題である。
マルチビュー画像における3次元オブジェクト検出のためのスパースアテンションと直接特徴クエリを探索するトランスフォーマーベースのフレームワークであるDETR4Dを提案する。
論文 参考訳(メタデータ) (2022-12-15T14:18:47Z) - FusionRCNN: LiDAR-Camera Fusion for Two-stage 3D Object Detection [11.962073589763676]
既存の3D検出器は、2段階のパラダイムを採用することで精度を大幅に向上させる。
特に遠く離れた地点では、点雲の広がりは、LiDARのみの精製モジュールがオブジェクトを正確に認識し、配置することを困難にしている。
We propose a novel multi-modality two-stage approach called FusionRCNN, which is effective and efficient fuses point clouds and camera image in the Regions of Interest(RoI)。
FusionRCNNは、強力なSECONDベースラインを6.14%のmAPで大幅に改善し、競合する2段階アプローチよりも優れている。
論文 参考訳(メタデータ) (2022-09-22T02:07:25Z) - A Simple Baseline for Multi-Camera 3D Object Detection [94.63944826540491]
周囲のカメラで3Dオブジェクトを検出することは、自動運転にとって有望な方向だ。
マルチカメラオブジェクト検出のための簡易ベースラインであるSimMODを提案する。
我々は, nuScenes の3次元オブジェクト検出ベンチマークにおいて, SimMOD の有効性を示す広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-08-22T03:38:01Z) - Direct Multi-view Multi-person 3D Pose Estimation [138.48139701871213]
マルチビュー画像からマルチパーソン3Dポーズを推定するためのMulti-view Pose Transformer(MvP)を提案する。
MvPは、中間タスクに頼ることなく、複数の人物の3Dポーズを直接クリーンで効率的な方法で回帰する。
我々は,MvPモデルがより効率的でありながら,いくつかのベンチマークにおいて最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-07T13:09:20Z) - Improving 3D Object Detection with Channel-wise Transformer [58.668922561622466]
我々は手作りの最小限の設計で2段階の3Dオブジェクト検出フレームワーク(CT3D)を提案する。
CT3Dは、提案対応の埋め込みとチャンネルワイドコンテキストアグリゲーションを同時に行う。
これはKITTIテスト3D検出ベンチマークで中等車カテゴリーで81.77%のAPを達成した。
論文 参考訳(メタデータ) (2021-08-23T02:03:40Z) - M3DSSD: Monocular 3D Single Stage Object Detector [82.25793227026443]
特徴アライメントと非対称非局所的注意を有するモノクロ3次元単段物体検出器(M3DSSD)を提案する。
提案したM3DSSDは,KITTIデータセット上のモノラルな3Dオブジェクト検出手法よりも大幅に性能が向上する。
論文 参考訳(メタデータ) (2021-03-24T13:09:11Z) - Cross-Modality 3D Object Detection [63.29935886648709]
本稿では,3次元物体検出のための新しい2段階多モード融合ネットワークを提案する。
アーキテクチャ全体が2段階の融合を促進する。
KITTIデータセットを用いた実験により,提案したマルチステージ融合により,ネットワークがより良い表現を学習できることが示唆された。
論文 参考訳(メタデータ) (2020-08-16T11:01:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。