論文の概要: Focal-PETR: Embracing Foreground for Efficient Multi-Camera 3D Object
Detection
- arxiv url: http://arxiv.org/abs/2212.05505v2
- Date: Tue, 13 Dec 2022 09:28:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-14 14:39:13.786032
- Title: Focal-PETR: Embracing Foreground for Efficient Multi-Camera 3D Object
Detection
- Title(参考訳): Focal-PETR:高能率マルチカメラ3Dオブジェクト検出のためのフォアグラウンド
- Authors: Shihao Wang, Xiaohui Jiang, Ying Li
- Abstract要約: 支配的なマルチカメラ3D検出パラダイムは、明示的な3D特徴構造に基づいている。
他の方法では、画像トークンと3Dオブジェクトの関係を構築するために幾何学的位置符号化が暗黙的に導入されている。
本稿では,インスタンス誘導型監視モジュールと空間アライメントモジュールを備えたFocal-PETRを提案する。
- 参考スコア(独自算出の注目度): 11.13693561702228
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The dominant multi-camera 3D detection paradigm is based on explicit 3D
feature construction, which requires complicated indexing of local image-view
features via 3D-to-2D projection. Other methods implicitly introduce geometric
positional encoding and perform global attention (e.g., PETR) to build the
relationship between image tokens and 3D objects. The 3D-to-2D perspective
inconsistency and global attention lead to a weak correlation between
foreground tokens and queries, resulting in slow convergence. We propose
Focal-PETR with instance-guided supervision and spatial alignment module to
adaptively focus object queries on discriminative foreground regions.
Focal-PETR additionally introduces a down-sampling strategy to reduce the
consumption of global attention. Due to the highly parallelized implementation
and down-sampling strategy, our model, without depth supervision, achieves
leading performance on the large-scale nuScenes benchmark and a superior speed
of 30 FPS on a single RTX3090 GPU. Extensive experiments show that our method
outperforms PETR while consuming 3x fewer training hours. The code will be made
publicly available.
- Abstract(参考訳): 支配的なマルチカメラ3D検出パラダイムは、3D-to-2Dプロジェクションによる局所像の複雑なインデックス化を必要とする明示的な3D特徴構造に基づいている。
他の方法は暗黙的に幾何学的位置符号化を導入し、画像トークンと3dオブジェクトの関係を構築するためにグローバル注意(例えばpetr)を行う。
3D-to-2Dの視点の不整合性とグローバルな注意は、前景トークンとクエリの相関が弱くなり、収束が遅くなる。
本稿では,Focal-PETRをインスタンス誘導型監視モジュールと空間アライメントモジュールで提案し,オブジェクトクエリを差別的前景領域に適応的にフォーカスする。
Focal-PETRは、世界的な注目度を減らすためのダウンサンプリング戦略も導入している。
高並列化実装とダウンサンプリング戦略により,我々のモデルは,大規模なnuScenesベンチマークで先行的な性能を実現し,RTX3090 GPUで30FPSの高速化を実現した。
大規模実験の結果, PETRは3倍の訓練時間を要し, PETRよりも優れていた。
コードは公開される予定だ。
関連論文リスト
- 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - EP2P-Loc: End-to-End 3D Point to 2D Pixel Localization for Large-Scale
Visual Localization [44.05930316729542]
本稿では,3次元点雲の大規模可視化手法EP2P-Locを提案する。
画像中の見えない3D点を除去する簡単なアルゴリズムを提案する。
このタスクで初めて、エンドツーエンドのトレーニングに差別化可能なツールを使用します。
論文 参考訳(メタデータ) (2023-09-14T07:06:36Z) - 3D Small Object Detection with Dynamic Spatial Pruning [62.72638845817799]
本稿では,3次元小物体検出のための効率的な特徴解析手法を提案する。
空間分解能の高いDSPDet3Dというマルチレベル3次元検出器を提案する。
ほぼ全ての物体を検知しながら、4500k以上のポイントからなる建物全体を直接処理するには2秒もかからない。
論文 参考訳(メタデータ) (2023-05-05T17:57:04Z) - SRCN3D: Sparse R-CNN 3D for Compact Convolutional Multi-View 3D Object
Detection and Tracking [12.285423418301683]
本稿では,スパースクエリ,ボックスワイズサンプリングによるスパースアテンション,スパース予測を組み込んだ新しい2段フルスパース検出器であるスパースR-CNN3Dを提案する。
nuScenesデータセットの実験では、SRCN3Dは3Dオブジェクト検出とマルチオブジェクト追跡の両方で競合性能を達成している。
論文 参考訳(メタデータ) (2022-06-29T07:58:39Z) - Improving 3D Object Detection with Channel-wise Transformer [58.668922561622466]
我々は手作りの最小限の設計で2段階の3Dオブジェクト検出フレームワーク(CT3D)を提案する。
CT3Dは、提案対応の埋め込みとチャンネルワイドコンテキストアグリゲーションを同時に行う。
これはKITTIテスト3D検出ベンチマークで中等車カテゴリーで81.77%のAPを達成した。
論文 参考訳(メタデータ) (2021-08-23T02:03:40Z) - Shape Prior Non-Uniform Sampling Guided Real-time Stereo 3D Object
Detection [59.765645791588454]
最近導入されたRTS3Dは、深度監督のないオブジェクトの中間表現のための効率的な4次元特徴整合埋め込み空間を構築している。
本研究では, 内部領域で高密度サンプリングを行い, 内部領域でスパースサンプリングを行う非一様サンプリング方式を提案する。
提案手法は,ネットワークパラメータをほとんど含まないAP3dに対して2.57%の改善を実現している。
論文 参考訳(メタデータ) (2021-06-18T09:14:55Z) - IAFA: Instance-aware Feature Aggregation for 3D Object Detection from a
Single Image [37.83574424518901]
単一の画像からの3Dオブジェクト検出は、自動運転において重要なタスクです。
本稿では,3次元物体検出の精度向上のために有用な情報を集約するインスタンス認識手法を提案する。
論文 参考訳(メタデータ) (2021-03-05T05:47:52Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。