論文の概要: S$^3$-MonoDETR: Supervised Shape&Scale-perceptive Deformable Transformer
for Monocular 3D Object Detection
- arxiv url: http://arxiv.org/abs/2309.00928v1
- Date: Sat, 2 Sep 2023 12:36:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 00:15:31.162455
- Title: S$^3$-MonoDETR: Supervised Shape&Scale-perceptive Deformable Transformer
for Monocular 3D Object Detection
- Title(参考訳): S$3$-MonoDETR:モノクロ3次元物体検出のための形状・スケール知覚変形変換器
- Authors: Xuan He, Kailun Yang, Junwei Zheng, Jin Yuan, Luis M. Bergasa, Hui
Zhang, Zhiyong Li
- Abstract要約: モノクロ3Dオブジェクト検出のためのSupervised Shape&Scale-perceptive Deformable Attention (S$3$-DA)モジュール。
本稿では,モノクロ3次元物体検出のための"Supervised Shape&Scale-perceptive Deformable Attention" (S$3$-DA) モジュールを提案する。
- 参考スコア(独自算出の注目度): 22.424834025925076
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, transformer-based methods have shown exceptional performance in
monocular 3D object detection, which can predict 3D attributes from a single 2D
image. These methods typically use visual and depth representations to generate
query points on objects, whose quality plays a decisive role in the detection
accuracy. However, current unsupervised attention mechanisms without any
geometry appearance awareness in transformers are susceptible to producing
noisy features for query points, which severely limits the network performance
and also makes the model have a poor ability to detect multi-category objects
in a single training process. To tackle this problem, this paper proposes a
novel "Supervised Shape&Scale-perceptive Deformable Attention" (S$^3$-DA)
module for monocular 3D object detection. Concretely, S$^3$-DA utilizes visual
and depth features to generate diverse local features with various shapes and
scales and predict the corresponding matching distribution simultaneously to
impose valuable shape&scale perception for each query. Benefiting from this,
S$^3$-DA effectively estimates receptive fields for query points belonging to
any category, enabling them to generate robust query features. Besides, we
propose a Multi-classification-based Shape$\&$Scale Matching (MSM) loss to
supervise the above process. Extensive experiments on KITTI and Waymo Open
datasets demonstrate that S$^3$-DA significantly improves the detection
accuracy, yielding state-of-the-art performance of single-category and
multi-category 3D object detection in a single training process compared to the
existing approaches. The source code will be made publicly available at
https://github.com/mikasa3lili/S3-MonoDETR.
- Abstract(参考訳): 近年,1枚の2次元画像から3次元特性を予測できるモノクロ3次元物体検出において,トランスフォーマーを用いた手法は例外的な性能を示した。
これらの手法は通常、視覚と奥行きの表現を使ってオブジェクトのクエリポイントを生成し、その品質が検出精度において決定的な役割を果たす。
しかし、トランスの幾何学的外観を意識しない現在の監視されていない注意機構は、クエリポイントのノイズの多い特徴を生じさせるおそれがあり、これはネットワーク性能を著しく制限し、1つのトレーニングプロセスで複数のカテゴリのオブジェクトを検出する能力に欠ける。
そこで,本稿では,単眼3次元物体検出のための"supervised shape & scale-perceptive deformable attention" (s$^3$-da)モジュールを提案する。
具体的には、S$^3$-DAは視覚的特徴と深度的特徴を利用して、様々な形状とスケールを持つ多様な局所特徴を生成し、対応する分布を同時に予測し、各クエリに価値ある形状とスケールの知覚を与える。
これにより、s$^3$-daは、任意のカテゴリに属するクエリポイントの受容フィールドを効果的に推定し、堅牢なクエリ機能を生成することができる。
さらに,複数分類に基づくShape$\&$Scale Matching (MSM) の損失を,上記のプロセスの監視のために提案する。
KITTIとWaymo Openデータセットの大規模な実験により、S$^3$-DAは検出精度を著しく向上し、既存のアプローチと比較して、単一カテゴリと複数カテゴリの3Dオブジェクト検出の最先端性能が得られることが示された。
ソースコードはhttps://github.com/mikasa3lili/S3-MonoDETRで公開されている。
関連論文リスト
- Efficient Feature Aggregation and Scale-Aware Regression for Monocular 3D Object Detection [40.14197775884804]
MonoASRHは、効率的なハイブリッド特徴集約モジュール(EH-FAM)と適応スケール対応3D回帰ヘッド(ASRH)で構成される新しいモノクル3D検出フレームワークである。
EH-FAMは、小規模オブジェクトのセマンティックな特徴を抽出するために、グローバルな受容領域を持つマルチヘッドアテンションを用いる。
ASRHは2次元境界ボックス次元を符号化し、EH-FAMで集約された意味的特徴とスケール特徴を融合する。
論文 参考訳(メタデータ) (2024-11-05T02:33:25Z) - PoIFusion: Multi-Modal 3D Object Detection via Fusion at Points of Interest [65.48057241587398]
PoIFusionは、関心点(PoIs)におけるRGBイメージとLiDARポイントクラウドに関する情報を融合するフレームワークである。
提案手法は,各モダリティの視点を維持し,計算にやさしいプロジェクションと計算によってマルチモーダル特徴を得る。
我々はnuScenesとArgoverse2データセットについて広範囲に実験を行い、我々のアプローチを評価した。
論文 参考訳(メタデータ) (2024-03-14T09:28:12Z) - Towards Unified 3D Object Detection via Algorithm and Data Unification [70.27631528933482]
我々は、最初の統一型マルチモーダル3Dオブジェクト検出ベンチマークMM-Omni3Dを構築し、上記のモノクロ検出器をマルチモーダルバージョンに拡張する。
設計した単分子・多モード検出器をそれぞれUniMODEとMM-UniMODEと命名した。
論文 参考訳(メタデータ) (2024-02-28T18:59:31Z) - 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - SSD-MonoDETR: Supervised Scale-aware Deformable Transformer for
Monocular 3D Object Detection [28.575174815764566]
本稿では,モノクロ3次元物体検出のための"Supervised Scale-aware Deformable Attention"(SSDA)を提案する。
スケール認識を取り入れたSSDAは、オブジェクトクエリの正確な受容領域を予測できる。
SSDAは検出精度を大幅に改善する。
論文 参考訳(メタデータ) (2023-05-12T06:17:57Z) - The Devil is in the Task: Exploiting Reciprocal Appearance-Localization
Features for Monocular 3D Object Detection [62.1185839286255]
低コストのモノクル3D物体検出は、自律運転において基本的な役割を果たす。
DFR-Netという動的特徴反射ネットワークを導入する。
我々は、KITTIテストセットの全ての単分子3D物体検出器の中で、第1位にランク付けする。
論文 参考訳(メタデータ) (2021-12-28T07:31:18Z) - M3DSSD: Monocular 3D Single Stage Object Detector [82.25793227026443]
特徴アライメントと非対称非局所的注意を有するモノクロ3次元単段物体検出器(M3DSSD)を提案する。
提案したM3DSSDは,KITTIデータセット上のモノラルな3Dオブジェクト検出手法よりも大幅に性能が向上する。
論文 参考訳(メタデータ) (2021-03-24T13:09:11Z) - IAFA: Instance-aware Feature Aggregation for 3D Object Detection from a
Single Image [37.83574424518901]
単一の画像からの3Dオブジェクト検出は、自動運転において重要なタスクです。
本稿では,3次元物体検出の精度向上のために有用な情報を集約するインスタンス認識手法を提案する。
論文 参考訳(メタデータ) (2021-03-05T05:47:52Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z) - SMOKE: Single-Stage Monocular 3D Object Detection via Keypoint
Estimation [3.1542695050861544]
3Dの向きとオブジェクトの変換を推定することは、インフラストラクチャレスの自律走行と運転に不可欠である。
SMOKEと呼ばれる新しい3次元オブジェクト検出手法を提案する。
構造的単純さにもかかわらず、提案するSMOKEネットワークは、KITTIデータセット上の既存のモノクル3D検出方法よりも優れている。
論文 参考訳(メタデータ) (2020-02-24T08:15:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。