論文の概要: S$^3$-MonoDETR: Supervised Shape&Scale-perceptive Deformable Transformer
for Monocular 3D Object Detection
- arxiv url: http://arxiv.org/abs/2309.00928v1
- Date: Sat, 2 Sep 2023 12:36:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 00:15:31.162455
- Title: S$^3$-MonoDETR: Supervised Shape&Scale-perceptive Deformable Transformer
for Monocular 3D Object Detection
- Title(参考訳): S$3$-MonoDETR:モノクロ3次元物体検出のための形状・スケール知覚変形変換器
- Authors: Xuan He, Kailun Yang, Junwei Zheng, Jin Yuan, Luis M. Bergasa, Hui
Zhang, Zhiyong Li
- Abstract要約: モノクロ3Dオブジェクト検出のためのSupervised Shape&Scale-perceptive Deformable Attention (S$3$-DA)モジュール。
本稿では,モノクロ3次元物体検出のための"Supervised Shape&Scale-perceptive Deformable Attention" (S$3$-DA) モジュールを提案する。
- 参考スコア(独自算出の注目度): 22.424834025925076
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, transformer-based methods have shown exceptional performance in
monocular 3D object detection, which can predict 3D attributes from a single 2D
image. These methods typically use visual and depth representations to generate
query points on objects, whose quality plays a decisive role in the detection
accuracy. However, current unsupervised attention mechanisms without any
geometry appearance awareness in transformers are susceptible to producing
noisy features for query points, which severely limits the network performance
and also makes the model have a poor ability to detect multi-category objects
in a single training process. To tackle this problem, this paper proposes a
novel "Supervised Shape&Scale-perceptive Deformable Attention" (S$^3$-DA)
module for monocular 3D object detection. Concretely, S$^3$-DA utilizes visual
and depth features to generate diverse local features with various shapes and
scales and predict the corresponding matching distribution simultaneously to
impose valuable shape&scale perception for each query. Benefiting from this,
S$^3$-DA effectively estimates receptive fields for query points belonging to
any category, enabling them to generate robust query features. Besides, we
propose a Multi-classification-based Shape$\&$Scale Matching (MSM) loss to
supervise the above process. Extensive experiments on KITTI and Waymo Open
datasets demonstrate that S$^3$-DA significantly improves the detection
accuracy, yielding state-of-the-art performance of single-category and
multi-category 3D object detection in a single training process compared to the
existing approaches. The source code will be made publicly available at
https://github.com/mikasa3lili/S3-MonoDETR.
- Abstract(参考訳): 近年,1枚の2次元画像から3次元特性を予測できるモノクロ3次元物体検出において,トランスフォーマーを用いた手法は例外的な性能を示した。
これらの手法は通常、視覚と奥行きの表現を使ってオブジェクトのクエリポイントを生成し、その品質が検出精度において決定的な役割を果たす。
しかし、トランスの幾何学的外観を意識しない現在の監視されていない注意機構は、クエリポイントのノイズの多い特徴を生じさせるおそれがあり、これはネットワーク性能を著しく制限し、1つのトレーニングプロセスで複数のカテゴリのオブジェクトを検出する能力に欠ける。
そこで,本稿では,単眼3次元物体検出のための"supervised shape & scale-perceptive deformable attention" (s$^3$-da)モジュールを提案する。
具体的には、S$^3$-DAは視覚的特徴と深度的特徴を利用して、様々な形状とスケールを持つ多様な局所特徴を生成し、対応する分布を同時に予測し、各クエリに価値ある形状とスケールの知覚を与える。
これにより、s$^3$-daは、任意のカテゴリに属するクエリポイントの受容フィールドを効果的に推定し、堅牢なクエリ機能を生成することができる。
さらに,複数分類に基づくShape$\&$Scale Matching (MSM) の損失を,上記のプロセスの監視のために提案する。
KITTIとWaymo Openデータセットの大規模な実験により、S$^3$-DAは検出精度を著しく向上し、既存のアプローチと比較して、単一カテゴリと複数カテゴリの3Dオブジェクト検出の最先端性能が得られることが示された。
ソースコードはhttps://github.com/mikasa3lili/S3-MonoDETRで公開されている。
関連論文リスト
- 3D Semantic Segmentation-Driven Representations for 3D Object Detection [0.9790236766474201]
自動運転において、3D検出は、経路計画や動き推定など、下流のタスクにより正確な情報を提供する。
提案したマルチモーダル3Dオブジェクト検出は,画像から得られる意味的特徴と点雲から得られる幾何学的特徴を組み合わせたものである。
我々は,既存のLiDARのみに基づく3D検出の十分な意味情報を確保するためのプレゼンテーションとして,ポイントワイズ・セマンティック機能であるSeSameを提案する。
論文 参考訳(メタデータ) (2024-03-11T08:17:56Z) - UniMODE: Unified Monocular 3D Object Detection [76.77182583753051]
我々は,鳥眼視(BEV)検出パラダイムに基づく検出器を構築した。
本稿では,この課題に起因する収束不安定性に対応するために,不均一なBEVグリッド設計を提案する。
統一検出器UniMODEが導出され、挑戦的なOmni3Dデータセットの先行技術を上回る。
論文 参考訳(メタデータ) (2024-02-28T18:59:31Z) - 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - SSD-MonoDETR: Supervised Scale-aware Deformable Transformer for
Monocular 3D Object Detection [28.575174815764566]
本稿では,モノクロ3次元物体検出のための"Supervised Scale-aware Deformable Attention"(SSDA)を提案する。
スケール認識を取り入れたSSDAは、オブジェクトクエリの正確な受容領域を予測できる。
SSDAは検出精度を大幅に改善する。
論文 参考訳(メタデータ) (2023-05-12T06:17:57Z) - Model-Agnostic Hierarchical Attention for 3D Object Detection [81.33112745926113]
変圧器を用いた3次元検出器のためのモジュラー化階層設計として,2つの新しい注意機構を提案する。
異なるスケールで機能学習を可能にするために,単一スケールの入力機能から複数スケールのトークンを構築するシンプルなマルチスケールアテンションを提案する。
局所的特徴集約のために,各バウンディングボックスの提案に対して適応的なアテンション範囲を持つサイズ適応型局所アテンションを提案する。
論文 参考訳(メタデータ) (2023-01-06T18:52:12Z) - The Devil is in the Task: Exploiting Reciprocal Appearance-Localization
Features for Monocular 3D Object Detection [62.1185839286255]
低コストのモノクル3D物体検出は、自律運転において基本的な役割を果たす。
DFR-Netという動的特徴反射ネットワークを導入する。
我々は、KITTIテストセットの全ての単分子3D物体検出器の中で、第1位にランク付けする。
論文 参考訳(メタデータ) (2021-12-28T07:31:18Z) - M3DSSD: Monocular 3D Single Stage Object Detector [82.25793227026443]
特徴アライメントと非対称非局所的注意を有するモノクロ3次元単段物体検出器(M3DSSD)を提案する。
提案したM3DSSDは,KITTIデータセット上のモノラルな3Dオブジェクト検出手法よりも大幅に性能が向上する。
論文 参考訳(メタデータ) (2021-03-24T13:09:11Z) - IAFA: Instance-aware Feature Aggregation for 3D Object Detection from a
Single Image [37.83574424518901]
単一の画像からの3Dオブジェクト検出は、自動運転において重要なタスクです。
本稿では,3次元物体検出の精度向上のために有用な情報を集約するインスタンス認識手法を提案する。
論文 参考訳(メタデータ) (2021-03-05T05:47:52Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z) - SMOKE: Single-Stage Monocular 3D Object Detection via Keypoint
Estimation [3.1542695050861544]
3Dの向きとオブジェクトの変換を推定することは、インフラストラクチャレスの自律走行と運転に不可欠である。
SMOKEと呼ばれる新しい3次元オブジェクト検出手法を提案する。
構造的単純さにもかかわらず、提案するSMOKEネットワークは、KITTIデータセット上の既存のモノクル3D検出方法よりも優れている。
論文 参考訳(メタデータ) (2020-02-24T08:15:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。