論文の概要: Introducing Depth into Transformer-based 3D Object Detection
- arxiv url: http://arxiv.org/abs/2302.13002v2
- Date: Mon, 5 Jun 2023 09:10:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-07 02:47:01.754805
- Title: Introducing Depth into Transformer-based 3D Object Detection
- Title(参考訳): トランスベース3次元物体検出への奥行きの導入
- Authors: Hao Zhang, Hongyang Li, Ailing Zeng, Feng Li, Shilong Liu, Xingyu
Liao, Lei Zhang
- Abstract要約: 本稿では,カメラを用いた3次元検出のためのDepth-Aware Transformerフレームワークを提案する。
DATは,同じ設定下でnuScenes val上で+2.8 NDSを大幅に改善することを示す。
トレーニング済みのVoVNet-99をバックボーンとして使用する場合、DATはnuScenesテストで60.0 NDSと51.5 mAPの強い結果が得られる。
- 参考スコア(独自算出の注目度): 24.224177932086455
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present DAT, a Depth-Aware Transformer framework designed
for camera-based 3D detection. Our model is based on observing two major issues
in existing methods: large depth translation errors and duplicate predictions
along depth axes. To mitigate these issues, we propose two key solutions within
DAT. To address the first issue, we introduce a Depth-Aware Spatial
Cross-Attention (DA-SCA) module that incorporates depth information into
spatial cross-attention when lifting image features to 3D space. To address the
second issue, we introduce an auxiliary learning task called Depth-aware
Negative Suppression loss. First, based on their reference points, we organize
features as a Bird's-Eye-View (BEV) feature map. Then, we sample positive and
negative features along each object ray that connects an object and a camera
and train the model to distinguish between them. The proposed DA-SCA and DNS
methods effectively alleviate these two problems. We show that DAT is a
versatile method that enhances the performance of all three popular models,
BEVFormer, DETR3D, and PETR. Our evaluation on BEVFormer demonstrates that DAT
achieves a significant improvement of +2.8 NDS on nuScenes val under the same
settings. Moreover, when using pre-trained VoVNet-99 as the backbone, DAT
achieves strong results of 60.0 NDS and 51.5 mAP on nuScenes test. Our code
will be soon.
- Abstract(参考訳): 本稿では,カメラベースの3d検出用に設計された奥行き認識トランスフォーマフレームワークdatを提案する。
本モデルは,既存手法における2つの大きな問題,すなわち深度変換誤差と深度軸に沿った重複予測を考察した。
これらの問題を緩和するため、我々はDAT内の2つの重要な解決策を提案する。
まず,3次元空間に画像特徴を持ち上げる際に,奥行き情報を空間横断に組み込むDA-SCA(Depth-Aware Space Cross-Attention)モジュールを提案する。
2つ目の課題に対処するために,Depth-aware Negative Suppression lossという補助学習タスクを導入する。
まず、それらの参照ポイントに基づいて、Bird's-Eye-View (BEV)機能マップとして機能を整理する。
次に、対象物とカメラを接続する各オブジェクト線に沿って正および負の特徴をサンプリングし、それらの区別のためにモデルを訓練する。
提案するda-scaおよびdnsメソッドは、これらの2つの問題を効果的に緩和する。
DATはBEVFormer, DETR3D, PETRの3モデルすべての性能を向上させる汎用的手法であることを示す。
BEVFormer の評価では,同一設定下での nuScenes val 上で DAT が +2.8 NDS を大幅に向上することを示す。
さらに、トレーニング済みのVoVNet-99をバックボーンとして使用すると、nuScenesテストでは60.0 NDSと51.5 mAPの強い結果が得られる。
私達のコードはすぐに終わるわ
関連論文リスト
- Toward Accurate Camera-based 3D Object Detection via Cascade Depth
Estimation and Calibration [20.82054596017465]
最近の3次元物体検出は、画像から3次元特徴空間への変換の精度によって制限されている。
本稿では,カメラを用いた3次元物体検出の基本的な課題である,正確な特徴持ち上げと物体位置決めのための深度情報を効果的に学習する方法を提案する。
論文 参考訳(メタデータ) (2024-02-07T14:21:26Z) - Parametric Depth Based Feature Representation Learning for Object
Detection and Segmentation in Bird's Eye View [44.78243406441798]
本稿では,このような特徴変換をモデル化するために,深度などの幾何学的情報を活用することに焦点を当てる。
まず2次元画像の特徴を,各ビューの画素ごとのパラメトリック深度分布を予測して,エゴ車に定義された3次元空間に引き上げる。
次に、深度からBEVフレームへの3次元空間占有度に基づいて、3次元特徴体積を集約する。
論文 参考訳(メタデータ) (2023-07-09T06:07:22Z) - Geometric-aware Pretraining for Vision-centric 3D Object Detection [77.7979088689944]
GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。
GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。
BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
論文 参考訳(メタデータ) (2023-04-06T14:33:05Z) - Towards Domain Generalization for Multi-view 3D Object Detection in
Bird-Eye-View [11.958753088613637]
まず,MV3D-Detタスクにおける領域ギャップの原因を解析する。
頑健な深度予測を得るために,カメラの内在パラメータから深度推定を分離する手法を提案する。
焦点長の値を変更して複数の擬似ドメインを作成し、敵の訓練損失を発生させ、特徴表現をよりドメインに依存しないものにするよう促す。
論文 参考訳(メタデータ) (2023-03-03T02:59:13Z) - Learning Geometry-Guided Depth via Projective Modeling for Monocular 3D Object Detection [70.71934539556916]
射影モデルを用いて幾何学誘導深度推定を学習し, モノクル3次元物体検出を推し進める。
具体的には,モノクロ3次元物体検出ネットワークにおける2次元および3次元深度予測の投影モデルを用いた原理的幾何式を考案した。
本手法は, 適度なテスト設定において, 余分なデータを2.80%も加えることなく, 最先端単分子法の検出性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-07-29T12:30:39Z) - Geometry-aware data augmentation for monocular 3D object detection [18.67567745336633]
本稿では,自動運転システムにおける必須モジュールの一つであるモノキュラー3次元物体検出について述べる。
重要な課題は、深さ回復問題は単眼データに不備があることです。
我々は,既存の手法が,異なる幾何学的シフトが発生した場合の深さをロバストに推定できないことを明らかにするために,詳細な解析を行う。
上記の操作を,対応する4つの3D対応データ拡張手法に変換する。
論文 参考訳(メタデータ) (2021-04-12T23:12:48Z) - M3DSSD: Monocular 3D Single Stage Object Detector [82.25793227026443]
特徴アライメントと非対称非局所的注意を有するモノクロ3次元単段物体検出器(M3DSSD)を提案する。
提案したM3DSSDは,KITTIデータセット上のモノラルな3Dオブジェクト検出手法よりも大幅に性能が向上する。
論文 参考訳(メタデータ) (2021-03-24T13:09:11Z) - IAFA: Instance-aware Feature Aggregation for 3D Object Detection from a
Single Image [37.83574424518901]
単一の画像からの3Dオブジェクト検出は、自動運転において重要なタスクです。
本稿では,3次元物体検出の精度向上のために有用な情報を集約するインスタンス認識手法を提案する。
論文 参考訳(メタデータ) (2021-03-05T05:47:52Z) - PLUME: Efficient 3D Object Detection from Stereo Images [95.31278688164646]
既存の手法では、2つのステップでこの問題に対処する: 第一深度推定を行い、その深さ推定から擬似LiDAR点雲表現を計算し、3次元空間で物体検出を行う。
この2つのタスクを同一のメトリック空間で統一するモデルを提案する。
提案手法は,既存の手法と比較して推定時間を大幅に削減し,挑戦的なKITTIベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-17T05:11:38Z) - Synthetic Training for Monocular Human Mesh Recovery [100.38109761268639]
本稿では,RGB画像と大規模に異なる複数の身体部位の3次元メッシュを推定することを目的とする。
主な課題は、2D画像のすべての身体部分の3Dアノテーションを完備するトレーニングデータがないことである。
本稿では,D2S(Deep-to-scale)投影法を提案する。
論文 参考訳(メタデータ) (2020-10-27T03:31:35Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。