論文の概要: SSD-MonoDETR: Supervised Scale-aware Deformable Transformer for
Monocular 3D Object Detection
- arxiv url: http://arxiv.org/abs/2305.07270v4
- Date: Fri, 1 Sep 2023 16:17:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-04 16:40:53.719840
- Title: SSD-MonoDETR: Supervised Scale-aware Deformable Transformer for
Monocular 3D Object Detection
- Title(参考訳): ssd-monodetr:単眼3次元物体検出のための教師付きスケールアウェア変形トランス
- Authors: Xuan He, Fan Yang, Kailun Yang, Jiacheng Lin, Haolong Fu, Meng Wang,
Jin Yuan, Zhiyong Li
- Abstract要約: 本稿では,モノクロ3次元物体検出のための"Supervised Scale-aware Deformable Attention"(SSDA)を提案する。
スケール認識を取り入れたSSDAは、オブジェクトクエリの正確な受容領域を予測できる。
SSDAは検出精度を大幅に改善する。
- 参考スコア(独自算出の注目度): 28.575174815764566
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based methods have demonstrated superior performance for
monocular 3D object detection recently, which aims at predicting 3D attributes
from a single 2D image. Most existing transformer-based methods leverage both
visual and depth representations to explore valuable query points on objects,
and the quality of the learned query points has a great impact on detection
accuracy. Unfortunately, existing unsupervised attention mechanisms in
transformers are prone to generate low-quality query features due to inaccurate
receptive fields, especially on hard objects. To tackle this problem, this
paper proposes a novel "Supervised Scale-aware Deformable Attention" (SSDA) for
monocular 3D object detection. Specifically, SSDA presets several masks with
different scales and utilizes depth and visual features to adaptively learn a
scale-aware filter for object query augmentation. Imposing the scale awareness,
SSDA could well predict the accurate receptive field of an object query to
support robust query feature generation. Aside from this, SSDA is assigned with
a Weighted Scale Matching (WSM) loss to supervise scale prediction, which
presents more confident results as compared to the unsupervised attention
mechanisms. Extensive experiments on the KITTI and Waymo Open datasets
demonstrate that SSDA significantly improves the detection accuracy, especially
on moderate and hard objects, yielding state-of-the-art performance as compared
to the existing approaches. Our code will be made publicly available at
https://github.com/mikasa3lili/SSD-MonoDETR.
- Abstract(参考訳): トランスベースの手法は,1つの2次元画像から3d属性を予測することを目的とした,単眼的3d物体検出に優れた性能を示している。
既存のトランスフォーマティブベースの手法の多くは、オブジェクトの貴重なクエリポイントを探索するために視覚的表現と奥行き表現の両方を利用しており、学習したクエリポイントの品質は検出精度に大きな影響を与えている。
残念ながら、トランスフォーマーの既存の教師なしのアテンションメカニズムは、特にハードオブジェクトにおいて、不正確な受容フィールドのため、低品質のクエリ機能を生成する傾向がある。
そこで本稿では,単眼3次元物体検出のための"supervised scale-aware deformable attention" (ssda) を提案する。
具体的には、SSDAは複数のマスクを異なるスケールでプリセットし、深さと視覚的特徴を利用してオブジェクトクエリ拡張のためのスケール認識フィルタを適応的に学習する。
SSDAでは、オブジェクトクエリの正確な受容領域を予測して、堅牢なクエリ機能生成をサポートすることができる。
これとは別に、SSDAは、監視されていない注意機構と比較してより確実な結果を示すスケール予測を監督するために、重み付きスケールマッチング(WSM)損失を割り当てる。
KITTIとWaymo Openデータセットの大規模な実験により、SSDAは検出精度を特に中等度および硬度オブジェクトで大幅に改善し、既存のアプローチと比較して最先端のパフォーマンスが得られることが示された。
私たちのコードはhttps://github.com/mikasa3lili/SSD-MonoDETRで公開されます。
関連論文リスト
- Divide and Conquer: Improving Multi-Camera 3D Perception with 2D Semantic-Depth Priors and Input-Dependent Queries [30.17281824826716]
既存の手法は、しばしば意味と深さの手がかりの相乗効果を無視し、分類と位置推定誤差をもたらす。
本稿では,SemanticsとDepthを先行として活用した入力対応トランスフォーマーフレームワークを提案する。
我々のアプローチは、意味と深さの事前を明示的にモデル化するS-Dを用いることで、オブジェクトの分類と位置推定の学習プロセスを阻害する。
論文 参考訳(メタデータ) (2024-08-13T13:51:34Z) - VFMM3D: Releasing the Potential of Image by Vision Foundation Model for Monocular 3D Object Detection [80.62052650370416]
モノクル3Dオブジェクト検出は、自律運転やロボティクスなど、さまざまなアプリケーションにおいて重要な役割を担っている。
本稿では,VFMM3Dを提案する。VFMM3Dは,ビジョンファウンデーションモデル(VFM)の機能を利用して,単一ビュー画像を正確にLiDARポイントクラウド表現に変換する,革新的なフレームワークである。
論文 参考訳(メタデータ) (2024-04-15T03:12:12Z) - S$^3$-MonoDETR: Supervised Shape&Scale-perceptive Deformable Transformer for Monocular 3D Object Detection [21.96072831561483]
本稿では,モノクロ3次元物体検出のためのSupervised Shape&Scale-perceptive Deformable Attention' (S$3$-DA) モジュールを提案する。
これにより、S$3$-DAは、任意のカテゴリに属するクエリポイントに対する受容的フィールドを効果的に推定し、堅牢なクエリ機能を生成することができる。
KITTIとOpenデータセットの実験では、S$3$-DAが検出精度を大幅に向上することが示された。
論文 参考訳(メタデータ) (2023-09-02T12:36:38Z) - Embracing Single Stride 3D Object Detector with Sparse Transformer [63.179720817019096]
自律走行のためのLiDARを用いた3次元物体検出では、物体サイズと入力シーンサイズとの比が2次元検出の場合に比べて有意に小さい。
多くの3D検出器は2D検出器の一般的な慣習に従っており、点雲の定量化後も特徴マップを分解する。
本稿では,SST(Single-stride Sparse Transformer)を提案する。
論文 参考訳(メタデータ) (2021-12-13T02:12:02Z) - Progressive Coordinate Transforms for Monocular 3D Object Detection [52.00071336733109]
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
論文 参考訳(メタデータ) (2021-08-12T15:22:33Z) - Geometry-aware data augmentation for monocular 3D object detection [18.67567745336633]
本稿では,自動運転システムにおける必須モジュールの一つであるモノキュラー3次元物体検出について述べる。
重要な課題は、深さ回復問題は単眼データに不備があることです。
我々は,既存の手法が,異なる幾何学的シフトが発生した場合の深さをロバストに推定できないことを明らかにするために,詳細な解析を行う。
上記の操作を,対応する4つの3D対応データ拡張手法に変換する。
論文 参考訳(メタデータ) (2021-04-12T23:12:48Z) - M3DSSD: Monocular 3D Single Stage Object Detector [82.25793227026443]
特徴アライメントと非対称非局所的注意を有するモノクロ3次元単段物体検出器(M3DSSD)を提案する。
提案したM3DSSDは,KITTIデータセット上のモノラルな3Dオブジェクト検出手法よりも大幅に性能が向上する。
論文 参考訳(メタデータ) (2021-03-24T13:09:11Z) - PLUME: Efficient 3D Object Detection from Stereo Images [95.31278688164646]
既存の手法では、2つのステップでこの問題に対処する: 第一深度推定を行い、その深さ推定から擬似LiDAR点雲表現を計算し、3次元空間で物体検出を行う。
この2つのタスクを同一のメトリック空間で統一するモデルを提案する。
提案手法は,既存の手法と比較して推定時間を大幅に削減し,挑戦的なKITTIベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-17T05:11:38Z) - SESS: Self-Ensembling Semi-Supervised 3D Object Detection [138.80825169240302]
具体的には、ラベルのない新しい未知のデータに基づくネットワークの一般化を促進するための、徹底的な摂動スキームを設計する。
我々のSESSは、50%のラベル付きデータを用いて、最先端の完全教師付き手法と比較して、競争性能を達成している。
論文 参考訳(メタデータ) (2019-12-26T08:48:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。