論文の概要: SSD-MonoDTR: Supervised Scale-constrained Deformable Transformer for
Monocular 3D Object Detection
- arxiv url: http://arxiv.org/abs/2305.07270v1
- Date: Fri, 12 May 2023 06:17:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-15 13:56:38.400823
- Title: SSD-MonoDTR: Supervised Scale-constrained Deformable Transformer for
Monocular 3D Object Detection
- Title(参考訳): SSD-MonoDTR:モノクロ3次元物体検出のためのスケール制限変形可能な変圧器
- Authors: Xuan He, Fan Yang, Jiacheng Lin, Haolong Fu, Jin Yuan, Kailun Yang,
Zhiyong Li
- Abstract要約: 本稿では,モノクロ3次元物体検出のための「Supervised Scale-Constrained Deformable Attention'」(SSDA)を提案する。
スケール制約を導入することで、SSDAはクエリの正確な受容領域を予測し、堅牢なクエリ機能生成をサポートする。
SSDAは、特に中等度および硬度オブジェクトにおける検出精度を著しく向上し、既存のアプローチと比較してSOTA性能が向上する。
- 参考スコア(独自算出の注目度): 14.379969693256346
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based methods have demonstrated superior performance for
monocular 3D object detection recently, which predicts 3D attributes from a
single 2D image. Most existing transformer-based methods leverage visual and
depth representations to explore valuable query points on objects, and the
quality of the learned queries has a great impact on detection accuracy.
Unfortunately, existing unsupervised attention mechanisms in transformer are
prone to generate low-quality query features due to inaccurate receptive
fields, especially on hard objects. To tackle this problem, this paper proposes
a novel ``Supervised Scale-constrained Deformable Attention'' (SSDA) for
monocular 3D object detection. Specifically, SSDA presets several masks with
different scales and utilizes depth and visual features to predict the local
feature for each query. Imposing the scale constraint, SSDA could well predict
the accurate receptive field of a query to support robust query feature
generation. What is more, SSDA is assigned with a Weighted Scale Matching (WSM)
loss to supervise scale prediction, which presents more confident results as
compared to the unsupervised attention mechanisms. Extensive experiments on
``KITTI'' demonstrate that SSDA significantly improves the detection accuracy
especially on moderate and hard objects, yielding SOTA performance as compared
to the existing approaches. Code will be publicly available at
https://github.com/mikasa3lili/SSD-MonoDETR.
- Abstract(参考訳): トランスフォーマーに基づく手法は,近年,単一2次元画像から3次元特性を予測するモノクロ3次元物体検出において,優れた性能を示している。
既存のトランスフォーマティブベースの手法の多くは、オブジェクトの貴重なクエリポイントを探索するために視覚的および奥行き表現を利用し、学習されたクエリの品質は検出精度に大きな影響を与えます。
残念なことに、トランスフォーマーの既存の監視されていないアテンションメカニズムは、特にハードオブジェクトにおいて不正確な受信フィールドによって、低品質のクエリ機能を生成する傾向にある。
そこで本研究では,モノクロ3次元物体検出のための"Supervised Scale-Constrained Deformable Attention' (SSDA)"を提案する。
具体的には、SSDAは複数のマスクを異なるスケールでプリセットし、深さと視覚的特徴を使用して各クエリのローカル機能を予測する。
スケール制約を導入することで、SSDAはクエリの正確な受容領域を予測し、堅牢なクエリ機能生成をサポートする。
さらに、SSDAは、監視されていない注意機構と比較してより確実な結果を示すスケール予測を監督するために、軽量スケールマッチング(WSM)損失を割り当てる。
KITTI'の広範囲な実験により、SSDAは特に中等度および硬度物体における検出精度を著しく向上し、既存のアプローチと比較してSOTA性能が向上することが示された。
コードはhttps://github.com/mikasa3lili/SSD-MonoDETRで公開される。
関連論文リスト
- Divide and Conquer: Improving Multi-Camera 3D Perception with 2D Semantic-Depth Priors and Input-Dependent Queries [30.17281824826716]
既存の手法は、しばしば意味と深さの手がかりの相乗効果を無視し、分類と位置推定誤差をもたらす。
本稿では,SemanticsとDepthを先行として活用した入力対応トランスフォーマーフレームワークを提案する。
我々のアプローチは、意味と深さの事前を明示的にモデル化するS-Dを用いることで、オブジェクトの分類と位置推定の学習プロセスを阻害する。
論文 参考訳(メタデータ) (2024-08-13T13:51:34Z) - VFMM3D: Releasing the Potential of Image by Vision Foundation Model for Monocular 3D Object Detection [80.62052650370416]
モノクル3Dオブジェクト検出は、自律運転やロボティクスなど、さまざまなアプリケーションにおいて重要な役割を担っている。
本稿では,VFMM3Dを提案する。VFMM3Dは,ビジョンファウンデーションモデル(VFM)の機能を利用して,単一ビュー画像を正確にLiDARポイントクラウド表現に変換する,革新的なフレームワークである。
論文 参考訳(メタデータ) (2024-04-15T03:12:12Z) - S$^3$-MonoDETR: Supervised Shape&Scale-perceptive Deformable Transformer for Monocular 3D Object Detection [21.96072831561483]
本稿では,モノクロ3次元物体検出のためのSupervised Shape&Scale-perceptive Deformable Attention' (S$3$-DA) モジュールを提案する。
これにより、S$3$-DAは、任意のカテゴリに属するクエリポイントに対する受容的フィールドを効果的に推定し、堅牢なクエリ機能を生成することができる。
KITTIとOpenデータセットの実験では、S$3$-DAが検出精度を大幅に向上することが示された。
論文 参考訳(メタデータ) (2023-09-02T12:36:38Z) - Embracing Single Stride 3D Object Detector with Sparse Transformer [63.179720817019096]
自律走行のためのLiDARを用いた3次元物体検出では、物体サイズと入力シーンサイズとの比が2次元検出の場合に比べて有意に小さい。
多くの3D検出器は2D検出器の一般的な慣習に従っており、点雲の定量化後も特徴マップを分解する。
本稿では,SST(Single-stride Sparse Transformer)を提案する。
論文 参考訳(メタデータ) (2021-12-13T02:12:02Z) - Progressive Coordinate Transforms for Monocular 3D Object Detection [52.00071336733109]
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
論文 参考訳(メタデータ) (2021-08-12T15:22:33Z) - Geometry-aware data augmentation for monocular 3D object detection [18.67567745336633]
本稿では,自動運転システムにおける必須モジュールの一つであるモノキュラー3次元物体検出について述べる。
重要な課題は、深さ回復問題は単眼データに不備があることです。
我々は,既存の手法が,異なる幾何学的シフトが発生した場合の深さをロバストに推定できないことを明らかにするために,詳細な解析を行う。
上記の操作を,対応する4つの3D対応データ拡張手法に変換する。
論文 参考訳(メタデータ) (2021-04-12T23:12:48Z) - M3DSSD: Monocular 3D Single Stage Object Detector [82.25793227026443]
特徴アライメントと非対称非局所的注意を有するモノクロ3次元単段物体検出器(M3DSSD)を提案する。
提案したM3DSSDは,KITTIデータセット上のモノラルな3Dオブジェクト検出手法よりも大幅に性能が向上する。
論文 参考訳(メタデータ) (2021-03-24T13:09:11Z) - PLUME: Efficient 3D Object Detection from Stereo Images [95.31278688164646]
既存の手法では、2つのステップでこの問題に対処する: 第一深度推定を行い、その深さ推定から擬似LiDAR点雲表現を計算し、3次元空間で物体検出を行う。
この2つのタスクを同一のメトリック空間で統一するモデルを提案する。
提案手法は,既存の手法と比較して推定時間を大幅に削減し,挑戦的なKITTIベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-17T05:11:38Z) - SESS: Self-Ensembling Semi-Supervised 3D Object Detection [138.80825169240302]
具体的には、ラベルのない新しい未知のデータに基づくネットワークの一般化を促進するための、徹底的な摂動スキームを設計する。
我々のSESSは、50%のラベル付きデータを用いて、最先端の完全教師付き手法と比較して、競争性能を達成している。
論文 参考訳(メタデータ) (2019-12-26T08:48:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。