論文の概要: CrossDTR: Cross-view and Depth-guided Transformers for 3D Object
Detection
- arxiv url: http://arxiv.org/abs/2209.13507v1
- Date: Tue, 27 Sep 2022 16:23:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-28 16:27:58.865956
- Title: CrossDTR: Cross-view and Depth-guided Transformers for 3D Object
Detection
- Title(参考訳): CrossDTR:3次元物体検出のためのクロスビューおよび奥行き誘導変換器
- Authors: Ching-Yu Tseng, Yi-Rong Chen, Hsin-Ying Lee, Tsung-Han Wu, Wen-Chin
Chen, Winston Hsu
- Abstract要約: そこで我々は,3次元物体検出のためのクロスビューおよび奥行き誘導変換器を提案する。
歩行者検出では既存のマルチカメラ手法を10%上回り,mAPとNDSの指標では約3%を上回りました。
- 参考スコア(独自算出の注目度): 10.696619570924778
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To achieve accurate 3D object detection at a low cost for autonomous driving,
many multi-camera methods have been proposed and solved the occlusion problem
of monocular approaches. However, due to the lack of accurate estimated depth,
existing multi-camera methods often generate multiple bounding boxes along a
ray of depth direction for difficult small objects such as pedestrians,
resulting in an extremely low recall. Furthermore, directly applying depth
prediction modules to existing multi-camera methods, generally composed of
large network architectures, cannot meet the real-time requirements of
self-driving applications. To address these issues, we propose Cross-view and
Depth-guided Transformers for 3D Object Detection, CrossDTR. First, our
lightweight depth predictor is designed to produce precise object-wise sparse
depth maps and low-dimensional depth embeddings without extra depth datasets
during supervision. Second, a cross-view depth-guided transformer is developed
to fuse the depth embeddings as well as image features from cameras of
different views and generate 3D bounding boxes. Extensive experiments
demonstrated that our method hugely surpassed existing multi-camera methods by
10 percent in pedestrian detection and about 3 percent in overall mAP and NDS
metrics. Also, computational analyses showed that our method is 5 times faster
than prior approaches. Our codes will be made publicly available at
https://github.com/sty61010/CrossDTR.
- Abstract(参考訳): 自動運転車の低コストで高精度な3次元物体検出を実現するため,多くのマルチカメラ手法が提案され,モノクルアプローチの閉塞問題を解決している。
しかし、正確な推定深度がないため、既存のマルチカメラ方式では歩行者などの難しい小型物体に対して、深度方向の光線に沿って複数のバウンディングボックスを生成することが多いため、リコールは極めて少ない。
さらに、大規模ネットワークアーキテクチャで構成される既存のマルチカメラ手法に深度予測モジュールを直接適用することは、自動運転アプリケーションのリアルタイム要件を満たせない。
この問題に対処するために,3次元物体検出のためのクロスビューおよび深度誘導トランス,crossdtrを提案する。
まず、軽量深度予測器は、監視中に余分な深さデータセットを必要とせずに、精密な物体方向スパース深度マップと低次元深度埋め込みを生成するように設計されている。
第2に、異なる視野のカメラからの映像特徴と深度埋め込みを融合させ、3Dバウンディングボックスを生成するクロスビュー深度誘導変圧器を開発した。
大規模な実験により,本手法が既存のマルチカメラ手法を大幅に上回り,歩行者検出の10%,mAPおよびNDSの指標全体の約3%を超えた。
また,計算解析の結果,従来の手法の5倍高速であることが判明した。
私たちのコードはhttps://github.com/sty61010/CrossDTRで公開されます。
関連論文リスト
- OPEN: Object-wise Position Embedding for Multi-view 3D Object Detection [102.0744303467713]
OPENと呼ばれる新しい多視点3Dオブジェクト検出器を提案する。
我々の主目的は、提案したオブジェクト指向位置埋め込みを通して、オブジェクトワイド情報をネットワークに効果的に注入することである。
OPENは、nuScenesテストベンチマークで64.4%のNDSと56.7%のmAPで、最先端の新たなパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-07-15T14:29:15Z) - DepthMOT: Depth Cues Lead to a Strong Multi-Object Tracker [4.65004369765875]
各オブジェクトを正確に区別することは、MOTアルゴリズムの基本的な目標である。
本稿では, (i) シーン深度マップのテクトitend-to-endの検出と推定, (ii) カメラのポーズ推定により不規則なカメラの動きを補正するtextitDepthMOTを提案する。
論文 参考訳(メタデータ) (2024-04-08T13:39:12Z) - Monocular 3D Object Detection with Depth from Motion [74.29588921594853]
我々は、正確な物体深度推定と検出にカメラエゴモーションを利用する。
我々のフレームワークはDfM(Depth from Motion)と呼ばれ、2D画像の特徴を3D空間に持ち上げて3Dオブジェクトを検出する。
我々のフレームワークは、KITTIベンチマークにおいて最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2022-07-26T15:48:46Z) - SurroundDepth: Entangling Surrounding Views for Self-Supervised
Multi-Camera Depth Estimation [101.55622133406446]
本研究では,複数の周囲からの情報を組み込んだSurroundDepth法を提案し,カメラ間の深度マップの予測を行う。
具体的には、周囲のすべてのビューを処理し、複数のビューから情報を効果的に融合するクロスビュー変換器を提案する。
実験において,本手法は,挑戦的なマルチカメラ深度推定データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-04-07T17:58:47Z) - MonoDETR: Depth-guided Transformer for Monocular 3D Object Detection [61.89277940084792]
深度誘導型TRansformer(MonoDETR)を用いたモノクロ検出のための最初のDETRフレームワークについて紹介する。
我々は3Dオブジェクト候補を学習可能なクエリとして定式化し、オブジェクトとシーンの深度相互作用を行うための深度誘導デコーダを提案する。
モノクルイメージを入力としてKITTIベンチマークでは、MonoDETRは最先端のパフォーマンスを実現し、追加の深度アノテーションを必要としない。
論文 参考訳(メタデータ) (2022-03-24T19:28:54Z) - DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries [43.02373021724797]
マルチカメラ3Dオブジェクト検出のためのフレームワークを提案する。
本手法は3次元空間での予測を直接操作する。
我々はnuScenes自動運転ベンチマークで最先端の性能を達成する。
論文 参考訳(メタデータ) (2021-10-13T17:59:35Z) - Multi-View Multi-Person 3D Pose Estimation with Plane Sweep Stereo [71.59494156155309]
既存のマルチビュー3Dポーズ推定手法は、複数のカメラビューからグループ2Dポーズ検出に対するクロスビュー対応を明確に確立する。
平面スイープステレオに基づくマルチビュー3Dポーズ推定手法を提案し、クロスビュー融合と3Dポーズ再構築を1ショットで共同で解決します。
論文 参考訳(メタデータ) (2021-04-06T03:49:35Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。