論文の概要: MonoCD: Monocular 3D Object Detection with Complementary Depths
- arxiv url: http://arxiv.org/abs/2404.03181v1
- Date: Thu, 4 Apr 2024 03:30:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-05 15:53:27.719936
- Title: MonoCD: Monocular 3D Object Detection with Complementary Depths
- Title(参考訳): MonoCD: 補足深度による単眼3次元物体検出
- Authors: Longfei Yan, Pei Yan, Shengzhou Xiong, Xuanyu Xiang, Yihua Tan,
- Abstract要約: 深度推定は単分子3次元物体検出に不可欠だが挑戦的なサブタスクである。
2つの新しい設計で深度の相補性を高めることを提案する。
KITTIベンチマーク実験により, 余分なデータを導入することなく, 最先端の性能を実現することができた。
- 参考スコア(独自算出の注目度): 9.186673054867866
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monocular 3D object detection has attracted widespread attention due to its potential to accurately obtain object 3D localization from a single image at a low cost. Depth estimation is an essential but challenging subtask of monocular 3D object detection due to the ill-posedness of 2D to 3D mapping. Many methods explore multiple local depth clues such as object heights and keypoints and then formulate the object depth estimation as an ensemble of multiple depth predictions to mitigate the insufficiency of single-depth information. However, the errors of existing multiple depths tend to have the same sign, which hinders them from neutralizing each other and limits the overall accuracy of combined depth. To alleviate this problem, we propose to increase the complementarity of depths with two novel designs. First, we add a new depth prediction branch named complementary depth that utilizes global and efficient depth clues from the entire image rather than the local clues to reduce the correlation of depth predictions. Second, we propose to fully exploit the geometric relations between multiple depth clues to achieve complementarity in form. Benefiting from these designs, our method achieves higher complementarity. Experiments on the KITTI benchmark demonstrate that our method achieves state-of-the-art performance without introducing extra data. In addition, complementary depth can also be a lightweight and plug-and-play module to boost multiple existing monocular 3d object detectors. Code is available at https://github.com/elvintanhust/MonoCD.
- Abstract(参考訳): モノクロ3次元物体検出は、単一の画像からの物体3次元位置決めを低コストで正確に得る可能性から、広く注目を集めている。
深度推定は2次元から3次元へのマッピングの不適切さによる単眼的な3次元物体検出に不可欠だが挑戦的なサブタスクである。
多くの手法は、物体の高さやキーポイントなどの複数の局所的な深度手がかりを探索し、その後、物体の深度推定を複数の深度予測のアンサンブルとして定式化し、単一深度情報の不十分さを軽減する。
しかし、既存の多重深さの誤差は同じ符号を持つ傾向にあり、それによって互いに中和を妨げ、組み合わせた深さの全体的な精度を制限する。
この問題を軽減するために,2つの新しい設計で深度の相補性を高めることを提案する。
まず、局所的な手がかりではなく、全体像からのグローバルかつ効率的な深度手がかりを利用して、深度予測の相関を小さくする補完深度予測枝を新たに追加する。
次に,複数の奥行き手がかり間の幾何学的関係をフル活用し,相補性を実現することを提案する。
これらの設計により,本手法は高い相補性を実現する。
KITTIベンチマーク実験により, 余分なデータを導入することなく, 最先端の性能を実現することができた。
さらに、補完的な深さは軽量でプラグアンドプレイのモジュールであり、既存の複数のモノクル3d物体検出器を増強することができる。
コードはhttps://github.com/elvintanhust/MonoCDで入手できる。
関連論文リスト
- OPEN: Object-wise Position Embedding for Multi-view 3D Object Detection [102.0744303467713]
OPENと呼ばれる新しい多視点3Dオブジェクト検出器を提案する。
我々の主目的は、提案したオブジェクト指向位置埋め込みを通して、オブジェクトワイド情報をネットワークに効果的に注入することである。
OPENは、nuScenesテストベンチマークで64.4%のNDSと56.7%のmAPで、最先端の新たなパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-07-15T14:29:15Z) - MonoPGC: Monocular 3D Object Detection with Pixel Geometry Contexts [6.639648061168067]
我々は、リッチなPixel Geometry Contextsを備えた新しいエンドツーエンドのモノクロ3Dオブジェクト検出フレームワークであるMonoPGCを提案する。
我々は,局所的および大域的な深度幾何学的知識を視覚的特徴に注入するために,画素深度推定を補助タスクとして導入し,設計深度クロスアテンションピラミッドモジュール(DCPM)を設計する。
さらに,3次元空間位置と奥行き認識機能を効率よく統合するDSATを提案する。
論文 参考訳(メタデータ) (2023-02-21T09:21:58Z) - Boosting Monocular 3D Object Detection with Object-Centric Auxiliary
Depth Supervision [13.593246617391266]
本稿では,RGB画像に基づく3D検出器を,深度推定タスクに類似した深度予測損失で共同でトレーニングすることにより,RGB画像に基づく3D検出器の強化手法を提案する。
新たな物体中心深度予測損失は,3次元物体検出において重要な前景物体周辺の深度に焦点をあてる。
我々の深度回帰モデルは、物体の3次元信頼度を表すために、深度の不確かさを予測するためにさらに訓練される。
論文 参考訳(メタデータ) (2022-10-29T11:32:28Z) - Monocular 3D Object Detection with Depth from Motion [74.29588921594853]
我々は、正確な物体深度推定と検出にカメラエゴモーションを利用する。
我々のフレームワークはDfM(Depth from Motion)と呼ばれ、2D画像の特徴を3D空間に持ち上げて3Dオブジェクトを検出する。
我々のフレームワークは、KITTIベンチマークにおいて最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2022-07-26T15:48:46Z) - MonoDETR: Depth-guided Transformer for Monocular 3D Object Detection [61.89277940084792]
深度誘導型TRansformer(MonoDETR)を用いたモノクロ検出のための最初のDETRフレームワークについて紹介する。
我々は3Dオブジェクト候補を学習可能なクエリとして定式化し、オブジェクトとシーンの深度相互作用を行うための深度誘導デコーダを提案する。
モノクルイメージを入力としてKITTIベンチマークでは、MonoDETRは最先端のパフォーマンスを実現し、追加の深度アノテーションを必要としない。
論文 参考訳(メタデータ) (2022-03-24T19:28:54Z) - MonoDTR: Monocular 3D Object Detection with Depth-Aware Transformer [25.61949580447076]
モノクロ3Dオブジェクト検出のための新しいエンド・ツー・エンドディープ・アウェア・トランスフォーマネットワークであるMonoDTRを提案する。
1)Depth-Aware Feature Enhancement (DFE)モジュールは、余分な計算を必要とせずに暗黙的に深度認識機能を学習し、(2)Depth-Aware Transformer (DTR)モジュールは、文脈認識と深度認識機能をグローバルに統合する。
提案する深度認識モジュールは,既存の画像専用単分子3Dオブジェクト検出器に容易に接続でき,性能が向上する。
論文 参考訳(メタデータ) (2022-03-21T13:40:10Z) - MonoJSG: Joint Semantic and Geometric Cost Volume for Monocular 3D
Object Detection [10.377424252002792]
モノクル3D物体検出は正確な深度回復能力に欠ける。
ディープニューラルネットワーク(DNN)は、高レベルの学習機能からモノクルディープセンシングを可能にする。
深度誤差をモデル化するための共同意味量と幾何学的コスト容積を提案する。
論文 参考訳(メタデータ) (2022-03-16T11:54:10Z) - Probabilistic and Geometric Depth: Detecting Objects in Perspective [78.00922683083776]
3次元物体検出は、運転支援システムなどの様々な実用用途で必要とされる重要な機能である。
双眼視やLiDARに頼っている従来の設定に比べて、経済的な解決策として単眼3D検出が注目されているが、それでも満足のいく結果が得られていない。
本稿ではまず,この問題に関する系統的研究を行い,現在の単分子3次元検出問題をインスタンス深度推定問題として単純化できることを考察する。
論文 参考訳(メタデータ) (2021-07-29T16:30:33Z) - Learning Geometry-Guided Depth via Projective Modeling for Monocular 3D Object Detection [70.71934539556916]
射影モデルを用いて幾何学誘導深度推定を学習し, モノクル3次元物体検出を推し進める。
具体的には,モノクロ3次元物体検出ネットワークにおける2次元および3次元深度予測の投影モデルを用いた原理的幾何式を考案した。
本手法は, 適度なテスト設定において, 余分なデータを2.80%も加えることなく, 最先端単分子法の検出性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-07-29T12:30:39Z) - M3DSSD: Monocular 3D Single Stage Object Detector [82.25793227026443]
特徴アライメントと非対称非局所的注意を有するモノクロ3次元単段物体検出器(M3DSSD)を提案する。
提案したM3DSSDは,KITTIデータセット上のモノラルな3Dオブジェクト検出手法よりも大幅に性能が向上する。
論文 参考訳(メタデータ) (2021-03-24T13:09:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。