論文の概要: Depth Estimation Matters Most: Improving Per-Object Depth Estimation for
Monocular 3D Detection and Tracking
- arxiv url: http://arxiv.org/abs/2206.03666v1
- Date: Wed, 8 Jun 2022 03:37:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-09 13:56:20.881294
- Title: Depth Estimation Matters Most: Improving Per-Object Depth Estimation for
Monocular 3D Detection and Tracking
- Title(参考訳): モノキュラー3次元検出と追跡のためのオブジェクト単位の深さ推定の改善
- Authors: Longlong Jing, Ruichi Yu, Henrik Kretzschmar, Kang Li, Charles R. Qi,
Hang Zhao, Alper Ayvaci, Xu Chen, Dillon Cower, Yingwei Li, Yurong You, Han
Deng, Congcong Li, Dragomir Anguelov
- Abstract要約: 検出・追跡を含む単眼的3D知覚へのアプローチは、LiDARベースの手法と比較して性能が劣ることが多い。
本稿では,オブジェクト(トラックレット)の複数のフレームに異なる表現(RGBと擬似LiDAR)と時間情報を組み合わせた多層融合手法を提案する。
- 参考スコア(独自算出の注目度): 47.59619420444781
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monocular image-based 3D perception has become an active research area in
recent years owing to its applications in autonomous driving. Approaches to
monocular 3D perception including detection and tracking, however, often yield
inferior performance when compared to LiDAR-based techniques. Through
systematic analysis, we identified that per-object depth estimation accuracy is
a major factor bounding the performance. Motivated by this observation, we
propose a multi-level fusion method that combines different representations
(RGB and pseudo-LiDAR) and temporal information across multiple frames for
objects (tracklets) to enhance per-object depth estimation. Our proposed fusion
method achieves the state-of-the-art performance of per-object depth estimation
on the Waymo Open Dataset, the KITTI detection dataset, and the KITTI MOT
dataset. We further demonstrate that by simply replacing estimated depth with
fusion-enhanced depth, we can achieve significant improvements in monocular 3D
perception tasks, including detection and tracking.
- Abstract(参考訳): モノクロ画像に基づく3D知覚は、自動運転への応用により近年活発な研究領域となっている。
しかし、検出と追跡を含む単眼の3D知覚へのアプローチは、LiDARベースの手法と比較して性能が劣ることが多い。
系統的分析により,対象毎の深さ推定精度が性能を拘束する主要な要因であることが判明した。
そこで本研究では,オブジェクト(トラックレット)の複数のフレームに異なる表現(RGBと擬似LiDAR)と時間情報を組み合わせた多段階融合手法を提案する。
提案手法は,Waymo Open Dataset,KITTI検出データセット,KITTI MOTデータセット上でのオブジェクトごとの深度推定の最先端性を実現する。
さらに,推定深度をフュージョンエンハンス深さに置き換えることで,検出や追跡を含む単眼3次元知覚タスクにおいて有意な改善が達成できることを示す。
関連論文リスト
- Depth-discriminative Metric Learning for Monocular 3D Object Detection [14.554132525651868]
本稿では,視覚的属性に関係なく,モデルが深度識別的特徴を抽出することを奨励する新しい計量学習手法を提案する。
本手法は, 各種ベースラインの性能を平均23.51%, 5.78%向上させる。
論文 参考訳(メタデータ) (2024-01-02T07:34:09Z) - IDMS: Instance Depth for Multi-scale Monocular 3D Object Detection [1.7710335706046505]
拡張畳み込みに基づくマルチスケール認識モジュールは、異なるスケールターゲットに対するモデルの処理能力を向上するために設計されている。
提案アルゴリズムをKITTIテストセットと評価セットで検証することにより,実験結果から,車種別AP40の5.27%の改善が得られた。
論文 参考訳(メタデータ) (2022-12-03T04:02:31Z) - Boosting Monocular 3D Object Detection with Object-Centric Auxiliary
Depth Supervision [13.593246617391266]
本稿では,RGB画像に基づく3D検出器を,深度推定タスクに類似した深度予測損失で共同でトレーニングすることにより,RGB画像に基づく3D検出器の強化手法を提案する。
新たな物体中心深度予測損失は,3次元物体検出において重要な前景物体周辺の深度に焦点をあてる。
我々の深度回帰モデルは、物体の3次元信頼度を表すために、深度の不確かさを予測するためにさらに訓練される。
論文 参考訳(メタデータ) (2022-10-29T11:32:28Z) - MDS-Net: A Multi-scale Depth Stratification Based Monocular 3D Object
Detection Algorithm [4.958840734249869]
本論文では,マルチスケール深度層構造に基づく1段モノクロ3次元物体検出アルゴリズムを提案する。
KITTIベンチマークの実験では、MDS-Netは既存のモノクル3D検出方法よりも3D検出やBEV検出タスクに優れていた。
論文 参考訳(メタデータ) (2022-01-12T07:11:18Z) - Probabilistic and Geometric Depth: Detecting Objects in Perspective [78.00922683083776]
3次元物体検出は、運転支援システムなどの様々な実用用途で必要とされる重要な機能である。
双眼視やLiDARに頼っている従来の設定に比べて、経済的な解決策として単眼3D検出が注目されているが、それでも満足のいく結果が得られていない。
本稿ではまず,この問題に関する系統的研究を行い,現在の単分子3次元検出問題をインスタンス深度推定問題として単純化できることを考察する。
論文 参考訳(メタデータ) (2021-07-29T16:30:33Z) - Learning Geometry-Guided Depth via Projective Modeling for Monocular 3D Object Detection [70.71934539556916]
射影モデルを用いて幾何学誘導深度推定を学習し, モノクル3次元物体検出を推し進める。
具体的には,モノクロ3次元物体検出ネットワークにおける2次元および3次元深度予測の投影モデルを用いた原理的幾何式を考案した。
本手法は, 適度なテスト設定において, 余分なデータを2.80%も加えることなく, 最先端単分子法の検出性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-07-29T12:30:39Z) - Aug3D-RPN: Improving Monocular 3D Object Detection by Synthetic Images
with Virtual Depth [64.29043589521308]
仮想深度で画像を合成することでトレーニングデータを増強するレンダリングモジュールを提案する。
レンダリングモジュールは、RGB画像と対応するスパース深度画像とを入力として、さまざまなフォトリアリスティック合成画像を出力する。
さらに,深度推定タスクを通じて共同で最適化することで,検出モデルを改善する補助モジュールを導入する。
論文 参考訳(メタデータ) (2021-07-28T11:00:47Z) - Depth-conditioned Dynamic Message Propagation for Monocular 3D Object
Detection [86.25022248968908]
モノラル3Dオブジェクト検出の問題を解決するために、コンテキストと奥行きを認識する特徴表現を学びます。
KITTIベンチマークデータセットにおける単眼的アプローチにおける最新の結果を示す。
論文 参考訳(メタデータ) (2021-03-30T16:20:24Z) - M3DSSD: Monocular 3D Single Stage Object Detector [82.25793227026443]
特徴アライメントと非対称非局所的注意を有するモノクロ3次元単段物体検出器(M3DSSD)を提案する。
提案したM3DSSDは,KITTIデータセット上のモノラルな3Dオブジェクト検出手法よりも大幅に性能が向上する。
論文 参考訳(メタデータ) (2021-03-24T13:09:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。