論文の概要: Boosting Monocular 3D Object Detection with Object-Centric Auxiliary
Depth Supervision
- arxiv url: http://arxiv.org/abs/2210.16574v1
- Date: Sat, 29 Oct 2022 11:32:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 17:27:20.193971
- Title: Boosting Monocular 3D Object Detection with Object-Centric Auxiliary
Depth Supervision
- Title(参考訳): 物体中心補助深度制御による単眼3次元物体検出の促進
- Authors: Youngseok Kim, Sanmin Kim, Sangmin Sim, Jun Won Choi, Dongsuk Kum
- Abstract要約: 本稿では,RGB画像に基づく3D検出器を,深度推定タスクに類似した深度予測損失で共同でトレーニングすることにより,RGB画像に基づく3D検出器の強化手法を提案する。
新たな物体中心深度予測損失は,3次元物体検出において重要な前景物体周辺の深度に焦点をあてる。
我々の深度回帰モデルは、物体の3次元信頼度を表すために、深度の不確かさを予測するためにさらに訓練される。
- 参考スコア(独自算出の注目度): 13.593246617391266
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in monocular 3D detection leverage a depth estimation network
explicitly as an intermediate stage of the 3D detection network. Depth map
approaches yield more accurate depth to objects than other methods thanks to
the depth estimation network trained on a large-scale dataset. However, depth
map approaches can be limited by the accuracy of the depth map, and
sequentially using two separated networks for depth estimation and 3D detection
significantly increases computation cost and inference time. In this work, we
propose a method to boost the RGB image-based 3D detector by jointly training
the detection network with a depth prediction loss analogous to the depth
estimation task. In this way, our 3D detection network can be supervised by
more depth supervision from raw LiDAR points, which does not require any human
annotation cost, to estimate accurate depth without explicitly predicting the
depth map. Our novel object-centric depth prediction loss focuses on depth
around foreground objects, which is important for 3D object detection, to
leverage pixel-wise depth supervision in an object-centric manner. Our depth
regression model is further trained to predict the uncertainty of depth to
represent the 3D confidence of objects. To effectively train the 3D detector
with raw LiDAR points and to enable end-to-end training, we revisit the
regression target of 3D objects and design a network architecture. Extensive
experiments on KITTI and nuScenes benchmarks show that our method can
significantly boost the monocular image-based 3D detector to outperform depth
map approaches while maintaining the real-time inference speed.
- Abstract(参考訳): 単眼3次元検出の最近の進歩は、3次元検出ネットワークの中間段階として、深さ推定ネットワークを明示的に活用している。
深度マップアプローチは、大規模データセットでトレーニングされた深度推定ネットワークのおかげで、他の方法よりも正確な深度が得られる。
しかし、深度マップアプローチは深度マップの精度によって制限され、深さ推定と3次元検出のために2つの分離ネットワークを使用すると計算コストと推論時間が大幅に増加する。
本研究では,RGB画像に基づく3次元検出器を,深度推定課題に類似した深度予測損失を伴う検出ネットワークを共同で訓練することにより高速化する手法を提案する。
このようにして、3d検出ネットワークは、人間の注釈コストを必要としない生のライダーポイントからのより深い監視により、深度マップを明示的に予測することなく正確な深さを推定できる。
新たな物体中心深度予測損失は,3次元物体検出において重要な前景物体周辺の深度に着目し,物体中心で画素単位の深度監視を利用する。
我々の深度回帰モデルは、物体の3次元信頼度を表すために、深度の不確かさを予測するためにさらに訓練される。
3D検出器を生のLiDARポイントで効果的に訓練し、エンドツーエンドのトレーニングを可能にするため、3Dオブジェクトの回帰ターゲットを再検討し、ネットワークアーキテクチャを設計する。
KITTI と nuScenes ベンチマークの大規模な実験により,本手法はリアルタイム推論速度を維持しながら深度マップのアプローチより優れていることを示す。
関連論文リスト
- Revisiting Monocular 3D Object Detection from Scene-Level Depth Retargeting to Instance-Level Spatial Refinement [44.4805861813093]
モノクロ3Dオブジェクト検出は、正確な深さの欠如により困難である。
既存の深度支援ソリューションは依然として性能が劣っている。
深度適応型モノクル3次元物体検出ネットワークを提案する。
論文 参考訳(メタデータ) (2024-12-26T10:51:50Z) - OPEN: Object-wise Position Embedding for Multi-view 3D Object Detection [102.0744303467713]
OPENと呼ばれる新しい多視点3Dオブジェクト検出器を提案する。
我々の主目的は、提案したオブジェクト指向位置埋め込みを通して、オブジェクトワイド情報をネットワークに効果的に注入することである。
OPENは、nuScenesテストベンチマークで64.4%のNDSと56.7%のmAPで、最先端の新たなパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-07-15T14:29:15Z) - Toward Accurate Camera-based 3D Object Detection via Cascade Depth
Estimation and Calibration [20.82054596017465]
最近の3次元物体検出は、画像から3次元特徴空間への変換の精度によって制限されている。
本稿では,カメラを用いた3次元物体検出の基本的な課題である,正確な特徴持ち上げと物体位置決めのための深度情報を効果的に学習する方法を提案する。
論文 参考訳(メタデータ) (2024-02-07T14:21:26Z) - Depth Estimation Matters Most: Improving Per-Object Depth Estimation for
Monocular 3D Detection and Tracking [47.59619420444781]
検出・追跡を含む単眼的3D知覚へのアプローチは、LiDARベースの手法と比較して性能が劣ることが多い。
本稿では,オブジェクト(トラックレット)の複数のフレームに異なる表現(RGBと擬似LiDAR)と時間情報を組み合わせた多層融合手法を提案する。
論文 参考訳(メタデータ) (2022-06-08T03:37:59Z) - Joint Learning of Salient Object Detection, Depth Estimation and Contour
Extraction [91.43066633305662]
RGB-D Salient Object Detection (SOD) のための新しいマルチタスク・マルチモーダルフィルタトランス (MMFT) ネットワークを提案する。
具体的には、深度推定、健全な物体検出、輪郭推定の3つの相補的なタスクを統合する。マルチタスク機構は、タスク認識の特徴を補助タスクから学習するためのモデルを促進する。
実験の結果、複数のデータセット上での深度に基づくRGB-D SOD法をはるかに上回るだけでなく、高品質の深度マップと塩分濃度を同時に正確に予測できることがわかった。
論文 参考訳(メタデータ) (2022-03-09T17:20:18Z) - MDS-Net: A Multi-scale Depth Stratification Based Monocular 3D Object
Detection Algorithm [4.958840734249869]
本論文では,マルチスケール深度層構造に基づく1段モノクロ3次元物体検出アルゴリズムを提案する。
KITTIベンチマークの実験では、MDS-Netは既存のモノクル3D検出方法よりも3D検出やBEV検出タスクに優れていた。
論文 参考訳(メタデータ) (2022-01-12T07:11:18Z) - Learning Geometry-Guided Depth via Projective Modeling for Monocular 3D Object Detection [70.71934539556916]
射影モデルを用いて幾何学誘導深度推定を学習し, モノクル3次元物体検出を推し進める。
具体的には,モノクロ3次元物体検出ネットワークにおける2次元および3次元深度予測の投影モデルを用いた原理的幾何式を考案した。
本手法は, 適度なテスト設定において, 余分なデータを2.80%も加えることなく, 最先端単分子法の検出性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-07-29T12:30:39Z) - Aug3D-RPN: Improving Monocular 3D Object Detection by Synthetic Images
with Virtual Depth [64.29043589521308]
仮想深度で画像を合成することでトレーニングデータを増強するレンダリングモジュールを提案する。
レンダリングモジュールは、RGB画像と対応するスパース深度画像とを入力として、さまざまなフォトリアリスティック合成画像を出力する。
さらに,深度推定タスクを通じて共同で最適化することで,検出モデルを改善する補助モジュールを導入する。
論文 参考訳(メタデータ) (2021-07-28T11:00:47Z) - VR3Dense: Voxel Representation Learning for 3D Object Detection and
Monocular Dense Depth Reconstruction [0.951828574518325]
3次元物体検出と単眼深層再構成ニューラルネットワークを共同トレーニングする方法を紹介します。
推論中に入力、LiDARポイントクラウド、単一のRGBイメージとして取得し、オブジェクトポーズ予測と密に再構築された深度マップを生成します。
物体検出は教師付き方式で訓練されるが,自己教師型と教師型の両方の損失関数を用いて深度予測ネットワークを訓練する。
論文 参考訳(メタデータ) (2021-04-13T04:25:54Z) - Expandable YOLO: 3D Object Detection from RGB-D Images [64.14512458954344]
本稿では,ステレオカメラから深度とカラー画像を入力する軽量物体検出器の構築を目的とする。
YOLOv3のネットワークアーキテクチャを中央から3Dに拡張することにより、深さ方向の出力が可能となる。
領域抽出結果の精度を確認するため、3次元空間におけるユニノン(IoU)の切断を導入する。
論文 参考訳(メタデータ) (2020-06-26T07:32:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。