論文の概要: Self-supervised 3D Object Detection from Monocular Pseudo-LiDAR
- arxiv url: http://arxiv.org/abs/2209.09486v1
- Date: Tue, 20 Sep 2022 05:55:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-21 18:36:40.372603
- Title: Self-supervised 3D Object Detection from Monocular Pseudo-LiDAR
- Title(参考訳): 単分子擬似LiDARからの自己監督型3次元物体検出
- Authors: Curie Kim, Ue-Hwan Kim, Jong-Hwan Kim
- Abstract要約: 単眼画像のみを用いた絶対深度予測と3次元物体検出手法を提案する。
その結果,提案手法は,KITTI 3Dデータセット上での他の既存手法を上回る性能を示した。
- 参考スコア(独自算出の注目度): 9.361704310981196
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There have been attempts to detect 3D objects by fusion of stereo camera
images and LiDAR sensor data or using LiDAR for pre-training and only monocular
images for testing, but there have been less attempts to use only monocular
image sequences due to low accuracy. In addition, when depth prediction using
only monocular images, only scale-inconsistent depth can be predicted, which is
the reason why researchers are reluctant to use monocular images alone.
Therefore, we propose a method for predicting absolute depth and detecting 3D
objects using only monocular image sequences by enabling end-to-end learning of
detection networks and depth prediction networks. As a result, the proposed
method surpasses other existing methods in performance on the KITTI 3D dataset.
Even when monocular image and 3D LiDAR are used together during training in an
attempt to improve performance, ours exhibit is the best performance compared
to other methods using the same input. In addition, end-to-end learning not
only improves depth prediction performance, but also enables absolute depth
prediction, because our network utilizes the fact that the size of a 3D object
such as a car is determined by the approximate size.
- Abstract(参考訳): ステレオカメラ画像とLiDARセンサーデータを融合して3Dオブジェクトを検出する試みや、単眼画像のみを事前学習してテストする方法があるが、精度が低いため、単眼画像のみを使用する試みは少ない。
また、単眼画像のみを用いた深度予測では、スケール一貫性のない深さしか予測できないため、研究者が単眼画像のみを使用するのを嫌う理由である。
そこで本研究では,検出ネットワークと深度予測ネットワークのエンドツーエンド学習を可能にすることによって,単眼画像のみを用いた絶対深度予測と3次元物体検出手法を提案する。
その結果,提案手法は,KITTI 3Dデータセット上での他の既存手法を上回る性能を示した。
学習中に単眼画像と3次元ライダーを併用して性能向上を試みても,同一入力を用いた他の手法と比較して,高い性能を示す。
さらに,車などの3次元物体のサイズが近似サイズによって決定されるという事実を利用して,エンド・ツー・エンドの学習により深度予測性能が向上するだけでなく,絶対深度予測が可能となる。
関連論文リスト
- VFMM3D: Releasing the Potential of Image by Vision Foundation Model for Monocular 3D Object Detection [80.62052650370416]
モノクル3Dオブジェクト検出は、自律運転やロボティクスなど、さまざまなアプリケーションにおいて重要な役割を担っている。
本稿では,VFMM3Dを提案する。VFMM3Dは,ビジョンファウンデーションモデル(VFM)の機能を利用して,単一ビュー画像を正確にLiDARポイントクラウド表現に変換する,革新的なフレームワークである。
論文 参考訳(メタデータ) (2024-04-15T03:12:12Z) - Depth Estimation Matters Most: Improving Per-Object Depth Estimation for
Monocular 3D Detection and Tracking [47.59619420444781]
検出・追跡を含む単眼的3D知覚へのアプローチは、LiDARベースの手法と比較して性能が劣ることが多い。
本稿では,オブジェクト(トラックレット)の複数のフレームに異なる表現(RGBと擬似LiDAR)と時間情報を組み合わせた多層融合手法を提案する。
論文 参考訳(メタデータ) (2022-06-08T03:37:59Z) - MonoDistill: Learning Spatial Features for Monocular 3D Object Detection [80.74622486604886]
本稿では,LiDAR信号からの空間情報を単分子3D検出器に導入するための簡易かつ効果的な手法を提案する。
得られたデータを用いて、ベースラインモデルと同じアーキテクチャで3D検出器をトレーニングする。
実験の結果,提案手法はベースラインモデルの性能を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2022-01-26T09:21:41Z) - MDS-Net: A Multi-scale Depth Stratification Based Monocular 3D Object
Detection Algorithm [4.958840734249869]
本論文では,マルチスケール深度層構造に基づく1段モノクロ3次元物体検出アルゴリズムを提案する。
KITTIベンチマークの実験では、MDS-Netは既存のモノクル3D検出方法よりも3D検出やBEV検出タスクに優れていた。
論文 参考訳(メタデータ) (2022-01-12T07:11:18Z) - SGM3D: Stereo Guided Monocular 3D Object Detection [62.11858392862551]
SGM3Dと呼ばれるステレオ誘導単分子物体検出ネットワークを提案する。
ステレオ画像から抽出したロバストな3次元特徴を利用して、モノクル画像から得られた特徴を強化する。
本手法は,余分な計算コストを伴わずに性能を向上させるために,他の多くの単分子的手法に統合することができる。
論文 参考訳(メタデータ) (2021-12-03T13:57:14Z) - Advancing Self-supervised Monocular Depth Learning with Sparse LiDAR [22.202192422883122]
本稿では,自己教師付き単分子深度学習を推進するための2段階ネットワークを提案する。
本モデルでは,単色画像特徴と疎LiDAR特徴を融合させて初期深度マップを推定する。
我々のモデルは、下流タスクのモノクロ3Dオブジェクト検出において、最先端のスパース-LiDAR法(Pseudo-LiDAR++)を68%以上向上させる。
論文 参考訳(メタデータ) (2021-09-20T15:28:36Z) - Probabilistic and Geometric Depth: Detecting Objects in Perspective [78.00922683083776]
3次元物体検出は、運転支援システムなどの様々な実用用途で必要とされる重要な機能である。
双眼視やLiDARに頼っている従来の設定に比べて、経済的な解決策として単眼3D検出が注目されているが、それでも満足のいく結果が得られていない。
本稿ではまず,この問題に関する系統的研究を行い,現在の単分子3次元検出問題をインスタンス深度推定問題として単純化できることを考察する。
論文 参考訳(メタデータ) (2021-07-29T16:30:33Z) - Learning Geometry-Guided Depth via Projective Modeling for Monocular 3D Object Detection [70.71934539556916]
射影モデルを用いて幾何学誘導深度推定を学習し, モノクル3次元物体検出を推し進める。
具体的には,モノクロ3次元物体検出ネットワークにおける2次元および3次元深度予測の投影モデルを用いた原理的幾何式を考案した。
本手法は, 適度なテスト設定において, 余分なデータを2.80%も加えることなく, 最先端単分子法の検出性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-07-29T12:30:39Z) - Aug3D-RPN: Improving Monocular 3D Object Detection by Synthetic Images
with Virtual Depth [64.29043589521308]
仮想深度で画像を合成することでトレーニングデータを増強するレンダリングモジュールを提案する。
レンダリングモジュールは、RGB画像と対応するスパース深度画像とを入力として、さまざまなフォトリアリスティック合成画像を出力する。
さらに,深度推定タスクを通じて共同で最適化することで,検出モデルを改善する補助モジュールを導入する。
論文 参考訳(メタデータ) (2021-07-28T11:00:47Z) - Categorical Depth Distribution Network for Monocular 3D Object Detection [7.0405916639906785]
モノラル3D検出の重要な課題は、物体の深度を正確に予測することです。
多くの手法は3次元検出を支援するために直接深度を推定しようとするが、深度不正確な結果、限られた性能を示す。
Categorical Depth Distribution Network (CADDN) を提案し、3次元空間の適切な深さ間隔にリッチなコンテキスト特徴情報を投影する。
提案手法をkitti 3d object detection benchmarkで検証し, 単項法のうち1位にランク付けした。
論文 参考訳(メタデータ) (2021-03-01T16:08:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。