論文の概要: Absolute distance prediction based on deep learning object detection and
monocular depth estimation models
- arxiv url: http://arxiv.org/abs/2111.01715v1
- Date: Tue, 2 Nov 2021 16:29:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-03 15:43:12.664744
- Title: Absolute distance prediction based on deep learning object detection and
monocular depth estimation models
- Title(参考訳): 深層学習物体検出と単眼深度推定モデルに基づく絶対距離予測
- Authors: Armin Masoumian, David G. F. Marei, Saddam Abdulwahab, Julian
Cristiano, Domenec Puig and Hatem A. Rashwan
- Abstract要約: 本稿では,1つの画像を用いた深度推定と物体検出のための2つの深度ネットワークからなる深度学習フレームワークを提案する。
提案したフレームワークは有望であり、RMSEの精度は96%、RMSEの精度は0.203である。
- 参考スコア(独自算出の注目度): 10.563101152143817
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Determining the distance between the objects in a scene and the camera sensor
from 2D images is feasible by estimating depth images using stereo cameras or
3D cameras. The outcome of depth estimation is relative distances that can be
used to calculate absolute distances to be applicable in reality. However,
distance estimation is very challenging using 2D monocular cameras. This paper
presents a deep learning framework that consists of two deep networks for depth
estimation and object detection using a single image. Firstly, objects in the
scene are detected and localized using the You Only Look Once (YOLOv5) network.
In parallel, the estimated depth image is computed using a deep autoencoder
network to detect the relative distances. The proposed object detection based
YOLO was trained using a supervised learning technique, in turn, the network of
depth estimation was self-supervised training. The presented distance
estimation framework was evaluated on real images of outdoor scenes. The
achieved results show that the proposed framework is promising and it yields an
accuracy of 96% with RMSE of 0.203 of the correct absolute distance.
- Abstract(参考訳): ステレオカメラや3Dカメラを用いて深度画像を推定することにより、シーン内の物体と2次元画像からのカメラセンサの距離を推定できる。
深さ推定の結果は、現実に適用できる絶対距離を計算するために使用できる相対距離である。
しかし, 2次元単眼カメラを用いた距離推定は非常に困難である。
本稿では,1つの画像を用いた深度推定と物体検出のための2つの深度ネットワークからなる深度学習フレームワークを提案する。
まず、シーン内のオブジェクトを検出し、YOLOv5(You Only Look Once)ネットワークを使用してローカライズする。
並行して、推定深度画像をディープオートエンコーダネットワークを用いて計算し、相対距離を検出する。
対象検出に基づくYOLOは、教師付き学習技術を用いて訓練され、その上で、深さ推定のネットワークは自己教師付き訓練であった。
屋外シーンの実際の画像から提案した距離推定フレームワークを評価した。
その結果,提案したフレームワークは有望であり,RMSEが0.203の精度で96%の精度が得られることがわかった。
関連論文リスト
- ScaleDepth: Decomposing Metric Depth Estimation into Scale Prediction and Relative Depth Estimation [62.600382533322325]
本研究では,新しい単分子深度推定法であるScaleDepthを提案する。
提案手法は,距離深度をシーンスケールと相対深度に分解し,セマンティック・アウェア・スケール予測モジュールを用いて予測する。
本手法は,室内と屋外の両方のシーンを統一した枠組みで距離推定する。
論文 参考訳(メタデータ) (2024-07-11T05:11:56Z) - Blur aware metric depth estimation with multi-focus plenoptic cameras [8.508198765617196]
多焦点レンズカメラからの原画像のみを用いた新しい距離深度推定アルゴリズムを提案する。
提案手法は、焦点距離の異なる複数のマイクロレンズを用いるマルチフォーカス構成に特に適している。
論文 参考訳(メタデータ) (2023-08-08T13:38:50Z) - Boosting Monocular 3D Object Detection with Object-Centric Auxiliary
Depth Supervision [13.593246617391266]
本稿では,RGB画像に基づく3D検出器を,深度推定タスクに類似した深度予測損失で共同でトレーニングすることにより,RGB画像に基づく3D検出器の強化手法を提案する。
新たな物体中心深度予測損失は,3次元物体検出において重要な前景物体周辺の深度に焦点をあてる。
我々の深度回帰モデルは、物体の3次元信頼度を表すために、深度の不確かさを予測するためにさらに訓練される。
論文 参考訳(メタデータ) (2022-10-29T11:32:28Z) - Uncertainty Guided Depth Fusion for Spike Camera [49.41822923588663]
スパイクカメラのための単分子およびステレオ深度推定ネットワークの予測を融合させる新しい不確かさ誘導深度融合(UGDF)フレームワークを提案する。
我々のフレームワークは、ステレオスパイク深さ推定がより近い範囲でより良い結果をもたらすという事実に動機づけられている。
従来のカメラ深度推定よりもスパイク深度推定の利点を示すため、我々はCitySpike20Kというスパイク深度データセットに貢献する。
論文 参考訳(メタデータ) (2022-08-26T13:04:01Z) - Monocular 3D Object Detection with Depth from Motion [74.29588921594853]
我々は、正確な物体深度推定と検出にカメラエゴモーションを利用する。
我々のフレームワークはDfM(Depth from Motion)と呼ばれ、2D画像の特徴を3D空間に持ち上げて3Dオブジェクトを検出する。
我々のフレームワークは、KITTIベンチマークにおいて最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2022-07-26T15:48:46Z) - SurroundDepth: Entangling Surrounding Views for Self-Supervised
Multi-Camera Depth Estimation [101.55622133406446]
本研究では,複数の周囲からの情報を組み込んだSurroundDepth法を提案し,カメラ間の深度マップの予測を行う。
具体的には、周囲のすべてのビューを処理し、複数のビューから情報を効果的に融合するクロスビュー変換器を提案する。
実験において,本手法は,挑戦的なマルチカメラ深度推定データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-04-07T17:58:47Z) - Anchor Distance for 3D Multi-Object Distance Estimation from 2D Single
Shot [15.815583594196488]
シーン内の複数物体間の距離を,単写画像のみを用いてリアルタイムに推定する手法を提案する。
予測器がアンカー距離を使用する前に距離をキャッチし、距離に基づいてネットワークを訓練します。
提案手法は約30FPSの速度を実現し,既存の手法と比較して最低のRMSEを示す。
論文 参考訳(メタデータ) (2021-01-25T20:33:05Z) - Multi-Modal Depth Estimation Using Convolutional Neural Networks [0.8701566919381223]
本論文では, 厳しい気象条件下での遠距離センサデータと単一カメラ画像からの深度予測について考察する。
ディープラーニングアプローチを適用して深度を推定するカメラ、レーダー、ライダーなど、さまざまなセンサーモダリティの重要性を探ります。
論文 参考訳(メタデータ) (2020-12-17T15:31:49Z) - Self-Attention Dense Depth Estimation Network for Unrectified Video
Sequences [6.821598757786515]
LiDARとレーダーセンサーはリアルタイム深度推定のためのハードウェアソリューションである。
深層学習に基づく自己教師付き深度推定法は有望な結果を示した。
未修正画像に対する自己注意に基づく深度・自我移動ネットワークを提案する。
論文 参考訳(メタデータ) (2020-05-28T21:53:53Z) - Single Image Depth Estimation Trained via Depth from Defocus Cues [105.67073923825842]
単一のRGB画像から深度を推定することはコンピュータビジョンの基本的な課題である。
この作業では、異なる視点ではなく、フォーカスキューからの奥行きに依存しています。
我々は,KITTIとMake3Dデータセットの教師あり手法と同等な結果を提示し,教師なし学習手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-01-14T20:22:54Z) - Don't Forget The Past: Recurrent Depth Estimation from Monocular Video [92.84498980104424]
私たちは3つの異なる種類の深さ推定を共通のフレームワークに組み込んだ。
提案手法は, 時系列の深度マップを生成する。
モノクロビデオにのみ適用したり、異なる種類のスパース深度パターンと組み合わせたりすることができる。
論文 参考訳(メタデータ) (2020-01-08T16:50:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。