論文の概要: Monocular Depth Prediction through Continuous 3D Loss
- arxiv url: http://arxiv.org/abs/2003.09763v2
- Date: Sat, 8 Aug 2020 20:36:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 13:06:30.246810
- Title: Monocular Depth Prediction through Continuous 3D Loss
- Title(参考訳): 連続3次元損失による単眼深度予測
- Authors: Minghan Zhu, Maani Ghaffari, Yuanxin Zhong, Pingping Lu, Zhong Cao,
Ryan M. Eustice and Huei Peng
- Abstract要約: 本稿では,モノクル画像から深度を学習するための連続3次元ロス関数について報告する。
特異なLIDAR点を用いて単眼画像からの深度予測を監督する。
実験により,提案した損失により深度予測精度が向上し,より一貫した3次元幾何構造を持つ点雲が生成されることがわかった。
- 参考スコア(独自算出の注目度): 16.617016980396865
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper reports a new continuous 3D loss function for learning depth from
monocular images. The dense depth prediction from a monocular image is
supervised using sparse LIDAR points, which enables us to leverage available
open source datasets with camera-LIDAR sensor suites during training.
Currently, accurate and affordable range sensor is not readily available.
Stereo cameras and LIDARs measure depth either inaccurately or sparsely/costly.
In contrast to the current point-to-point loss evaluation approach, the
proposed 3D loss treats point clouds as continuous objects; therefore, it
compensates for the lack of dense ground truth depth due to LIDAR's sparsity
measurements. We applied the proposed loss in three state-of-the-art monocular
depth prediction approaches DORN, BTS, and Monodepth2. Experimental evaluation
shows that the proposed loss improves the depth prediction accuracy and
produces point-clouds with more consistent 3D geometric structures compared
with all tested baselines, implying the benefit of the proposed loss on general
depth prediction networks. A video demo of this work is available at
https://youtu.be/5HL8BjSAY4Y.
- Abstract(参考訳): 本稿では,単眼画像から奥行きを学習するための連続的3次元損失関数について述べる。
単眼画像からの深度予測は、スパースLIDARポイントを用いて監視されるので、トレーニング中に利用可能なオープンソースデータセットをカメラLIDARセンサースイートで活用することができる。
現在、正確で安価なレンジセンサーは利用できない。
ステレオカメラとlidarは、深さを不正確な、または、ささやかに測定する。
現在の点対点損失評価手法とは対照的に,提案する3次元損失は点雲を連続的な対象として扱うため,lidarのスパーシティ測定による密接な地中真理深さの欠如を補う。
提案手法は, dorn, bts, および monodepth2 の3つの最先端単眼深度予測手法に適用した。
実験により, 提案した損失は深度予測精度を向上し, 一般深度予測ネットワークにおける損失の利点を示唆する3次元幾何構造をより一貫した点雲を生成することがわかった。
この作品のビデオデモはhttps://youtu.be/5hl8bjsay4yで見ることができる。
関連論文リスト
- NeRF-Det++: Incorporating Semantic Cues and Perspective-aware Depth
Supervision for Indoor Multi-View 3D Detection [72.0098999512727]
NeRF-Detは、NeRFを用いた屋内マルチビュー3次元検出において、表現学習の強化による優れた性能を実現している。
セマンティックエンハンスメント(セマンティックエンハンスメント)、パースペクティブ・アウェア・サンプリング(パースペクティブ・アウェア・サンプリング)、および順序深度監視を含む3つのソリューションを提案する。
結果として得られたアルゴリズムであるNeRF-Det++は、ScanNetV2とAR KITScenesデータセットで魅力的なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-22T11:48:06Z) - Boosting Monocular 3D Object Detection with Object-Centric Auxiliary
Depth Supervision [13.593246617391266]
本稿では,RGB画像に基づく3D検出器を,深度推定タスクに類似した深度予測損失で共同でトレーニングすることにより,RGB画像に基づく3D検出器の強化手法を提案する。
新たな物体中心深度予測損失は,3次元物体検出において重要な前景物体周辺の深度に焦点をあてる。
我々の深度回帰モデルは、物体の3次元信頼度を表すために、深度の不確かさを予測するためにさらに訓練される。
論文 参考訳(メタデータ) (2022-10-29T11:32:28Z) - DevNet: Self-supervised Monocular Depth Learning via Density Volume
Construction [51.96971077984869]
単眼画像からの自己教師付き深度学習は、通常、時間的に隣接する画像フレーム間の2Dピクセル単位の光度関係に依存する。
本研究は, 自己教師型単眼深度学習フレームワークであるDevNetを提案する。
論文 参考訳(メタデータ) (2022-09-14T00:08:44Z) - Towards Accurate Reconstruction of 3D Scene Shape from A Single
Monocular Image [91.71077190961688]
まず、未知のスケールまで深さを予測し、単一の単眼画像からシフトする2段階のフレームワークを提案する。
次に、3Dポイントの雲のデータを利用して、奥行きの変化とカメラの焦点距離を予測し、3Dシーンの形状を復元します。
我々は9つの未知のデータセットで深度モデルを検証し、ゼロショット評価で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-28T16:20:14Z) - BEVDepth: Acquisition of Reliable Depth for Multi-view 3D Object
Detection [13.319949358652192]
我々は,カメラを用いたBird-Eye-View 3Dオブジェクト検出のための,BEVDepthと呼ばれる信頼性の高い深度推定が可能な新しい3Dオブジェクト検出器を提案する。
BEVDepthは、挑戦的なnuScenesテストセット上で、最先端の60.0% NDSを達成する。
論文 参考訳(メタデータ) (2022-06-21T03:21:18Z) - Probabilistic and Geometric Depth: Detecting Objects in Perspective [78.00922683083776]
3次元物体検出は、運転支援システムなどの様々な実用用途で必要とされる重要な機能である。
双眼視やLiDARに頼っている従来の設定に比べて、経済的な解決策として単眼3D検出が注目されているが、それでも満足のいく結果が得られていない。
本稿ではまず,この問題に関する系統的研究を行い,現在の単分子3次元検出問題をインスタンス深度推定問題として単純化できることを考察する。
論文 参考訳(メタデータ) (2021-07-29T16:30:33Z) - VR3Dense: Voxel Representation Learning for 3D Object Detection and
Monocular Dense Depth Reconstruction [0.951828574518325]
3次元物体検出と単眼深層再構成ニューラルネットワークを共同トレーニングする方法を紹介します。
推論中に入力、LiDARポイントクラウド、単一のRGBイメージとして取得し、オブジェクトポーズ予測と密に再構築された深度マップを生成します。
物体検出は教師付き方式で訓練されるが,自己教師型と教師型の両方の損失関数を用いて深度予測ネットワークを訓練する。
論文 参考訳(メタデータ) (2021-04-13T04:25:54Z) - Learning to Recover 3D Scene Shape from a Single Image [98.20106822614392]
まず,未知のスケールまで深さを予測し,単一の単眼画像からシフトする2段階フレームワークを提案する。
そして、3dポイントクラウドエンコーダを使って深度シフトと焦点距離を予測し、リアルな3dシーンの形状を復元します。
論文 参考訳(メタデータ) (2020-12-17T02:35:13Z) - Self-Attention Dense Depth Estimation Network for Unrectified Video
Sequences [6.821598757786515]
LiDARとレーダーセンサーはリアルタイム深度推定のためのハードウェアソリューションである。
深層学習に基づく自己教師付き深度推定法は有望な結果を示した。
未修正画像に対する自己注意に基づく深度・自我移動ネットワークを提案する。
論文 参考訳(メタデータ) (2020-05-28T21:53:53Z) - D3VO: Deep Depth, Deep Pose and Deep Uncertainty for Monocular Visual
Odometry [57.5549733585324]
D3VOは、深度、ポーズ、不確実性推定という3つのレベルでディープネットワークを利用する、単眼の視覚計測のための新しいフレームワークである。
まず,ステレオビデオを用いた自己監督型単眼深度推定ネットワークを提案する。
入力画像上の画素の光度不確かさをモデル化し、深度推定精度を向上させる。
論文 参考訳(メタデータ) (2020-03-02T17:47:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。