論文の概要: Virtual Normal: Enforcing Geometric Constraints for Accurate and Robust
Depth Prediction
- arxiv url: http://arxiv.org/abs/2103.04216v2
- Date: Tue, 9 Mar 2021 12:34:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-10 12:23:38.590953
- Title: Virtual Normal: Enforcing Geometric Constraints for Accurate and Robust
Depth Prediction
- Title(参考訳): virtual normal: 高精度かつロバストな深さ予測のための幾何学的制約を強制する
- Authors: Wei Yin and Yifan Liu and Chunhua Shen
- Abstract要約: 深度予測における高次3次元幾何学的制約の重要性を示す。
単純な幾何学的制約を強制する損失項を設計することにより、単眼深度推定の精度とロバスト性を大幅に改善する。
The-of-the-art results of learning metric depth on NYU Depth-V2 and KITTI。
- 参考スコア(独自算出の注目度): 87.08227378010874
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Monocular depth prediction plays a crucial role in understanding 3D scene
geometry. Although recent methods have achieved impressive progress in terms of
evaluation metrics such as the pixel-wise relative error, most methods neglect
the geometric constraints in the 3D space. In this work, we show the importance
of the high-order 3D geometric constraints for depth prediction. By designing a
loss term that enforces a simple geometric constraint, namely, virtual normal
directions determined by randomly sampled three points in the reconstructed 3D
space, we significantly improve the accuracy and robustness of monocular depth
estimation. Significantly, the virtual normal loss can not only improve the
performance of learning metric depth, but also disentangle the scale
information and enrich the model with better shape information. Therefore, when
not having access to absolute metric depth training data, we can use virtual
normal to learn a robust affine-invariant depth generated on diverse scenes. In
experiments, We show state-of-the-art results of learning metric depth on NYU
Depth-V2 and KITTI. From the high-quality predicted depth, we are now able to
recover good 3D structures of the scene such as the point cloud and surface
normal directly, eliminating the necessity of relying on additional models as
was previously done. To demonstrate the excellent generalizability of learning
affine-invariant depth on diverse data with the virtual normal loss, we
construct a large-scale and diverse dataset for training affine-invariant
depth, termed Diverse Scene Depth dataset (DiverseDepth), and test on five
datasets with the zero-shot test setting. Code is available at:
https://git.io/Depth
- Abstract(参考訳): 単眼深度予測は3次元シーン形状の理解において重要な役割を担っている。
近年の手法は画素単位の相対誤差などの評価指標で顕著な進歩を遂げているが、ほとんどの手法は3次元空間における幾何的制約を無視している。
本研究では,深度予測のための高次3次元幾何学的制約の重要性を示す。
再構成された3次元空間でランダムにサンプリングされた3点によって決定される仮想正規方向という単純な幾何学的制約を強制する損失項を設計することにより、単眼深度推定の精度とロバスト性を大幅に向上させる。
重要なことは、仮想正規損失は、学習メートル法深度の性能を向上するだけでなく、スケール情報を解き、より優れた形状情報でモデルを豊かにする。
したがって、絶対距離深度トレーニングデータにアクセスできない場合、仮想正規法を用いて多様なシーンで生成される強固なアフィン不変深さを学ぶことができる。
実験では,NYU Depth-V2 と KITTI の学習深度について,最先端の学習結果を示す。
高品質の予測深度から、ポイント雲や表面の正常といったシーンの優れた3次元構造を復元することが可能となり、これまでやってきたような追加モデルに頼る必要がなくなる。
仮想正規損失による多様なデータに対するアフィン不変深度学習の汎用性を示すために、アフィン不変深度トレーニングのための大規模かつ多様なデータセット、いわゆるDiverse Scene Depthデータセット(DiverseDepth)を構築し、ゼロショットテスト設定で5つのデータセットをテストする。
コードはhttps://git.io/Depthで入手できます。
関連論文リスト
- Towards Accurate Reconstruction of 3D Scene Shape from A Single
Monocular Image [91.71077190961688]
まず、未知のスケールまで深さを予測し、単一の単眼画像からシフトする2段階のフレームワークを提案する。
次に、3Dポイントの雲のデータを利用して、奥行きの変化とカメラの焦点距離を予測し、3Dシーンの形状を復元します。
我々は9つの未知のデータセットで深度モデルを検証し、ゼロショット評価で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-28T16:20:14Z) - MonoJSG: Joint Semantic and Geometric Cost Volume for Monocular 3D
Object Detection [10.377424252002792]
モノクル3D物体検出は正確な深度回復能力に欠ける。
ディープニューラルネットワーク(DNN)は、高レベルの学習機能からモノクルディープセンシングを可能にする。
深度誤差をモデル化するための共同意味量と幾何学的コスト容積を提案する。
論文 参考訳(メタデータ) (2022-03-16T11:54:10Z) - Learning to Recover 3D Scene Shape from a Single Image [98.20106822614392]
まず,未知のスケールまで深さを予測し,単一の単眼画像からシフトする2段階フレームワークを提案する。
そして、3dポイントクラウドエンコーダを使って深度シフトと焦点距離を予測し、リアルな3dシーンの形状を復元します。
論文 参考訳(メタデータ) (2020-12-17T02:35:13Z) - GeoNet++: Iterative Geometric Neural Network with Edge-Aware Refinement
for Joint Depth and Surface Normal Estimation [204.13451624763735]
本研究では,エッジアウェア・リファインメント(GeoNet++)を用いた幾何ニューラルネットワークを提案し,単一の画像から深さと表面正規写像の両方を共同で予測する。
geonet++は、強い3d一貫性と鋭い境界を持つ深さと表面の正常を効果的に予測する。
画素単位の誤差/精度を評価することに焦点を当てた現在の測定値とは対照的に、3DGMは予測深度が高品質な3D表面の正常を再構築できるかどうかを測定する。
論文 参考訳(メタデータ) (2020-12-13T06:48:01Z) - Occlusion-Aware Depth Estimation with Adaptive Normal Constraints [85.44842683936471]
カラービデオから多フレーム深度を推定する新しい学習手法を提案する。
本手法は深度推定精度において最先端の手法より優れる。
論文 参考訳(メタデータ) (2020-04-02T07:10:45Z) - DiverseDepth: Affine-invariant Depth Prediction Using Diverse Data [110.29043712400912]
本稿では,アフィン変換に至るまでの多様なシーンにおける高品質な深度を予測できるモノクロ画像を用いた深度推定手法を提案する。
実験の結果,提案手法は,ゼロショットテスト設定と大差で8つのデータセットの先行手法より優れていた。
論文 参考訳(メタデータ) (2020-02-03T05:38:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。