論文の概要: PLADE-Net: Towards Pixel-Level Accuracy for Self-Supervised Single-View
Depth Estimation with Neural Positional Encoding and Distilled Matting Loss
- arxiv url: http://arxiv.org/abs/2103.07362v1
- Date: Fri, 12 Mar 2021 15:54:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-15 13:20:11.812250
- Title: PLADE-Net: Towards Pixel-Level Accuracy for Self-Supervised Single-View
Depth Estimation with Neural Positional Encoding and Distilled Matting Loss
- Title(参考訳): PLADE-Net:Neural Positional Encoding と Distilled Matting Loss による自己監督単視深度推定のためのピクセルレベルの精度向上
- Authors: Juan Luis Gonzalez Bello, Munchurl Kim
- Abstract要約: PLADE-Netと呼ばれる自己監視型単視点画素レベルの高精度深度推定ネットワークを提案する。
提案手法は,KITTIデータセットの$delta1$測定値の95%を超え,前例のない精度を示す。
- 参考スコア(独自算出の注目度): 49.66736599668501
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this paper, we propose a self-supervised single-view pixel-level accurate
depth estimation network, called PLADE-Net. The PLADE-Net is the first work
that shows unprecedented accuracy levels, exceeding 95\% in terms of the
$\delta^1$ metric on the challenging KITTI dataset. Our PLADE-Net is based on a
new network architecture with neural positional encoding and a novel loss
function that borrows from the closed-form solution of the matting Laplacian to
learn pixel-level accurate depth estimation from stereo images. Neural
positional encoding allows our PLADE-Net to obtain more consistent depth
estimates by letting the network reason about location-specific image
properties such as lens and projection distortions. Our novel distilled matting
Laplacian loss allows our network to predict sharp depths at object boundaries
and more consistent depths in highly homogeneous regions. Our proposed method
outperforms all previous self-supervised single-view depth estimation methods
by a large margin on the challenging KITTI dataset, with unprecedented levels
of accuracy. Furthermore, our PLADE-Net, naively extended for stereo inputs,
outperforms the most recent self-supervised stereo methods, even without any
advanced blocks like 1D correlations, 3D convolutions, or spatial pyramid
pooling. We present extensive ablation studies and experiments that support our
method's effectiveness on the KITTI, CityScapes, and Make3D datasets.
- Abstract(参考訳): 本稿では,plade-netと呼ばれる,自己教師付き単視点画素レベル精度深度推定ネットワークを提案する。
PLADE-Netは、挑戦的なKITTIデータセットの$\delta^1$メトリックで95\%を超える、前例のない精度レベルを示す最初の作品です。
私たちのPLADE-Netは、ニューラルポジショナルエンコーディングを備えた新しいネットワークアーキテクチャと、マッティングラプラシアンのクローズドフォームソリューションを借りてステレオ画像からピクセルレベルの正確な深度推定を学ぶ新しい損失関数に基づいています。
ニューラル位置符号化により、PLADE-Netは、レンズや投射歪みなどの位置固有の画像特性に関するネットワーク推論を可能とし、より一貫した深度推定を可能にします。
新しい蒸留マッティングラプラシアン損失により,ネットワークは物体境界の鋭い深さとより均一な深さを,高度に均質な領域で予測できる。
提案手法は,従来の自己監視型シングルビュー深度推定法を,困難であるKITTIデータセットに対して,前例のない精度で大きなマージンで上回っている。
さらに, ステレオ入力に対してナレーション的に拡張されたPLADE-Netは, 1次元相関や3次元畳み込み, 空間ピラミッドプールなどの高度なブロックがなくても, 最新の自己教師型ステレオ手法よりも優れている。
本手法の有効性をKITTI、CityScapes、Make3Dデータセット上で支援する広範なアブレーション研究と実験を紹介します。
関連論文リスト
- VA-DepthNet: A Variational Approach to Single Image Depth Prediction [163.14849753700682]
VA-DepthNetは、単一画像深度予測問題に対する単純で効果的で正確なディープニューラルネットワークアプローチである。
本論文は,複数のベンチマークデータセットに対する広範囲な評価とアブレーション解析により提案手法の有用性を実証する。
論文 参考訳(メタデータ) (2023-02-13T17:55:58Z) - SwinDepth: Unsupervised Depth Estimation using Monocular Sequences via
Swin Transformer and Densely Cascaded Network [29.798579906253696]
教師付きトレーニングのための深層地下深度ラベルの取得は困難であり,単分子配列を用いた教師なし深度推定が有望な代替手段として出現する。
本稿では,画像特徴抽出器としてコンボリューションフリーのSwin Transformerを用い,局所的幾何学的特徴と大域的意味的特徴の両方を網羅して深度推定を行う。
また,Densely Cascaded Multi-scale Network (DCMNet)を提案する。
論文 参考訳(メタデータ) (2023-01-17T06:01:46Z) - P3Depth: Monocular Depth Estimation with a Piecewise Planarity Prior [133.76192155312182]
本研究では,コプラナー画素からの情報を選択的に活用して予測深度を改善する手法を提案する。
本手法の広範な評価により, 教師付き単分子深度推定法において, 新たな手法の確立が期待できる。
論文 参考訳(メタデータ) (2022-04-05T10:03:52Z) - MonoJSG: Joint Semantic and Geometric Cost Volume for Monocular 3D
Object Detection [10.377424252002792]
モノクル3D物体検出は正確な深度回復能力に欠ける。
ディープニューラルネットワーク(DNN)は、高レベルの学習機能からモノクルディープセンシングを可能にする。
深度誤差をモデル化するための共同意味量と幾何学的コスト容積を提案する。
論文 参考訳(メタデータ) (2022-03-16T11:54:10Z) - 3DVNet: Multi-View Depth Prediction and Volumetric Refinement [68.68537312256144]
3DVNetは、新しいマルチビューステレオ(MVS)深度予測法である。
私たちのキーとなるアイデアは、粗い深度予測を反復的に更新する3Dシーンモデリングネットワークを使用することです。
本手法は, 深度予測と3次元再構成の両指標において, 最先端の精度を超えることを示す。
論文 参考訳(メタデータ) (2021-12-01T00:52:42Z) - Virtual Normal: Enforcing Geometric Constraints for Accurate and Robust
Depth Prediction [87.08227378010874]
深度予測における高次3次元幾何学的制約の重要性を示す。
単純な幾何学的制約を強制する損失項を設計することにより、単眼深度推定の精度とロバスト性を大幅に改善する。
The-of-the-art results of learning metric depth on NYU Depth-V2 and KITTI。
論文 参考訳(メタデータ) (2021-03-07T00:08:21Z) - CodeVIO: Visual-Inertial Odometry with Learned Optimizable Dense Depth [83.77839773394106]
本稿では,軽量で密結合の深い深度ネットワークと視覚慣性オドメトリーシステムを提案する。
我々は、初期深度予測の精度を高めるために、以前にVIOから切り離されたスパース特徴を持つネットワークを提供する。
本稿では,ネットワークとコードヤコビアンでのみGPUアクセラレーションを活用しながら,シングルスレッド実行でリアルタイムに動作可能であることを示す。
論文 参考訳(メタデータ) (2020-12-18T09:42:54Z) - Towards Better Generalization: Joint Depth-Pose Learning without PoseNet [36.414471128890284]
自己教師型共同深層学習におけるスケール不整合の本質的問題に対処する。
既存の手法の多くは、全ての入力サンプルで一貫した深さとポーズを学習できると仮定している。
本稿では,ネットワーク推定からスケールを明示的に切り離す新しいシステムを提案する。
論文 参考訳(メタデータ) (2020-04-03T00:28:09Z) - DELTAS: Depth Estimation by Learning Triangulation And densification of
Sparse points [14.254472131009653]
多視点ステレオ (MVS) は, 能動深度センシングの精度と単眼深度推定の実用性の間の黄金平均値である。
3次元畳み込みニューラルネットワーク(CNN)を用いたコストボリュームベースのアプローチにより、MVSシステムの精度が大幅に向上した。
まず、(a)興味点の記述子を検出して評価し、次に(b)興味点の小さな集合をマッチングして三角測量し、最後に(c)CNNを用いてこのスパースな3D点の集合を密度化することで、効率的な深さ推定手法を提案する。
論文 参考訳(メタデータ) (2020-03-19T17:56:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。