論文の概要: Deep feature fusion for self-supervised monocular depth prediction
- arxiv url: http://arxiv.org/abs/2005.07922v1
- Date: Sat, 16 May 2020 09:42:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 13:33:55.005113
- Title: Deep feature fusion for self-supervised monocular depth prediction
- Title(参考訳): 自己教師付き単眼深度予測のためのDeep Feature fusion
- Authors: Vinay Kaushik, Brejesh Lall
- Abstract要約: スクラッチから自己教師付き深度を学習するための深部特徴融合法を提案する。
核融合ネットワークはエンコーダネットワークの各レベルにおける上層と下層の両方の機能を選択する。
また,高次深度と低次深度深度から高次残留深度を学習する改良モジュールを提案する。
- 参考スコア(独自算出の注目度): 7.779007880126907
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in end-to-end unsupervised learning has significantly
improved the performance of monocular depth prediction and alleviated the
requirement of ground truth depth. Although a plethora of work has been done in
enforcing various structural constraints by incorporating multiple losses
utilising smoothness, left-right consistency, regularisation and matching
surface normals, a few of them take into consideration multi-scale structures
present in real world images. Most works utilise a VGG16 or ResNet50 model
pre-trained on ImageNet weights for predicting depth. We propose a deep feature
fusion method utilising features at multiple scales for learning
self-supervised depth from scratch. Our fusion network selects features from
both upper and lower levels at every level in the encoder network, thereby
creating multiple feature pyramid sub-networks that are fed to the decoder
after applying the CoordConv solution. We also propose a refinement module
learning higher scale residual depth from a combination of higher level deep
features and lower level residual depth using a pixel shuffling framework that
super-resolves lower level residual depth. We select the KITTI dataset for
evaluation and show that our proposed architecture can produce better or
comparable results in depth prediction.
- Abstract(参考訳): エンドツーエンドの教師なし学習の最近の進歩は、単眼深度予測の性能を大幅に向上させ、真理深度要求を緩和した。
平滑性, 左右の整合性, 規則化, 表面の正規化, 整合性を利用した複数の損失を生かして, 種々の構造的制約を課す作業は数多く行われているが, 実世界の画像に存在するマルチスケール構造を考慮に入れたものもある。
VGG16またはResNet50モデルをImageNet重みで事前トレーニングして、深さを予測する。
スクラッチから自己指導深度を学習するために,複数スケールの機能を利用した深層機能融合法を提案する。
核融合ネットワークは、エンコーダネットワークの各レベルにおける上層と下層の両方の機能を選択し、CoordConvソリューションを適用した後、デコーダに供給される複数の特徴ピラミッドサブネットワークを生成する。
また,低レベル残差深度を超解く画素シャッフルフレームワークを用いて,高レベル深層特徴と低レベル残差深さの組み合わせから高レベル残差深さを学習する改良モジュールを提案する。
我々は、評価のためにKITTIデータセットを選択し、提案したアーキテクチャが深度予測においてより良い結果または同等の結果を得ることができることを示す。
関連論文リスト
- Scale Propagation Network for Generalizable Depth Completion [16.733495588009184]
入力から出力までのスケールを伝搬する新しいスケール伝搬正規化法(SP-Norm)を提案する。
また,SP-NormとConvNeXt V2のバックボーンをベースとした新しいネットワークアーキテクチャを開発した。
我々のモデルは、最先端の手法と比較して、高速かつ低メモリで常に最高の精度を達成している。
論文 参考訳(メタデータ) (2024-10-24T03:53:06Z) - DepthSplat: Connecting Gaussian Splatting and Depth [90.06180236292866]
ガウススプラッティングと深さ推定を結合するDepthSplatを提案する。
まず,事前学習した単眼深度特徴を生かして,頑健な多眼深度モデルを提案する。
また,ガウス的スプラッティングは教師なし事前学習の目的として機能することを示す。
論文 参考訳(メタデータ) (2024-10-17T17:59:58Z) - Single Image Depth Prediction Made Better: A Multivariate Gaussian Take [163.14849753700682]
本稿では,画素ごとの深度を連続的にモデル化する手法を提案する。
提案手法の精度(MG)は,KITTI深度予測ベンチマークリーダーボードの上位に位置する。
論文 参考訳(メタデータ) (2023-03-31T16:01:03Z) - SwinDepth: Unsupervised Depth Estimation using Monocular Sequences via
Swin Transformer and Densely Cascaded Network [29.798579906253696]
教師付きトレーニングのための深層地下深度ラベルの取得は困難であり,単分子配列を用いた教師なし深度推定が有望な代替手段として出現する。
本稿では,画像特徴抽出器としてコンボリューションフリーのSwin Transformerを用い,局所的幾何学的特徴と大域的意味的特徴の両方を網羅して深度推定を行う。
また,Densely Cascaded Multi-scale Network (DCMNet)を提案する。
論文 参考訳(メタデータ) (2023-01-17T06:01:46Z) - Lightweight Monocular Depth Estimation with an Edge Guided Network [34.03711454383413]
本稿では,新しいエッジガイド深度推定ネットワーク(EGD-Net)を提案する。
特に、軽量なエンコーダデコーダアーキテクチャから始め、エッジガイダンスブランチを組み込む。
コンテクスト情報とエッジアテンション特徴を集約するために,トランスフォーマーをベースとした機能アグリゲーションモジュールを設計する。
論文 参考訳(メタデータ) (2022-09-29T14:45:47Z) - 3DVNet: Multi-View Depth Prediction and Volumetric Refinement [68.68537312256144]
3DVNetは、新しいマルチビューステレオ(MVS)深度予測法である。
私たちのキーとなるアイデアは、粗い深度予測を反復的に更新する3Dシーンモデリングネットワークを使用することです。
本手法は, 深度予測と3次元再構成の両指標において, 最先端の精度を超えることを示す。
論文 参考訳(メタデータ) (2021-12-01T00:52:42Z) - PLADE-Net: Towards Pixel-Level Accuracy for Self-Supervised Single-View
Depth Estimation with Neural Positional Encoding and Distilled Matting Loss [49.66736599668501]
PLADE-Netと呼ばれる自己監視型単視点画素レベルの高精度深度推定ネットワークを提案する。
提案手法は,KITTIデータセットの$delta1$測定値の95%を超え,前例のない精度を示す。
論文 参考訳(メタデータ) (2021-03-12T15:54:46Z) - ADAADepth: Adapting Data Augmentation and Attention for Self-Supervised
Monocular Depth Estimation [8.827921242078881]
深度向上を深度監督として活用し、正確で堅牢な深度を学習するADAAを提案します。
本稿では,リッチなコンテキスト特徴を学習し,さらに深度を向上するリレーショナル自己認識モジュールを提案する。
KITTI運転データセットの予測深度を評価し、最新の結果を実現します。
論文 参考訳(メタデータ) (2021-03-01T09:06:55Z) - Towards Better Generalization: Joint Depth-Pose Learning without PoseNet [36.414471128890284]
自己教師型共同深層学習におけるスケール不整合の本質的問題に対処する。
既存の手法の多くは、全ての入力サンプルで一貫した深さとポーズを学習できると仮定している。
本稿では,ネットワーク推定からスケールを明示的に切り離す新しいシステムを提案する。
論文 参考訳(メタデータ) (2020-04-03T00:28:09Z) - Occlusion-Aware Depth Estimation with Adaptive Normal Constraints [85.44842683936471]
カラービデオから多フレーム深度を推定する新しい学習手法を提案する。
本手法は深度推定精度において最先端の手法より優れる。
論文 参考訳(メタデータ) (2020-04-02T07:10:45Z) - Don't Forget The Past: Recurrent Depth Estimation from Monocular Video [92.84498980104424]
私たちは3つの異なる種類の深さ推定を共通のフレームワークに組み込んだ。
提案手法は, 時系列の深度マップを生成する。
モノクロビデオにのみ適用したり、異なる種類のスパース深度パターンと組み合わせたりすることができる。
論文 参考訳(メタデータ) (2020-01-08T16:50:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。