論文の概要: Pyramid Frequency Network with Spatial Attention Residual Refinement
Module for Monocular Depth Estimation
- arxiv url: http://arxiv.org/abs/2204.02386v1
- Date: Tue, 5 Apr 2022 17:48:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-06 14:07:27.576889
- Title: Pyramid Frequency Network with Spatial Attention Residual Refinement
Module for Monocular Depth Estimation
- Title(参考訳): 単眼深度推定のための空間注意残留精細モジュールを用いたピラミッド周波数ネットワーク
- Authors: Zhengyang Lu and Ying Chen
- Abstract要約: 深度推定へのディープラーニングアプローチは急速に進歩しており、既存の手法よりも優れたパフォーマンスを提供している。
本研究では,既存の深層学習手法の弱弱さに対処するため,空間的注意残差補正モジュールを用いたピラミッド周波数ネットワークを提案する。
PFNは、Make3D、KITTI depth、NYUv2データセットの屋内および屋外の両方のシーンにおける最先端の手法よりも、より良い視覚的精度を実現する。
- 参考スコア(独自算出の注目度): 4.397981844057195
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Deep-learning-based approaches to depth estimation are rapidly advancing,
offering superior performance over existing methods. To estimate the depth in
real-world scenarios, depth estimation models require the robustness of various
noise environments. In this work, a Pyramid Frequency Network(PFN) with Spatial
Attention Residual Refinement Module(SARRM) is proposed to deal with the weak
robustness of existing deep-learning methods. To reconstruct depth maps with
accurate details, the SARRM constructs a residual fusion method with an
attention mechanism to refine the blur depth. The frequency division strategy
is designed, and the frequency pyramid network is developed to extract features
from multiple frequency bands. With the frequency strategy, PFN achieves better
visual accuracy than state-of-the-art methods in both indoor and outdoor scenes
on Make3D, KITTI depth, and NYUv2 datasets. Additional experiments on the noisy
NYUv2 dataset demonstrate that PFN is more reliable than existing deep-learning
methods in high-noise scenes.
- Abstract(参考訳): 深度推定に対するディープラーニングベースのアプローチは急速に進歩しており、既存の手法よりも優れたパフォーマンスを提供している。
実世界のシナリオの深さを推定するために、深さ推定モデルは様々な雑音環境のロバスト性を必要とする。
本研究では,既存の深層学習手法の弱強靭性に対処するため,空間注意残留精細モジュール(sarrm)を備えたピラミッド周波数ネットワーク(pfn)を提案する。
正確な詳細で深度マップを再構築するために、SARRMはぼかし深度を洗練させるために注意機構を備えた残差融合法を構築した。
周波数分割戦略を設計し、周波数ピラミッドネットワークを開発し、複数の周波数帯域の特徴を抽出する。
周波数戦略により、PFNは、Make3D、KITTI depth、NYUv2データセットの屋内および屋外の両方で、最先端の手法よりも優れた視覚的精度を達成する。
ノイズの多いNYUv2データセットに関する追加実験では、PFNは高ノイズシーンにおける既存のディープラーニング手法よりも信頼性が高いことが示されている。
関連論文リスト
- DARF: Depth-Aware Generalizable Neural Radiance Field [51.29437249009986]
本稿では,Depth-Aware Dynamic Smpling(DADS)戦略を用いたDARF(Depth-Aware Generalizable Neural Radiance Field)を提案する。
筆者らのフレームワークは,数枚の入力画像で,画素レベルと幾何学レベルの両方の見えないシーンを推測する。
DARFは、最先端の一般化可能なNeRF法と比較して、レンダリング品質と深さ推定を改善しつつ、サンプルを50%削減する。
論文 参考訳(メタデータ) (2022-12-05T14:00:59Z) - Struct-MDC: Mesh-Refined Unsupervised Depth Completion Leveraging
Structural Regularities from Visual SLAM [1.8899300124593648]
特徴量に基づく視覚的同時位置決めとマッピング法(SLAM)は,抽出した特徴量の深さのみを推定する。
スパース深度から密集深度を推定する深度完了タスクは、探索のようなロボット応用において重要な役割を担っている。
この問題に対処するためのメッシュ深度改善(MDR)モジュールを提案する。
Struct-MDCは、公開およびカスタムデータセット上で、他の最先端アルゴリズムよりも優れています。
論文 参考訳(メタデータ) (2022-04-29T04:29:17Z) - Joint Learning of Salient Object Detection, Depth Estimation and Contour
Extraction [91.43066633305662]
RGB-D Salient Object Detection (SOD) のための新しいマルチタスク・マルチモーダルフィルタトランス (MMFT) ネットワークを提案する。
具体的には、深度推定、健全な物体検出、輪郭推定の3つの相補的なタスクを統合する。マルチタスク機構は、タスク認識の特徴を補助タスクから学習するためのモデルを促進する。
実験の結果、複数のデータセット上での深度に基づくRGB-D SOD法をはるかに上回るだけでなく、高品質の深度マップと塩分濃度を同時に正確に予測できることがわかった。
論文 参考訳(メタデータ) (2022-03-09T17:20:18Z) - Depth-Cooperated Trimodal Network for Video Salient Object Detection [13.727763221832532]
我々はDCTNet(Deep-operated triOD network)を提案する。
この目的のために、まずRGBフレームから深度を生成し、次に3つのモダリティを不等に扱うアプローチを提案する。
また、各モードの雑音を抑えるための改良融合モジュール(RFM)を導入し、機能改善のために有用な情報を動的に選択する。
論文 参考訳(メタデータ) (2022-02-12T13:04:16Z) - Non-local Recurrent Regularization Networks for Multi-view Stereo [108.17325696835542]
深層多視点ステレオネットワークでは、正確な深さ推定を実現するためにコスト正規化が不可欠である。
NR2-Netと呼ばれるマルチビューステレオのための新しい非局所リカレント正規化ネットワークを提案する。
提案手法は,DTU,タンク,テンプルの双方のデータセットに対して,最先端の再構築結果を実現する。
論文 参考訳(メタデータ) (2021-10-13T01:43:54Z) - VolumeFusion: Deep Depth Fusion for 3D Scene Reconstruction [71.83308989022635]
本稿では、ディープニューラルネットワークを用いた従来の2段階フレームワークの複製により、解釈可能性と結果の精度が向上することを提唱する。
ネットワークは,1)深部MVS技術を用いた局所深度マップの局所計算,2)深部マップと画像の特徴を融合させて単一のTSDFボリュームを構築する。
異なる視点から取得した画像間のマッチング性能を改善するために,PosedConvと呼ばれる回転不変な3D畳み込みカーネルを導入する。
論文 参考訳(メタデータ) (2021-08-19T11:33:58Z) - Multi-view Depth Estimation using Epipolar Spatio-Temporal Networks [87.50632573601283]
一つのビデオから多視点深度を推定する新しい手法を提案する。
提案手法は,新しいEpipolar Spatio-Temporal Transformer(EST)を用いて時間的コヒーレントな深度推定を行う。
最近のMixture-of-Expertsモデルにインスパイアされた計算コストを削減するため、我々はコンパクトなハイブリッドネットワークを設計する。
論文 参考訳(メタデータ) (2020-11-26T04:04:21Z) - Channel Attention based Iterative Residual Learning for Depth Map
Super-Resolution [58.626803922196146]
我々は、合成データセットで訓練されたDSRモデルは制限的であり、実世界のDSRタスクを扱うのに有効ではないと論じる。
我々は、異なる深度センサの現実世界の劣化に対処するために2つの貢献をしている。
4つのモジュールからなる実世界のDSRのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-02T09:12:23Z) - Guiding Monocular Depth Estimation Using Depth-Attention Volume [38.92495189498365]
本研究では,特に屋内環境に広く分布する平面構造を優先するための奥行き推定法を提案する。
2つのポピュラーな屋内データセットであるNYU-Depth-v2とScanNetの実験により,本手法が最先端の深度推定結果を実現することを示す。
論文 参考訳(メタデータ) (2020-04-06T15:45:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。