論文の概要: Global-Local Path Networks for Monocular Depth Estimation with Vertical
CutDepth
- arxiv url: http://arxiv.org/abs/2201.07436v1
- Date: Wed, 19 Jan 2022 06:37:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-20 21:06:16.581979
- Title: Global-Local Path Networks for Monocular Depth Estimation with Vertical
CutDepth
- Title(参考訳): 垂直切削深さを用いた単眼深度推定のためのグローバルローカルパスネットワーク
- Authors: Doyeon Kim, Woonghyun Ga, Pyungwhan Ahn, Donggyu Joo, Sehwan Chun, and
Junmo Kim
- Abstract要約: 単分子深度推定のための新しい構造とトレーニング戦略を提案する。
階層型トランスフォーマーエンコーダをデプロイして,グローバルなコンテキストをキャプチャし,伝達し,軽量で強力なデコーダを設計する。
我々のネットワークは、挑戦的な深度データセットNYU Depth V2に対して最先端の性能を達成する。
- 参考スコア(独自算出の注目度): 24.897377434844266
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Depth estimation from a single image is an important task that can be applied
to various fields in computer vision, and has grown rapidly with the
development of convolutional neural networks. In this paper, we propose a novel
structure and training strategy for monocular depth estimation to further
improve the prediction accuracy of the network. We deploy a hierarchical
transformer encoder to capture and convey the global context, and design a
lightweight yet powerful decoder to generate an estimated depth map while
considering local connectivity. By constructing connected paths between
multi-scale local features and the global decoding stream with our proposed
selective feature fusion module, the network can integrate both representations
and recover fine details. In addition, the proposed decoder shows better
performance than the previously proposed decoders, with considerably less
computational complexity. Furthermore, we improve the depth-specific
augmentation method by utilizing an important observation in depth estimation
to enhance the model. Our network achieves state-of-the-art performance over
the challenging depth dataset NYU Depth V2. Extensive experiments have been
conducted to validate and show the effectiveness of the proposed approach.
Finally, our model shows better generalisation ability and robustness than
other comparative models.
- Abstract(参考訳): 単一画像からの深さ推定はコンピュータビジョンの様々な分野に適用可能な重要なタスクであり、畳み込みニューラルネットワークの開発によって急速に成長してきた。
本稿では,ネットワークの予測精度をさらに向上させるために,単眼深度推定のための新しい構造と訓練戦略を提案する。
グローバルなコンテキストを捕捉し伝達するための階層型トランスフォーマーエンコーダをデプロイし、ローカル接続性を考慮して推定深度マップを生成する軽量で強力なデコーダを設計する。
提案する選択的機能融合モジュールにより,マルチスケールな局所的特徴とグローバルデコードストリーム間の接続経路を構築することにより,ネットワークは表現の統合と詳細の復元が可能となる。
さらに,提案するデコーダは,従来提案していたデコーダよりも性能が良く,計算量もかなり少ない。
さらに、深度推定における重要な観測を利用して、深度比増大法を改善し、モデルを強化する。
我々のネットワークは、挑戦的な深度データセットNYU Depth V2に対して最先端の性能を達成する。
提案手法の有効性を検証するため,広範囲にわたる実験を行った。
最後に、我々のモデルは、他の比較モデルよりも優れた一般化能力と堅牢性を示す。
関連論文リスト
- Self-supervised Monocular Depth Estimation with Large Kernel Attention [30.44895226042849]
より詳細な情報を得るために,自己教師付き単眼深度推定ネットワークを提案する。
具体的には,長距離依存性をモデル化可能なカーネルアテンションに基づくデコーダを提案する。
提案手法は,KITTIデータセット上での競合結果を実現する。
論文 参考訳(メタデータ) (2024-09-26T14:44:41Z) - Multi-view Aggregation Network for Dichotomous Image Segmentation [76.75904424539543]
Dichotomous Image (DIS) は近年,高解像度自然画像からの高精度物体分割に向けて出現している。
既存の手法は、グローバルなローカライゼーションと局所的な洗練を徐々に完了させるために、退屈な複数のエンコーダ・デコーダストリームとステージに依存している。
これに触発されて、我々は多視点オブジェクト認識問題としてdisをモデル化し、擬似多視点アグリゲーションネットワーク(MVANet)を提供する。
一般的なdis-5Kデータセットの実験では、我々のMVANetは精度と速度の両方で最先端の手法を大きく上回っている。
論文 参考訳(メタデータ) (2024-04-11T03:00:00Z) - SwinDepth: Unsupervised Depth Estimation using Monocular Sequences via
Swin Transformer and Densely Cascaded Network [29.798579906253696]
教師付きトレーニングのための深層地下深度ラベルの取得は困難であり,単分子配列を用いた教師なし深度推定が有望な代替手段として出現する。
本稿では,画像特徴抽出器としてコンボリューションフリーのSwin Transformerを用い,局所的幾何学的特徴と大域的意味的特徴の両方を網羅して深度推定を行う。
また,Densely Cascaded Multi-scale Network (DCMNet)を提案する。
論文 参考訳(メタデータ) (2023-01-17T06:01:46Z) - Lightweight Monocular Depth Estimation with an Edge Guided Network [34.03711454383413]
本稿では,新しいエッジガイド深度推定ネットワーク(EGD-Net)を提案する。
特に、軽量なエンコーダデコーダアーキテクチャから始め、エッジガイダンスブランチを組み込む。
コンテクスト情報とエッジアテンション特徴を集約するために,トランスフォーマーをベースとした機能アグリゲーションモジュールを設計する。
論文 参考訳(メタデータ) (2022-09-29T14:45:47Z) - DepthFormer: Exploiting Long-Range Correlation and Local Information for
Accurate Monocular Depth Estimation [50.08080424613603]
高精度な単分子深度推定には長距離相関が不可欠である。
我々は,このグローバルコンテキストを効果的な注意機構でモデル化するためにTransformerを活用することを提案する。
提案したモデルであるDepthFormerは、最先端のモノクル深度推定手法をはるかに超えている。
論文 参考訳(メタデータ) (2022-03-27T05:03:56Z) - Self-Supervised Monocular Depth Estimation with Internal Feature Fusion [12.874712571149725]
深度推定のための自己教師付き学習は、画像列の幾何学を用いて監督する。
そこで本研究では,ダウンおよびアップサンプリングの手順で意味情報を利用することのできる,新しい深度推定ネットワークDIFFNetを提案する。
論文 参考訳(メタデータ) (2021-10-18T17:31:11Z) - Learning Structures for Deep Neural Networks [99.8331363309895]
我々は,情報理論に根ざし,計算神経科学に発達した効率的な符号化原理を採用することを提案する。
スパース符号化は出力信号のエントロピーを効果的に最大化できることを示す。
公開画像分類データセットを用いた実験により,提案アルゴリズムでスクラッチから学習した構造を用いて,最も優れた専門家設計構造に匹敵する分類精度が得られることを示した。
論文 参考訳(メタデータ) (2021-05-27T12:27:24Z) - Interpretable Detail-Fidelity Attention Network for Single Image
Super-Resolution [89.1947690981471]
本研究では,スムースとディテールを段階的に分割・収束的に処理する,目的・解釈可能なディテール・ファイダリティ・アテンション・ネットワークを提案する。
特に,詳細推論において顕著な解釈可能な特徴表現のためのヘシアンフィルタを提案する。
実験により,提案手法は最先端手法よりも優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2020-09-28T08:31:23Z) - Bidirectional Attention Network for Monocular Depth Estimation [18.381967717929264]
双方向注意ネットワーク(BANet)は単眼深度推定(MDE)のためのエンドツーエンドフレームワークである
フィードフォワード機能マップを利用した双方向アテンションモジュールを導入し、グローバルコンテキストを組み込んであいまいさを除去する。
提案手法は,メモリと計算の複雑さを低減した,最先端の単分子深度推定法と同等以上の性能を示した。
論文 参考訳(メタデータ) (2020-09-01T23:14:05Z) - Recursive Multi-model Complementary Deep Fusion forRobust Salient Object
Detection via Parallel Sub Networks [62.26677215668959]
完全畳み込みネットワークは、正体検出(SOD)分野において優れた性能を示している。
本稿では,全く異なるネットワークアーキテクチャを持つ並列サブネットワークからなる,より広いネットワークアーキテクチャを提案する。
いくつかの有名なベンチマークの実験では、提案されたより広範なフレームワークの優れた性能、優れた一般化、強力な学習能力が明らかに示されている。
論文 参考訳(メタデータ) (2020-08-07T10:39:11Z) - Depthwise Non-local Module for Fast Salient Object Detection Using a
Single Thread [136.2224792151324]
本稿では,高速な物体検出のための新しいディープラーニングアルゴリズムを提案する。
提案アルゴリズムは,1つのCPUスレッドと同時に,競合精度と高い推論効率を実現する。
論文 参考訳(メタデータ) (2020-01-22T15:23:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。