論文の概要: Lightweight Monocular Depth Estimation with an Edge Guided Network
- arxiv url: http://arxiv.org/abs/2209.14829v1
- Date: Thu, 29 Sep 2022 14:45:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 18:05:56.550828
- Title: Lightweight Monocular Depth Estimation with an Edge Guided Network
- Title(参考訳): エッジ誘導ネットワークを用いた軽量単眼深度推定
- Authors: Xingshuai Dong, Matthew A. Garratt, Sreenatha G. Anavatti, Hussein A.
Abbass and Junyu Dong
- Abstract要約: 本稿では,新しいエッジガイド深度推定ネットワーク(EGD-Net)を提案する。
特に、軽量なエンコーダデコーダアーキテクチャから始め、エッジガイダンスブランチを組み込む。
コンテクスト情報とエッジアテンション特徴を集約するために,トランスフォーマーをベースとした機能アグリゲーションモジュールを設計する。
- 参考スコア(独自算出の注目度): 34.03711454383413
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monocular depth estimation is an important task that can be applied to many
robotic applications. Existing methods focus on improving depth estimation
accuracy via training increasingly deeper and wider networks, however these
suffer from large computational complexity. Recent studies found that edge
information are important cues for convolutional neural networks (CNNs) to
estimate depth. Inspired by the above observations, we present a novel
lightweight Edge Guided Depth Estimation Network (EGD-Net) in this study. In
particular, we start out with a lightweight encoder-decoder architecture and
embed an edge guidance branch which takes as input image gradients and
multi-scale feature maps from the backbone to learn the edge attention
features. In order to aggregate the context information and edge attention
features, we design a transformer-based feature aggregation module (TRFA). TRFA
captures the long-range dependencies between the context information and edge
attention features through cross-attention mechanism. We perform extensive
experiments on the NYU depth v2 dataset. Experimental results show that the
proposed method runs about 96 fps on a Nvidia GTX 1080 GPU whilst achieving the
state-of-the-art performance in terms of accuracy.
- Abstract(参考訳): 単眼深度推定は、多くのロボット応用に適用できる重要な課題である。
既存の手法では、トレーニングによる深さ推定精度の向上に重点を置いているが、計算の複雑さは大きい。
近年の研究では、エッジ情報は、畳み込みニューラルネットワーク(CNN)の深さを推定するための重要な手がかりであることがわかった。
本研究は,これらの観測から着想を得た新しいエッジガイド深度推定ネットワーク(EGD-Net)を提案する。
特に、ライトウェイトなエンコーダ-デコーダアーキテクチャから始め、入力画像の勾配や、バックボーンからのマルチスケール機能マップとして使用するエッジガイダンスブランチを埋め込んで、エッジ注意機能を学びます。
コンテキスト情報とエッジアテンションの特徴を集約するために,トランスフォーマーベースの特徴集約モジュール(TRFA)を設計する。
trfaはクロスアテンション機構を通じて、コンテキスト情報とエッジアテンション機能間の長距離依存関係をキャプチャする。
我々は、nyu depth v2データセットについて広範な実験を行う。
実験の結果,提案手法はNvidia GTX 1080 GPU上で96fpsで動作し,最先端の性能を精度で達成していることがわかった。
関連論文リスト
- Self-supervised Monocular Depth Estimation with Large Kernel Attention [30.44895226042849]
より詳細な情報を得るために,自己教師付き単眼深度推定ネットワークを提案する。
具体的には,長距離依存性をモデル化可能なカーネルアテンションに基づくデコーダを提案する。
提案手法は,KITTIデータセット上での競合結果を実現する。
論文 参考訳(メタデータ) (2024-09-26T14:44:41Z) - Deep Neighbor Layer Aggregation for Lightweight Self-Supervised
Monocular Depth Estimation [1.6775954077761863]
文脈的特徴融合を用いた完全畳み込み深度推定ネットワークを提案する。
UNet++やHRNetと比較して、我々は、小さなターゲットや高速移動オブジェクトに関する情報を予約するために、高解像度で低解像度の機能を使用します。
本手法は精度を犠牲にすることなくパラメータを削減する。
論文 参考訳(メタデータ) (2023-09-17T13:40:15Z) - Global-Local Path Networks for Monocular Depth Estimation with Vertical
CutDepth [24.897377434844266]
単分子深度推定のための新しい構造とトレーニング戦略を提案する。
階層型トランスフォーマーエンコーダをデプロイして,グローバルなコンテキストをキャプチャし,伝達し,軽量で強力なデコーダを設計する。
我々のネットワークは、挑戦的な深度データセットNYU Depth V2に対して最先端の性能を達成する。
論文 参考訳(メタデータ) (2022-01-19T06:37:21Z) - Towards Interpretable Deep Networks for Monocular Depth Estimation [78.84690613778739]
我々は,深部MDEネットワークの解釈可能性について,その隠蔽ユニットの深さ選択性を用いて定量化する。
本稿では,解釈可能なMDE深層ネットワークを,元のアーキテクチャを変更することなく学習する手法を提案する。
実験により,本手法は深部MDEネットワークの解釈可能性を向上させることができることが示された。
論文 参考訳(メタデータ) (2021-08-11T16:43:45Z) - Sparse Auxiliary Networks for Unified Monocular Depth Prediction and
Completion [56.85837052421469]
コスト効率のよいセンサで得られたデータからシーン形状を推定することは、ロボットや自動運転車にとって鍵となる。
本稿では,1枚のRGB画像から,低コストな能動深度センサによるスパース計測により,深度を推定する問題について検討する。
sparse networks (sans) は,深さ予測と完了という2つのタスクをmonodepthネットワークで実行可能にする,新しいモジュールである。
論文 参考訳(メタデータ) (2021-03-30T21:22:26Z) - EDN: Salient Object Detection via Extremely-Downsampled Network [66.38046176176017]
画像全体のグローバルビューを効果的に学ぶために、極端なダウンサンプリング技術を使用するExtremely-Downsampled Network(EDN)を紹介します。
実験は、ednがリアルタイム速度でsart性能を達成することを実証する。
論文 参考訳(メタデータ) (2020-12-24T04:23:48Z) - CodeVIO: Visual-Inertial Odometry with Learned Optimizable Dense Depth [83.77839773394106]
本稿では,軽量で密結合の深い深度ネットワークと視覚慣性オドメトリーシステムを提案する。
我々は、初期深度予測の精度を高めるために、以前にVIOから切り離されたスパース特徴を持つネットワークを提供する。
本稿では,ネットワークとコードヤコビアンでのみGPUアクセラレーションを活用しながら,シングルスレッド実行でリアルタイムに動作可能であることを示す。
論文 参考訳(メタデータ) (2020-12-18T09:42:54Z) - On Deep Learning Techniques to Boost Monocular Depth Estimation for
Autonomous Navigation [1.9007546108571112]
画像の深さを推定することはコンピュータビジョンの分野における根本的な逆問題である。
本稿では,新しい特徴抽出モデルと組み合わせ,軽量で高速なCNNアーキテクチャを提案する。
また,SIDE問題を解くために,単純な幾何2.5D損失関数と組み合わせて効率的な表面正規化モジュールを導入する。
論文 参考訳(メタデータ) (2020-10-13T18:37:38Z) - Accurate RGB-D Salient Object Detection via Collaborative Learning [101.82654054191443]
RGB-Dサリエンシ検出は、いくつかの課題シナリオにおいて素晴らしい能力を示している。
本稿では,エッジ,深度,塩分濃度をより効率的に活用する新しい協調学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-23T04:33:36Z) - DELTAS: Depth Estimation by Learning Triangulation And densification of
Sparse points [14.254472131009653]
多視点ステレオ (MVS) は, 能動深度センシングの精度と単眼深度推定の実用性の間の黄金平均値である。
3次元畳み込みニューラルネットワーク(CNN)を用いたコストボリュームベースのアプローチにより、MVSシステムの精度が大幅に向上した。
まず、(a)興味点の記述子を検出して評価し、次に(b)興味点の小さな集合をマッチングして三角測量し、最後に(c)CNNを用いてこのスパースな3D点の集合を密度化することで、効率的な深さ推定手法を提案する。
論文 参考訳(メタデータ) (2020-03-19T17:56:41Z) - Depthwise Non-local Module for Fast Salient Object Detection Using a
Single Thread [136.2224792151324]
本稿では,高速な物体検出のための新しいディープラーニングアルゴリズムを提案する。
提案アルゴリズムは,1つのCPUスレッドと同時に,競合精度と高い推論効率を実現する。
論文 参考訳(メタデータ) (2020-01-22T15:23:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。