論文の概要: Depth Monocular Estimation with Attention-based Encoder-Decoder Network
from Single Image
- arxiv url: http://arxiv.org/abs/2210.13646v1
- Date: Mon, 24 Oct 2022 23:01:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-26 14:58:25.012085
- Title: Depth Monocular Estimation with Attention-based Encoder-Decoder Network
from Single Image
- Title(参考訳): 単一画像からの注意型エンコーダデコーダネットワークによる奥行き単眼推定
- Authors: Xin Zhang and Rabab Abdelfattah and Yuqi Song and Samuel A. Dauchert
and Xiaofeng wang
- Abstract要約: ビジョンベースのアプローチは最近多くの注目を集めており、これらの欠点を克服することができる。
本研究では,格子状アーチファクトやぼやけたエッジに悩まされている1つの単眼画像から深度マップを推定する。
我々の新しいアプローチは、最小限のオーバーヘッドで現在の画像の焦点を見つけることができ、奥行き特性の損失を避けることができる。
- 参考スコア(独自算出の注目度): 7.753378095194288
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Depth information is the foundation of perception, essential for autonomous
driving, robotics, and other source-constrained applications. Promptly
obtaining accurate and efficient depth information allows for a rapid response
in dynamic environments. Sensor-based methods using LIDAR and RADAR obtain high
precision at the cost of high power consumption, price, and volume. While due
to advances in deep learning, vision-based approaches have recently received
much attention and can overcome these drawbacks. In this work, we explore an
extreme scenario in vision-based settings: estimate a depth map from one
monocular image severely plagued by grid artifacts and blurry edges. To address
this scenario, We first design a convolutional attention mechanism block (CAMB)
which consists of channel attention and spatial attention sequentially and
insert these CAMBs into skip connections. As a result, our novel approach can
find the focus of current image with minimal overhead and avoid losses of depth
features. Next, by combining the depth value, the gradients of X axis, Y axis
and diagonal directions, and the structural similarity index measure (SSIM), we
propose our novel loss function. Moreover, we utilize pixel blocks to
accelerate the computation of the loss function. Finally, we show, through
comprehensive experiments on two large-scale image datasets, i.e. KITTI and
NYU-V2, that our method outperforms several representative baselines.
- Abstract(参考訳): 深度情報は知覚の基礎であり、自律運転、ロボティクス、その他のソース制約された応用に不可欠である。
正確で効率的な深度情報を得ることで、動的環境における迅速な応答が可能になる。
LIDARとRADARを用いたセンサベース方式は、高消費電力、価格、ボリュームのコストで高精度を実現する。
ディープラーニングの進歩により、視覚ベースのアプローチは最近多くの注目を集め、これらの欠点を克服することができる。
本研究では,格子状アーチファクトやぼやけたエッジに悩まされている1つの単眼画像から深度マップを推定する。
このシナリオに対処するために,まず,チャネル注意と空間注意からなる畳み込み注意機構ブロック(camb)を順次設計し,これらのcambをスキップ接続に挿入する。
その結果,本手法は最小のオーバーヘッドで現在の画像の焦点を見つけることができ,奥行き特徴の損失を回避できる。
次に,X軸,Y軸,対角方向の勾配と構造類似度指数測定(SSIM)を組み合わせることで,新しい損失関数を提案する。
さらに,画素ブロックを用いて損失関数の計算を高速化する。
最後に,2つの大規模画像データセット,すなわちkittiとnyu-v2の包括的実験を通じて,提案手法がいくつかの代表的なベースラインを上回ることを示す。
関連論文リスト
- Exploring Deep Learning Image Super-Resolution for Iris Recognition [50.43429968821899]
重畳自動エンコーダ(SAE)と畳み込みニューラルネットワーク(CNN)の2つの深層学習単一画像超解法手法を提案する。
精度評価と認識実験により,1.872個の近赤外虹彩画像のデータベースを用いて評価を行い,比較アルゴリズムよりも深層学習の方が優れていることを示す。
論文 参考訳(メタデータ) (2023-11-02T13:57:48Z) - Lightweight Monocular Depth Estimation with an Edge Guided Network [34.03711454383413]
本稿では,新しいエッジガイド深度推定ネットワーク(EGD-Net)を提案する。
特に、軽量なエンコーダデコーダアーキテクチャから始め、エッジガイダンスブランチを組み込む。
コンテクスト情報とエッジアテンション特徴を集約するために,トランスフォーマーをベースとした機能アグリゲーションモジュールを設計する。
論文 参考訳(メタデータ) (2022-09-29T14:45:47Z) - Visual Attention-based Self-supervised Absolute Depth Estimation using
Geometric Priors in Autonomous Driving [8.045833295463094]
空間的注意とチャネルの注意をすべてのステージに適用する,完全に視覚的注意に基づく奥行き(VADepth)ネットワークを導入する。
VADepthネットワークは、空間的およびチャネル的次元に沿った特徴の依存関係を長距離にわたって連続的に抽出することにより、重要な詳細を効果的に保存することができる。
KITTIデータセットの実験結果は、このアーキテクチャが最先端のパフォーマンスを達成することを示している。
論文 参考訳(メタデータ) (2022-05-18T08:01:38Z) - End-to-end Learning for Joint Depth and Image Reconstruction from
Diffracted Rotation [10.896567381206715]
回折回転から深度を学習する新しいエンド・ツー・エンド学習手法を提案する。
提案手法は, 単分子深度推定のタスクにおいて既存の手法よりもはるかに少ない複雑なモデルと少ないトレーニングデータを必要とする。
論文 参考訳(メタデータ) (2022-04-14T16:14:37Z) - High-resolution Depth Maps Imaging via Attention-based Hierarchical
Multi-modal Fusion [84.24973877109181]
誘導DSRのための新しい注意に基づく階層型マルチモーダル融合ネットワークを提案する。
本手法は,再現精度,動作速度,メモリ効率の点で最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-04-04T03:28:33Z) - Sparse Auxiliary Networks for Unified Monocular Depth Prediction and
Completion [56.85837052421469]
コスト効率のよいセンサで得られたデータからシーン形状を推定することは、ロボットや自動運転車にとって鍵となる。
本稿では,1枚のRGB画像から,低コストな能動深度センサによるスパース計測により,深度を推定する問題について検討する。
sparse networks (sans) は,深さ予測と完了という2つのタスクをmonodepthネットワークで実行可能にする,新しいモジュールである。
論文 参考訳(メタデータ) (2021-03-30T21:22:26Z) - PLADE-Net: Towards Pixel-Level Accuracy for Self-Supervised Single-View
Depth Estimation with Neural Positional Encoding and Distilled Matting Loss [49.66736599668501]
PLADE-Netと呼ばれる自己監視型単視点画素レベルの高精度深度推定ネットワークを提案する。
提案手法は,KITTIデータセットの$delta1$測定値の95%を超え,前例のない精度を示す。
論文 参考訳(メタデータ) (2021-03-12T15:54:46Z) - On Deep Learning Techniques to Boost Monocular Depth Estimation for
Autonomous Navigation [1.9007546108571112]
画像の深さを推定することはコンピュータビジョンの分野における根本的な逆問題である。
本稿では,新しい特徴抽出モデルと組み合わせ,軽量で高速なCNNアーキテクチャを提案する。
また,SIDE問題を解くために,単純な幾何2.5D損失関数と組み合わせて効率的な表面正規化モジュールを導入する。
論文 参考訳(メタデータ) (2020-10-13T18:37:38Z) - Accurate RGB-D Salient Object Detection via Collaborative Learning [101.82654054191443]
RGB-Dサリエンシ検出は、いくつかの課題シナリオにおいて素晴らしい能力を示している。
本稿では,エッジ,深度,塩分濃度をより効率的に活用する新しい協調学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-23T04:33:36Z) - Defocus Blur Detection via Depth Distillation [64.78779830554731]
初めてDBDに深度情報を導入します。
より詳しくは, 地底の真理と, 十分に訓練された深度推定ネットワークから抽出した深度から, デフォーカスのぼかしを学習する。
我々の手法は、2つの一般的なデータセット上で11の最先端の手法より優れています。
論文 参考訳(メタデータ) (2020-07-16T04:58:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。