論文の概要: A Weakly-Supervised Depth Estimation Network Using Attention Mechanism
- arxiv url: http://arxiv.org/abs/2107.04819v1
- Date: Sat, 10 Jul 2021 11:40:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-13 16:00:05.280573
- Title: A Weakly-Supervised Depth Estimation Network Using Attention Mechanism
- Title(参考訳): 注意機構を用いた弱修正深度推定ネットワーク
- Authors: Fang Gao, Jiabao Wang, Jun Yu, Yaoxiong Wang, Feng Shuang
- Abstract要約: 本稿では、注意ネストされたU-net(ANU)をベースとした弱教師付きフレームワークANUWを紹介する。
ANUWは、入力された単一のRGB画像を深度画像に変換するために、エンドツーエンドに訓練される。
提案したANUWは欠陥のある単眼深度データセットでトレーニングされ、トレーニングされたモデルは3つの公開データセットでテストされる。
- 参考スコア(独自算出の注目度): 19.529280000422954
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monocular depth estimation (MDE) is a fundamental task in many applications
such as scene understanding and reconstruction. However, most of the existing
methods rely on accurately labeled datasets. A weakly-supervised framework
based on attention nested U-net (ANU) named as ANUW is introduced in this paper
for cases with wrong labels. The ANUW is trained end-to-end to convert an input
single RGB image into a depth image. It consists of a dense residual network
structure, an adaptive weight channel attention (AWCA) module, a patch second
non-local (PSNL) module and a soft label generation method. The dense residual
network is the main body of the network to encode and decode the input. The
AWCA module can adaptively adjust the channel weights to extract important
features. The PSNL module implements the spatial attention mechanism through a
second-order non-local method. The proposed soft label generation method uses
the prior knowledge of the dataset to produce soft labels to replace false
ones. The proposed ANUW is trained on a defective monocular depth dataset and
the trained model is tested on three public datasets, and the results
demonstrate the superiority of ANUW in comparison with the state-of-the-art MDE
methods.
- Abstract(参考訳): 単眼深度推定(MDE)はシーン理解や再構成といった多くのアプリケーションにおいて基本的な課題である。
しかし、既存のメソッドのほとんどは正確なラベル付きデータセットに依存している。
ANUWという名前の注目ネスト付きU-net(ANU)に基づく弱監督型フレームワークを,ラベルの誤用に対して導入した。
ANUWは、入力された単一のRGB画像を深度画像に変換するためにエンドツーエンドに訓練される。
これは、高密度残留ネットワーク構造、適応重みチャネルアテンション(AWCA)モジュール、パッチ第2非ローカル(PSNL)モジュール、ソフトラベル生成方法からなる。
高密度残留ネットワークは、入力をエンコードしてデコードするネットワークの本体である。
awcaモジュールはチャネル重みを適応的に調整して重要な特徴を抽出することができる。
PSNLモジュールは2階非局所法により空間的注意機構を実装している。
提案するソフトラベル生成手法は,データセットの事前知識を用いて,偽のラベルを置き換えるソフトラベルを生成する。
提案したANUWは、欠陥のある単分子深度データセットに基づいてトレーニングされ、トレーニングされたモデルは3つの公開データセット上でテストされ、その結果、最先端のMDE手法と比較してANUWの優位性を示す。
関連論文リスト
- MICDrop: Masking Image and Depth Features via Complementary Dropout for Domain-Adaptive Semantic Segmentation [155.0797148367653]
Unsupervised Domain Adaptation (UDA)は、ラベル付きソースドメインとラベルなしターゲットドメインの間のドメインギャップを埋めるタスクである。
深度不連続性はしばしばセグメンテーション境界と一致するため、幾何学的情報、すなわち深度予測を活用することを提案する。
提案手法は, 様々な UDA 手法にプラグインし, 標準 UDA ベンチマークで連続的に結果を改善することができることを示す。
論文 参考訳(メタデータ) (2024-08-29T12:15:10Z) - De-coupling and De-positioning Dense Self-supervised Learning [65.56679416475943]
Dense Self-Supervised Learning (SSL)メソッドは、複数のオブジェクトでイメージを処理する際に、画像レベルの特徴表現を使用する際の制限に対処する。
本研究は, 層深度やゼロパディングに伴う受容野の増大によって生じる, 結合と位置バイアスに悩まされていることを示す。
我々はCOCOにおける本手法の利点と、オブジェクト分類、セマンティックセグメンテーション、オブジェクト検出のための新しい挑戦的ベンチマークであるOpenImage-MINIについて示す。
論文 参考訳(メタデータ) (2023-03-29T18:07:25Z) - Target and Task specific Source-Free Domain Adaptive Image Segmentation [73.78898054277538]
ソースフリー領域適応画像分割のための2段階のアプローチを提案する。
我々は,高エントロピー領域を抑えつつ,ターゲット固有の擬似ラベルを生成することに注力する。
第2段階では、タスク固有の表現にネットワークを適用することに重点を置いている。
論文 参考訳(メタデータ) (2022-03-29T17:50:22Z) - Multiscale Convolutional Transformer with Center Mask Pretraining for
Hyperspectral Image Classificationtion [14.33259265286265]
本稿では,空間スペクトル情報の効率的な抽出を実現するために,高スペクトル画像(HSI)のための高速多スケール畳み込みモジュールを提案する。
マスクオートエンコーダと同様に、我々の事前学習法は、エンコーダ内の中央画素の対応するトークンのみをマスクし、残りのトークンをデコーダに入力し、中央画素のスペクトル情報を再構成する。
論文 参考訳(メタデータ) (2022-03-09T14:42:26Z) - AttDLNet: Attention-based DL Network for 3D LiDAR Place Recognition [0.6352264764099531]
本稿では,AttDLNetという3次元LiDARに基づくディープラーニングネットワークを提案する。
注意機構を利用して、長距離コンテキストと機能間関係に選択的にフォーカスする。
その結果、エンコーダネットワークの機能は、すでに非常に説明力があるが、ネットワークに注意を加えることで、パフォーマンスがさらに向上していることがわかった。
論文 参考訳(メタデータ) (2021-06-17T16:34:37Z) - PLADE-Net: Towards Pixel-Level Accuracy for Self-Supervised Single-View
Depth Estimation with Neural Positional Encoding and Distilled Matting Loss [49.66736599668501]
PLADE-Netと呼ばれる自己監視型単視点画素レベルの高精度深度推定ネットワークを提案する。
提案手法は,KITTIデータセットの$delta1$測定値の95%を超え,前例のない精度を示す。
論文 参考訳(メタデータ) (2021-03-12T15:54:46Z) - Monocular 3D Object Detection with Sequential Feature Association and
Depth Hint Augmentation [12.55603878441083]
FADNetは、モノクル3Dオブジェクト検出の課題に対処するために提示される。
専用のディープヒントモジュールは、ディープヒントと呼ばれる行ワイズ機能を生成するように設計されている。
この研究の貢献は、KITTIベンチマークの実験およびアブレーション研究によって検証される。
論文 参考訳(メタデータ) (2020-11-30T07:19:14Z) - Adaptive Context-Aware Multi-Modal Network for Depth Completion [107.15344488719322]
我々は,観測された空間コンテキストを捉えるために,グラフ伝搬を採用することを提案する。
次に、注意機構を伝搬に適用し、ネットワークが文脈情報を適応的にモデル化することを奨励する。
最後に、抽出したマルチモーダル特徴を効果的に活用するための対称ゲート融合戦略を導入する。
本稿では,Adaptive Context-Aware Multi-Modal Network (ACMNet) を2つのベンチマークで評価した。
論文 参考訳(メタデータ) (2020-08-25T06:00:06Z) - Density-Aware Graph for Deep Semi-Supervised Visual Recognition [102.9484812869054]
半教師付き学習(SSL)は、視覚認識のためのディープニューラルネットワークの一般化能力を改善するために広く研究されている。
本稿では,周辺情報を容易に活用できる新しい密度対応グラフを構築することでSSL問題を解決することを提案する。
論文 参考訳(メタデータ) (2020-03-30T02:52:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。