論文の概要: HQDec: Self-Supervised Monocular Depth Estimation Based on a
High-Quality Decoder
- arxiv url: http://arxiv.org/abs/2305.18706v1
- Date: Tue, 30 May 2023 03:03:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 18:38:29.889063
- Title: HQDec: Self-Supervised Monocular Depth Estimation Based on a
High-Quality Decoder
- Title(参考訳): HQDec:高品質デコーダに基づく自己監督単分子深さ推定
- Authors: Fei Wang, Jun Cheng
- Abstract要約: シーン深度を復元する高品質デコーダ(HQDec)を提案する。
コードとモデルはhrefhttps://github.com/fwucas/HQDecHQDec.comで公開される。
- 参考スコア(独自算出の注目度): 14.67433946077953
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Decoders play significant roles in recovering scene depths. However, the
decoders used in previous works ignore the propagation of multilevel lossless
fine-grained information, cannot adaptively capture local and global
information in parallel, and cannot perform sufficient global statistical
analyses on the final output disparities. In addition, the process of mapping
from a low-resolution feature space to a high-resolution feature space is a
one-to-many problem that may have multiple solutions. Therefore, the quality of
the recovered depth map is low. To this end, we propose a high-quality decoder
(HQDec), with which multilevel near-lossless fine-grained information, obtained
by the proposed adaptive axial-normalized position-embedded channel attention
sampling module (AdaAxialNPCAS), can be adaptively incorporated into a
low-resolution feature map with high-level semantics utilizing the proposed
adaptive information exchange scheme. In the HQDec, we leverage the proposed
adaptive refinement module (AdaRM) to model the local and global dependencies
between pixels in parallel and utilize the proposed disparity attention module
to model the distribution characteristics of disparity values from a global
perspective. To recover fine-grained high-resolution features with maximal
accuracy, we adaptively fuse the high-frequency information obtained by
constraining the upsampled solution space utilizing the local and global
dependencies between pixels into the high-resolution feature map generated from
the nonlearning method. Extensive experiments demonstrate that each proposed
component improves the quality of the depth estimation results over the
baseline results, and the developed approach achieves state-of-the-art results
on the KITTI and DDAD datasets. The code and models will be publicly available
at \href{https://github.com/fwucas/HQDec}{HQDec}.
- Abstract(参考訳): デコーダはシーンの深さを回復するのに重要な役割を果たす。
しかし, 先行研究で使用したデコーダは, 多レベルロスレス細粒情報の伝播を無視し, 局所的および大域的情報を並列に捉えることはできず, 最終出力の差に対して十分な大域的統計解析を行うことができない。
さらに、低解像度特徴空間から高分解能特徴空間へのマッピングのプロセスは、複数の解を持つ1対1の問題である。
したがって、回収された深度マップの品質は低い。
そこで本研究では,アダプティブアキシマライズされた位置正規化チャネルアテンションサンプリングモジュール(AdaAxialNPCAS)によって得られた多レベルニアロスレス微粒化情報を,適応情報交換方式を利用した高解像度特徴写像に適応的に組み込むことができる高品質デコーダ(HQDec)を提案する。
hqdecでは,提案する適応改良モジュール(adarm)を利用して,画素間の局所的および大域的な依存関係を並列にモデル化し,提案する不一致注意モジュールを用いてグローバル視点から異値の分布特性をモデル化する。
本研究では,非学習法から生成された高解像度特徴マップに,画素間の局所的および大域的な依存関係を利用して,アップサンプリングされた解空間を制約して得られる高周波情報を適応的に融合する。
大規模実験により,提案した各コンポーネントはベースライン結果よりも深度推定結果の質を向上し,提案手法はKITTIおよびDDADデータセットの最先端結果を実現する。
コードとモデルは \href{https://github.com/fwucas/HQDec}{HQDec} で公開されている。
関連論文リスト
- Bag of Tricks: Semi-Supervised Cross-domain Crater Detection with Poor
Data Quality [18.832262889768078]
実験の結果,DACDデータセットの性能は向上し,ベースライン上でのクロスドメイン検出のリコールが24.04%向上した。
論文 参考訳(メタデータ) (2023-12-11T07:16:49Z) - Low-Resolution Self-Attention for Semantic Segmentation [96.81482872022237]
我々は,グローバルコンテキストを計算コストの大幅な削減で捉えるために,低解像度自己認識(LRSA)機構を導入する。
我々のアプローチは、入力画像の解像度に関わらず、固定された低解像度空間における自己注意を計算することである。
本稿では,エンコーダ・デコーダ構造を持つビジョントランスであるLRFormerを構築することで,LRSA手法の有効性を示す。
論文 参考訳(メタデータ) (2023-10-08T06:10:09Z) - Small Object Detection via Coarse-to-fine Proposal Generation and
Imitation Learning [52.06176253457522]
本稿では,粗粒度パイプラインと特徴模倣学習に基づく小型物体検出に適した2段階フレームワークを提案する。
CFINetは、大規模な小さなオブジェクト検出ベンチマークであるSODA-DとSODA-Aで最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-08-18T13:13:09Z) - Pyramid Grafting Network for One-Stage High Resolution Saliency
Detection [29.013012579688347]
我々は、異なる解像度画像から特徴を独立して抽出する、Praamid Grafting Network (PGNet) と呼ばれるワンステージフレームワークを提案する。
CNNブランチが壊れた詳細情報をよりホモロジーに組み合わせられるように、アテンションベースのクロスモデルグラフティングモジュール (CMGM) が提案されている。
我々は,4K-8K解像度で5,920個の画像を含む超高分解能塩度検出データセットUHRSDを新たに提供した。
論文 参考訳(メタデータ) (2022-04-11T12:22:21Z) - Single Image Internal Distribution Measurement Using Non-Local
Variational Autoencoder [11.985083962982909]
本稿では,非局所変分オートエンコーダ(textttNLVAE)という画像固有解を提案する。
textttNLVAEは,非局所領域からの非絡み合った情報を用いて高解像度画像を再構成する自己教師型戦略として導入された。
7つのベンチマークデータセットによる実験結果から,textttNLVAEモデルの有効性が示された。
論文 参考訳(メタデータ) (2022-04-02T18:43:55Z) - DepthFormer: Exploiting Long-Range Correlation and Local Information for
Accurate Monocular Depth Estimation [50.08080424613603]
高精度な単分子深度推定には長距離相関が不可欠である。
我々は,このグローバルコンテキストを効果的な注意機構でモデル化するためにTransformerを活用することを提案する。
提案したモデルであるDepthFormerは、最先端のモノクル深度推定手法をはるかに超えている。
論文 参考訳(メタデータ) (2022-03-27T05:03:56Z) - High-resolution Depth Maps Imaging via Attention-based Hierarchical
Multi-modal Fusion [84.24973877109181]
誘導DSRのための新しい注意に基づく階層型マルチモーダル融合ネットワークを提案する。
本手法は,再現精度,動作速度,メモリ効率の点で最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-04-04T03:28:33Z) - PLADE-Net: Towards Pixel-Level Accuracy for Self-Supervised Single-View
Depth Estimation with Neural Positional Encoding and Distilled Matting Loss [49.66736599668501]
PLADE-Netと呼ばれる自己監視型単視点画素レベルの高精度深度推定ネットワークを提案する。
提案手法は,KITTIデータセットの$delta1$測定値の95%を超え,前例のない精度を示す。
論文 参考訳(メタデータ) (2021-03-12T15:54:46Z) - High Dimensional Level Set Estimation with Bayesian Neural Network [58.684954492439424]
本稿では,ベイズニューラルネットワークを用いた高次元レベル集合推定問題を解く新しい手法を提案する。
各問題に対して対応する理論情報に基づく取得関数を導出してデータポイントをサンプリングする。
合成データセットと実世界データセットの数値実験により,提案手法は既存手法よりも優れた結果が得られることが示された。
論文 参考訳(メタデータ) (2020-12-17T23:21:53Z) - AdaBins: Depth Estimation using Adaptive Bins [43.07310038858445]
本稿では,画像毎の中心値が適応的に推定されるビンに深さ範囲を分割するトランスフォーマーアーキテクチャブロックを提案する。
以上の結果から,いくつかの一般的な深度データセットの最先端性に対する決定的な改善が得られた。
論文 参考訳(メタデータ) (2020-11-28T14:40:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。