Fugu-MT 論文翻訳(概要): HQDec: Self-Supervised Monocular Depth Estimation Based on a High-Quality Decoder

論文の概要: HQDec: Self-Supervised Monocular Depth Estimation Based on a High-Quality Decoder

arxiv url: http://arxiv.org/abs/2305.18706v1
Date: Tue, 30 May 2023 03:03:11 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-31 18:38:29.889063
Title: HQDec: Self-Supervised Monocular Depth Estimation Based on a High-Quality Decoder
Title（参考訳）: HQDec:高品質デコーダに基づく自己監督単分子深さ推定
Authors: Fei Wang, Jun Cheng
Abstract要約: シーン深度を復元する高品質デコーダ(HQDec)を提案する。コードとモデルはhrefhttps://github.com/fwucas/HQDecHQDec.comで公開される。
参考スコア（独自算出の注目度）: 14.67433946077953
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Decoders play significant roles in recovering scene depths. However, the decoders used in previous works ignore the propagation of multilevel lossless fine-grained information, cannot adaptively capture local and global information in parallel, and cannot perform sufficient global statistical analyses on the final output disparities. In addition, the process of mapping from a low-resolution feature space to a high-resolution feature space is a one-to-many problem that may have multiple solutions. Therefore, the quality of the recovered depth map is low. To this end, we propose a high-quality decoder (HQDec), with which multilevel near-lossless fine-grained information, obtained by the proposed adaptive axial-normalized position-embedded channel attention sampling module (AdaAxialNPCAS), can be adaptively incorporated into a low-resolution feature map with high-level semantics utilizing the proposed adaptive information exchange scheme. In the HQDec, we leverage the proposed adaptive refinement module (AdaRM) to model the local and global dependencies between pixels in parallel and utilize the proposed disparity attention module to model the distribution characteristics of disparity values from a global perspective. To recover fine-grained high-resolution features with maximal accuracy, we adaptively fuse the high-frequency information obtained by constraining the upsampled solution space utilizing the local and global dependencies between pixels into the high-resolution feature map generated from the nonlearning method. Extensive experiments demonstrate that each proposed component improves the quality of the depth estimation results over the baseline results, and the developed approach achieves state-of-the-art results on the KITTI and DDAD datasets. The code and models will be publicly available at \href{https://github.com/fwucas/HQDec}{HQDec}.
Abstract（参考訳）: デコーダはシーンの深さを回復するのに重要な役割を果たす。しかし, 先行研究で使用したデコーダは, 多レベルロスレス細粒情報の伝播を無視し, 局所的および大域的情報を並列に捉えることはできず, 最終出力の差に対して十分な大域的統計解析を行うことができない。さらに、低解像度特徴空間から高分解能特徴空間へのマッピングのプロセスは、複数の解を持つ1対1の問題である。したがって、回収された深度マップの品質は低い。そこで本研究では,アダプティブアキシマライズされた位置正規化チャネルアテンションサンプリングモジュール(AdaAxialNPCAS)によって得られた多レベルニアロスレス微粒化情報を,適応情報交換方式を利用した高解像度特徴写像に適応的に組み込むことができる高品質デコーダ(HQDec)を提案する。 hqdecでは,提案する適応改良モジュール(adarm)を利用して,画素間の局所的および大域的な依存関係を並列にモデル化し,提案する不一致注意モジュールを用いてグローバル視点から異値の分布特性をモデル化する。本研究では,非学習法から生成された高解像度特徴マップに,画素間の局所的および大域的な依存関係を利用して,アップサンプリングされた解空間を制約して得られる高周波情報を適応的に融合する。大規模実験により,提案した各コンポーネントはベースライン結果よりも深度推定結果の質を向上し,提案手法はKITTIおよびDDADデータセットの最先端結果を実現する。コードとモデルは \href{https://github.com/fwucas/HQDec}{HQDec} で公開されている。

関連論文リスト

RARE-UNet: Resolution-Aligned Routing Entry for Adaptive Medical Image Segmentation [0.0]
本稿では,入力の空間分解能にその推論経路を適応させる,分解能を考慮したマルチスケールセグメンテーションアーキテクチャを提案する。 RARE-UNetは、海馬と腫瘍のセグメンテーションのための2つのベンチマーク脳イメージングタスクでテストされている。本モデルでは,高精細度における平均Diceスコアが0.84と0.65であり,一貫した性能を維持しつつ,低精細度での推論時間を著しく短縮する。
論文参考訳（メタデータ） (2025-07-21T11:49:20Z)
JAFAR: Jack up Any Feature at Any Resolution [53.343826346140624]
JAFARは、Foundation Visionsの軽量で柔軟な機能アップサンプラーである。これは、どんなファンデーションビジョンから任意の目標解像度まで、視覚的特徴の空間分解能を高める。非常に高い出力スケールに非常によく一般化する。
論文参考訳（メタデータ） (2025-06-10T20:53:12Z)
Decoupling Fine Detail and Global Geometry for Compressed Depth Map Super-Resolution [55.9977636042469]
ビット深度圧縮は、微妙な変化のある領域で均一な深度表現を生成し、詳細情報の回復を妨げる。密集したランダムノイズは、シーンのグローバルな幾何学的構造を推定する精度を低下させる。圧縮深度マップ超解像のための新しいフレームワークGDNetを提案する。
論文参考訳（メタデータ） (2024-11-05T16:37:30Z)
PGNeXt: High-Resolution Salient Object Detection via Pyramid Grafting Network [24.54269823691119]
本稿では、データセットとネットワークフレームワークの両方の観点から、より難解な高分解能サルエントオブジェクト検出(HRSOD)について述べる。 HRSODデータセットの欠如を補うため、UHRSDと呼ばれる大規模高解像度の高分解能物体検出データセットを慎重に収集した。すべての画像はピクセルレベルで微妙にアノテートされ、以前の低解像度のSODデータセットをはるかに上回っている。
論文参考訳（メタデータ） (2024-08-02T09:31:21Z)
Cross-Domain Knowledge Distillation for Low-Resolution Human Pose Estimation [31.970739018426645]
人間のポーズ推定の実践的応用では、低解像度の入力が頻繁に発生し、既存の最先端モデルでは低解像度の画像では不十分である。本研究は,高分解能モデルから知識を抽出することにより,低分解能モデルの性能向上に重点を置いている。
論文参考訳（メタデータ） (2024-05-19T04:57:17Z)
Multi-view Aggregation Network for Dichotomous Image Segmentation [76.75904424539543]
Dichotomous Image (DIS) は近年,高解像度自然画像からの高精度物体分割に向けて出現している。既存の手法は、グローバルなローカライゼーションと局所的な洗練を徐々に完了させるために、退屈な複数のエンコーダ・デコーダストリームとステージに依存している。これに触発されて、我々は多視点オブジェクト認識問題としてdisをモデル化し、擬似多視点アグリゲーションネットワーク(MVANet)を提供する。一般的なdis-5Kデータセットの実験では、我々のMVANetは精度と速度の両方で最先端の手法を大きく上回っている。
論文参考訳（メタデータ） (2024-04-11T03:00:00Z)
Low-Resolution Self-Attention for Semantic Segmentation [96.81482872022237]
我々は,グローバルコンテキストを計算コストの大幅な削減で捉えるために,低解像度自己認識(LRSA)機構を導入する。我々のアプローチは、入力画像の解像度に関わらず、固定された低解像度空間における自己注意を計算することである。本稿では,エンコーダ・デコーダ構造を持つビジョントランスであるLRFormerを構築することで,LRSA手法の有効性を示す。
論文参考訳（メタデータ） (2023-10-08T06:10:09Z)
Small Object Detection via Coarse-to-fine Proposal Generation and Imitation Learning [52.06176253457522]
本稿では,粗粒度パイプラインと特徴模倣学習に基づく小型物体検出に適した2段階フレームワークを提案する。 CFINetは、大規模な小さなオブジェクト検出ベンチマークであるSODA-DとSODA-Aで最先端の性能を達成する。
論文参考訳（メタデータ） (2023-08-18T13:13:09Z)
Pyramid Grafting Network for One-Stage High Resolution Saliency Detection [29.013012579688347]
我々は、異なる解像度画像から特徴を独立して抽出する、Praamid Grafting Network (PGNet) と呼ばれるワンステージフレームワークを提案する。 CNNブランチが壊れた詳細情報をよりホモロジーに組み合わせられるように、アテンションベースのクロスモデルグラフティングモジュール (CMGM) が提案されている。我々は,4K-8K解像度で5,920個の画像を含む超高分解能塩度検出データセットUHRSDを新たに提供した。
論文参考訳（メタデータ） (2022-04-11T12:22:21Z)
DepthFormer: Exploiting Long-Range Correlation and Local Information for Accurate Monocular Depth Estimation [50.08080424613603]
高精度な単分子深度推定には長距離相関が不可欠である。我々は,このグローバルコンテキストを効果的な注意機構でモデル化するためにTransformerを活用することを提案する。提案したモデルであるDepthFormerは、最先端のモノクル深度推定手法をはるかに超えている。
論文参考訳（メタデータ） (2022-03-27T05:03:56Z)
High-resolution Depth Maps Imaging via Attention-based Hierarchical Multi-modal Fusion [84.24973877109181]
誘導DSRのための新しい注意に基づく階層型マルチモーダル融合ネットワークを提案する。本手法は,再現精度,動作速度,メモリ効率の点で最先端手法よりも優れていることを示す。
論文参考訳（メタデータ） (2021-04-04T03:28:33Z)
AdaBins: Depth Estimation using Adaptive Bins [43.07310038858445]
本稿では,画像毎の中心値が適応的に推定されるビンに深さ範囲を分割するトランスフォーマーアーキテクチャブロックを提案する。以上の結果から,いくつかの一般的な深度データセットの最先端性に対する決定的な改善が得られた。
論文参考訳（メタデータ） (2020-11-28T14:40:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。