論文の概要: URCDC-Depth: Uncertainty Rectified Cross-Distillation with CutFlip for
Monocular Depth Estimation
- arxiv url: http://arxiv.org/abs/2302.08149v2
- Date: Fri, 17 Feb 2023 04:20:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-20 11:31:38.296675
- Title: URCDC-Depth: Uncertainty Rectified Cross-Distillation with CutFlip for
Monocular Depth Estimation
- Title(参考訳): URCDC-Depth : 単眼深度推定のためのCutFlipを用いた不確かさのクロス蒸留法
- Authors: Shuwei Shao, Zhongcai Pei, Weihai Chen, Ran Li, Zhong Liu and Zhengguo
Li
- Abstract要約: 本稿では,トランスフォーマーと畳み込みニューラルネットワーク(CNN)間の不確かさを補正し,統合された深度推定器を学習する。
具体的には、TransformerブランチとCNNブランチの深さ推定を擬似ラベルとして使い、互いに教え合う。
そこで本研究では,深度推定のための垂直画像位置とは別に,より有用な手がかりを活用できる,驚くほどシンプルで効果的なデータ拡張手法であるCutFlipを提案する。
- 参考スコア(独自算出の注目度): 24.03121823263355
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work aims to estimate a high-quality depth map from a single RGB image.
Due to the lack of depth clues, making full use of the long-range correlation
and the local information is critical for accurate depth estimation. Towards
this end, we introduce an uncertainty rectified cross-distillation between
Transformer and convolutional neural network (CNN) to learn a unified depth
estimator. Specifically, we use the depth estimates from the Transformer branch
and the CNN branch as pseudo labels to teach each other. Meanwhile, we model
the pixel-wise depth uncertainty to rectify the loss weights of noisy pseudo
labels. To avoid the large capacity gap induced by the strong Transformer
branch deteriorating the cross-distillation, we transfer the feature maps from
Transformer to CNN and design coupling units to assist the weak CNN branch to
leverage the transferred features. Furthermore, we propose a surprisingly
simple yet highly effective data augmentation technique CutFlip, which enforces
the model to exploit more valuable clues apart from the vertical image position
for depth inference. Extensive experiments demonstrate that our model,
termed~\textbf{URCDC-Depth}, exceeds previous state-of-the-art methods on the
KITTI, NYU-Depth-v2 and SUN RGB-D datasets, even with no additional
computational burden at inference time. The source code is publicly available
at \url{https://github.com/ShuweiShao/URCDC-Depth}.
- Abstract(参考訳): この研究は、単一のRGB画像から高品質な深度マップを推定することを目的としている。
奥行きの手がかりがないため,遠距離相関と局所情報を十分に活用することは,正確な奥行き推定には不可欠である。
この目的のために,トランスフォーマーと畳み込みニューラルネットワーク(CNN)間の不確実性補正断熱を導入し,統合深度推定器を学習する。
具体的には、TransformerブランチとCNNブランチの深さ推定を擬似ラベルとして使い、互いに教え合う。
一方,画素方向の奥行きの不確かさをモデル化し,ノイズの多い擬似ラベルの損失重みを補正する。
クロス蒸留を劣化させる強力なトランスフォーマーブランチによって引き起こされる大きな容量ギャップを回避するため,トランスフォーマーからCNNへ特徴マップを転送し,弱いCNNブランチを補助して伝達された特徴を活用する。
さらに,深度推定のための鉛直画像位置とは別に,より価値の高い手がかりを活用できるように,驚くほどシンプルで効果的なデータ拡張手法であるCutFlipを提案する。
KITTI, NYU-Depth-v2 および SUN RGB-D データセットでは, 推論時の計算負荷を伴わずに, 従来の最先端の手法を超越したモデルである~\textbf{URCDC-Depth} が実証された。
ソースコードは \url{https://github.com/ShuweiShao/URCDC-Depth} で公開されている。
関連論文リスト
- Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - Single Image Depth Prediction Made Better: A Multivariate Gaussian Take [163.14849753700682]
本稿では,画素ごとの深度を連続的にモデル化する手法を提案する。
提案手法の精度(MG)は,KITTI深度予測ベンチマークリーダーボードの上位に位置する。
論文 参考訳(メタデータ) (2023-03-31T16:01:03Z) - Depthformer : Multiscale Vision Transformer For Monocular Depth
Estimation With Local Global Information Fusion [6.491470878214977]
本稿では,屋内のNYUV2データセットと屋外のKITTIデータセットの深度推定のためのトランスフォーマーベースモデルをベンチマークする。
単眼深度推定のための新しいアテンションベースアーキテクチャDepthformerを提案する。
提案手法は,屋根平均正方形誤差(RMSE)でそれぞれ3.3%,3.3%改善する。
論文 参考訳(メタデータ) (2022-07-10T20:49:11Z) - Cross-receptive Focused Inference Network for Lightweight Image
Super-Resolution [64.25751738088015]
トランスフォーマーに基づく手法は、単一画像超解像(SISR)タスクにおいて顕著な性能を示した。
動的に特徴を抽出するために文脈情報を組み込む必要がある変換器は無視される。
我々は,CNNとTransformerを混合したCTブロックのカスケードで構成される,軽量なクロスレセプティブ・フォーカスド・推論・ネットワーク(CFIN)を提案する。
論文 参考訳(メタデータ) (2022-07-06T16:32:29Z) - Pyramid Grafting Network for One-Stage High Resolution Saliency
Detection [29.013012579688347]
我々は、異なる解像度画像から特徴を独立して抽出する、Praamid Grafting Network (PGNet) と呼ばれるワンステージフレームワークを提案する。
CNNブランチが壊れた詳細情報をよりホモロジーに組み合わせられるように、アテンションベースのクロスモデルグラフティングモジュール (CMGM) が提案されている。
我々は,4K-8K解像度で5,920個の画像を含む超高分解能塩度検出データセットUHRSDを新たに提供した。
論文 参考訳(メタデータ) (2022-04-11T12:22:21Z) - DepthFormer: Exploiting Long-Range Correlation and Local Information for
Accurate Monocular Depth Estimation [50.08080424613603]
高精度な単分子深度推定には長距離相関が不可欠である。
我々は,このグローバルコンテキストを効果的な注意機構でモデル化するためにTransformerを活用することを提案する。
提案したモデルであるDepthFormerは、最先端のモノクル深度推定手法をはるかに超えている。
論文 参考訳(メタデータ) (2022-03-27T05:03:56Z) - Towards Comprehensive Monocular Depth Estimation: Multiple Heads Are
Better Than One [32.01675089157679]
本稿では,複数の弱い深度予測器の強度を統合し,包括的かつ正確な深度予測器を構築することを提案する。
具体的には、異なるTransformerベースおよび畳み込みニューラルネットワーク(CNN)ベースのアーキテクチャを用いて、複数のベース(弱)深さ予測器を構築する。
その結果、トランスフォーマー支援深度アンサンブル(TEDepth)と呼ばれるモデルでは、従来の最先端手法よりも優れた結果が得られる。
論文 参考訳(メタデータ) (2021-11-16T09:09:05Z) - Dilated Fully Convolutional Neural Network for Depth Estimation from a
Single Image [1.0131895986034314]
従来のCNNの欠点に対処するために,高度な拡張完全畳み込みニューラルネットワークを提案する。
拡張畳み込みにおける受容野の指数拡大の利点を利用して、我々のモデルは分解能の損失を最小限に抑えることができる。
本研究では,nyu深部v2データセットを用いて,従来のcnns手法よりも奥行き予測が基礎的真理にかなり近いことを示す。
論文 参考訳(メタデータ) (2021-03-12T23:19:32Z) - PLADE-Net: Towards Pixel-Level Accuracy for Self-Supervised Single-View
Depth Estimation with Neural Positional Encoding and Distilled Matting Loss [49.66736599668501]
PLADE-Netと呼ばれる自己監視型単視点画素レベルの高精度深度推定ネットワークを提案する。
提案手法は,KITTIデータセットの$delta1$測定値の95%を超え,前例のない精度を示す。
論文 参考訳(メタデータ) (2021-03-12T15:54:46Z) - Adaptive Context-Aware Multi-Modal Network for Depth Completion [107.15344488719322]
我々は,観測された空間コンテキストを捉えるために,グラフ伝搬を採用することを提案する。
次に、注意機構を伝搬に適用し、ネットワークが文脈情報を適応的にモデル化することを奨励する。
最後に、抽出したマルチモーダル特徴を効果的に活用するための対称ゲート融合戦略を導入する。
本稿では,Adaptive Context-Aware Multi-Modal Network (ACMNet) を2つのベンチマークで評価した。
論文 参考訳(メタデータ) (2020-08-25T06:00:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。