Fugu-MT 論文翻訳(概要): URCDC-Depth: Uncertainty Rectified Cross-Distillation with CutFlip for Monocular Depth Estimation

論文の概要: URCDC-Depth: Uncertainty Rectified Cross-Distillation with CutFlip for Monocular Depth Estimation

arxiv url: http://arxiv.org/abs/2302.08149v2
Date: Fri, 17 Feb 2023 04:20:14 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-20 11:31:38.296675
Title: URCDC-Depth: Uncertainty Rectified Cross-Distillation with CutFlip for Monocular Depth Estimation
Title（参考訳）: URCDC-Depth : 単眼深度推定のためのCutFlipを用いた不確かさのクロス蒸留法
Authors: Shuwei Shao, Zhongcai Pei, Weihai Chen, Ran Li, Zhong Liu and Zhengguo Li
Abstract要約: 本稿では,トランスフォーマーと畳み込みニューラルネットワーク(CNN)間の不確かさを補正し,統合された深度推定器を学習する。具体的には、TransformerブランチとCNNブランチの深さ推定を擬似ラベルとして使い、互いに教え合う。そこで本研究では,深度推定のための垂直画像位置とは別に,より有用な手がかりを活用できる,驚くほどシンプルで効果的なデータ拡張手法であるCutFlipを提案する。
参考スコア（独自算出の注目度）: 24.03121823263355
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This work aims to estimate a high-quality depth map from a single RGB image. Due to the lack of depth clues, making full use of the long-range correlation and the local information is critical for accurate depth estimation. Towards this end, we introduce an uncertainty rectified cross-distillation between Transformer and convolutional neural network (CNN) to learn a unified depth estimator. Specifically, we use the depth estimates from the Transformer branch and the CNN branch as pseudo labels to teach each other. Meanwhile, we model the pixel-wise depth uncertainty to rectify the loss weights of noisy pseudo labels. To avoid the large capacity gap induced by the strong Transformer branch deteriorating the cross-distillation, we transfer the feature maps from Transformer to CNN and design coupling units to assist the weak CNN branch to leverage the transferred features. Furthermore, we propose a surprisingly simple yet highly effective data augmentation technique CutFlip, which enforces the model to exploit more valuable clues apart from the vertical image position for depth inference. Extensive experiments demonstrate that our model, termed~\textbf{URCDC-Depth}, exceeds previous state-of-the-art methods on the KITTI, NYU-Depth-v2 and SUN RGB-D datasets, even with no additional computational burden at inference time. The source code is publicly available at \url{https://github.com/ShuweiShao/URCDC-Depth}.
Abstract（参考訳）: この研究は、単一のRGB画像から高品質な深度マップを推定することを目的としている。奥行きの手がかりがないため,遠距離相関と局所情報を十分に活用することは,正確な奥行き推定には不可欠である。この目的のために,トランスフォーマーと畳み込みニューラルネットワーク(CNN)間の不確実性補正断熱を導入し,統合深度推定器を学習する。具体的には、TransformerブランチとCNNブランチの深さ推定を擬似ラベルとして使い、互いに教え合う。一方,画素方向の奥行きの不確かさをモデル化し,ノイズの多い擬似ラベルの損失重みを補正する。クロス蒸留を劣化させる強力なトランスフォーマーブランチによって引き起こされる大きな容量ギャップを回避するため,トランスフォーマーからCNNへ特徴マップを転送し,弱いCNNブランチを補助して伝達された特徴を活用する。さらに,深度推定のための鉛直画像位置とは別に,より価値の高い手がかりを活用できるように,驚くほどシンプルで効果的なデータ拡張手法であるCutFlipを提案する。 KITTI, NYU-Depth-v2 および SUN RGB-D データセットでは, 推論時の計算負荷を伴わずに, 従来の最先端の手法を超越したモデルである~\textbf{URCDC-Depth} が実証された。ソースコードは \url{https://github.com/ShuweiShao/URCDC-Depth} で公開されている。

関連論文リスト

Self-supervised Monocular Depth Estimation with Large Kernel Attention [30.44895226042849]
より詳細な情報を得るために,自己教師付き単眼深度推定ネットワークを提案する。具体的には,長距離依存性をモデル化可能なカーネルアテンションに基づくデコーダを提案する。提案手法は,KITTIデータセット上での競合結果を実現する。
論文参考訳（メタデータ） (2024-09-26T14:44:41Z)
SDformer: Efficient End-to-End Transformer for Depth Completion [5.864200786548098]
深度完了は、深度センサからの疎度測定で深度マップを予測することを目的としている。現在、畳み込みニューラルネットワーク(CNN)ベースのモデルは、深度補完タスクに適用される最も一般的な手法である。 CNNの欠点を克服するため、適応型自己アテンション設定シーケンス・ツー・シーケンスモデルである、より効果的で強力な手法が提案されている。
論文参考訳（メタデータ） (2024-09-12T15:52:08Z)
AugUndo: Scaling Up Augmentations for Monocular Depth Completion and Estimation [51.143540967290114]
本研究では,教師なし深度計算と推定のために,従来不可能であった幾何拡張の幅広い範囲をアンロックする手法を提案する。これは、出力深さの座標への幾何変換を反転、あるいはアンドウイング(undo''-ing)し、深度マップを元の参照フレームに戻すことで達成される。
論文参考訳（メタデータ） (2023-10-15T05:15:45Z)
Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。 CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。 DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文参考訳（メタデータ） (2023-10-11T12:46:11Z)
Single Image Depth Prediction Made Better: A Multivariate Gaussian Take [163.14849753700682]
本稿では,画素ごとの深度を連続的にモデル化する手法を提案する。提案手法の精度(MG)は,KITTI深度予測ベンチマークリーダーボードの上位に位置する。
論文参考訳（メタデータ） (2023-03-31T16:01:03Z)
Unsupervised Spike Depth Estimation via Cross-modality Cross-domain Knowledge Transfer [53.413305467674434]
スパイク深度推定をサポートするためにオープンソースのRGBデータを導入し,そのアノテーションと空間情報を活用する。教師なしスパイク深さ推定を実現するために,クロスモーダルクロスドメイン(BiCross)フレームワークを提案する。提案手法は,RGB指向の教師なし深度推定法と比較して,最先端(SOTA)性能を実現する。
論文参考訳（メタデータ） (2022-08-26T09:35:20Z)
Depthformer : Multiscale Vision Transformer For Monocular Depth Estimation With Local Global Information Fusion [6.491470878214977]
本稿では,屋内のNYUV2データセットと屋外のKITTIデータセットの深度推定のためのトランスフォーマーベースモデルをベンチマークする。単眼深度推定のための新しいアテンションベースアーキテクチャDepthformerを提案する。提案手法は,屋根平均正方形誤差(RMSE)でそれぞれ3.3%,3.3%改善する。
論文参考訳（メタデータ） (2022-07-10T20:49:11Z)
DepthFormer: Exploiting Long-Range Correlation and Local Information for Accurate Monocular Depth Estimation [50.08080424613603]
高精度な単分子深度推定には長距離相関が不可欠である。我々は,このグローバルコンテキストを効果的な注意機構でモデル化するためにTransformerを活用することを提案する。提案したモデルであるDepthFormerは、最先端のモノクル深度推定手法をはるかに超えている。
論文参考訳（メタデータ） (2022-03-27T05:03:56Z)
Towards Comprehensive Monocular Depth Estimation: Multiple Heads Are Better Than One [32.01675089157679]
本稿では,複数の弱い深度予測器の強度を統合し,包括的かつ正確な深度予測器を構築することを提案する。具体的には、異なるTransformerベースおよび畳み込みニューラルネットワーク(CNN)ベースのアーキテクチャを用いて、複数のベース(弱)深さ予測器を構築する。その結果、トランスフォーマー支援深度アンサンブル(TEDepth)と呼ばれるモデルでは、従来の最先端手法よりも優れた結果が得られる。
論文参考訳（メタデータ） (2021-11-16T09:09:05Z)
PLADE-Net: Towards Pixel-Level Accuracy for Self-Supervised Single-View Depth Estimation with Neural Positional Encoding and Distilled Matting Loss [49.66736599668501]
PLADE-Netと呼ばれる自己監視型単視点画素レベルの高精度深度推定ネットワークを提案する。提案手法は,KITTIデータセットの$delta1$測定値の95%を超え,前例のない精度を示す。
論文参考訳（メタデータ） (2021-03-12T15:54:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。