論文の概要: URCDC-Depth: Uncertainty Rectified Cross-Distillation with CutFlip for
Monocular Depth Estimation
- arxiv url: http://arxiv.org/abs/2302.08149v1
- Date: Thu, 16 Feb 2023 08:53:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-17 14:36:15.655327
- Title: URCDC-Depth: Uncertainty Rectified Cross-Distillation with CutFlip for
Monocular Depth Estimation
- Title(参考訳): URCDC-Depth : 単眼深度推定のためのCutFlipを用いた不確かさのクロス蒸留法
- Authors: Shuwei Shao, Zhongcai Pei, Weihai Chen, Ran Li, Zhong Liu and Zhengguo
Li
- Abstract要約: 本稿では,トランスフォーマーと畳み込みニューラルネットワーク(CNN)間の不確かさを補正し,統合された深度推定器を学習する。
具体的には、TransformerブランチとCNNブランチから得られた深さ推定を擬似ラベルとして使い、互いに教え合う。
そこで本研究では,深度推定のための鉛直画像位置の手がかりとは別に,より有用な手がかりを活用できる,驚くほどシンプルで効果的なデータ拡張手法であるCutFlipを提案する。
- 参考スコア(独自算出の注目度): 24.03121823263355
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work aims to estimate a high-quality depth map from a single RGB image.
Due to the lack of depth clues, making full use of the long-range correlation
and the local information is critical for accurate depth estimation. Towards
this end, we introduce an uncertainty rectified cross-distillation between
Transformer and convolutional neural network (CNN) to learn a unified depth
estimator. Specifically, we use the depth estimates derived from the
Transformer branch and the CNN branch as pseudo labels to teach each other.
Meanwhile, we model the pixel-wise depth uncertainty to rectify the loss
weights of noisy depth labels. To avoid the large performance gap induced by
the strong Transformer branch deteriorating the cross-distillation, we transfer
the feature maps from Transformer to CNN and design coupling units to assist
the weak CNN branch to utilize the transferred features. Furthermore, we
propose a surprisingly simple yet highly effective data augmentation technique
CutFlip, which enforces the model to exploit more valuable clues apart from the
clue of vertical image position for depth estimation. Extensive experiments
indicate that our model, termed~\textbf{URCDC-Depth}, exceeds previous
state-of-the-art methods on the KITTI and NYU-Depth-v2 datasets, even with no
additional computational burden at inference time. The source code is publicly
available at \url{https://github.com/ShuweiShao/URCDC-Depth}.
- Abstract(参考訳): この研究は、単一のRGB画像から高品質な深度マップを推定することを目的としている。
奥行きの手がかりがないため,遠距離相関と局所情報を十分に活用することは,正確な奥行き推定には不可欠である。
この目的のために,トランスフォーマーと畳み込みニューラルネットワーク(CNN)間の不確実性補正断熱を導入し,統合深度推定器を学習する。
具体的には、TransformerブランチとCNNブランチから得られた深さ推定を擬似ラベルとして使い、互いに教え合う。
一方,ノイズ深度ラベルの損失重みを補正するために,画素単位の深さ不確かさをモデル化する。
クロス蒸留を劣化させる強力なトランスフォーマー分岐によって引き起こされる大きな性能ギャップを回避するため,トランスフォーマーからCNNへ特徴マップを転送し,弱いCNN分岐を補助する結合ユニットを設計する。
さらに,深度推定のための鉛直画像位置の手がかりとは別に,より価値の高い手がかりを活用できるように,驚くほどシンプルで効果的なデータ拡張手法であるCutFlipを提案する。
実験結果から,提案手法はKITTIおよびNYU-Depth-v2データセットにおける従来の最先端手法を超越しており,推論時に計算負荷が増すことはないことがわかった。
ソースコードは \url{https://github.com/ShuweiShao/URCDC-Depth} で公開されている。
関連論文リスト
- Self-supervised Monocular Depth Estimation with Large Kernel Attention [30.44895226042849]
より詳細な情報を得るために,自己教師付き単眼深度推定ネットワークを提案する。
具体的には,長距離依存性をモデル化可能なカーネルアテンションに基づくデコーダを提案する。
提案手法は,KITTIデータセット上での競合結果を実現する。
論文 参考訳(メタデータ) (2024-09-26T14:44:41Z) - SDformer: Efficient End-to-End Transformer for Depth Completion [5.864200786548098]
深度完了は、深度センサからの疎度測定で深度マップを予測することを目的としている。
現在、畳み込みニューラルネットワーク(CNN)ベースのモデルは、深度補完タスクに適用される最も一般的な手法である。
CNNの欠点を克服するため、適応型自己アテンション設定シーケンス・ツー・シーケンスモデルである、より効果的で強力な手法が提案されている。
論文 参考訳(メタデータ) (2024-09-12T15:52:08Z) - AugUndo: Scaling Up Augmentations for Monocular Depth Completion and Estimation [51.143540967290114]
本研究では,教師なし深度計算と推定のために,従来不可能であった幾何拡張の幅広い範囲をアンロックする手法を提案する。
これは、出力深さの座標への幾何変換を反転、あるいはアンドウイング(undo''-ing)し、深度マップを元の参照フレームに戻すことで達成される。
論文 参考訳(メタデータ) (2023-10-15T05:15:45Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - Single Image Depth Prediction Made Better: A Multivariate Gaussian Take [163.14849753700682]
本稿では,画素ごとの深度を連続的にモデル化する手法を提案する。
提案手法の精度(MG)は,KITTI深度予測ベンチマークリーダーボードの上位に位置する。
論文 参考訳(メタデータ) (2023-03-31T16:01:03Z) - Unsupervised Spike Depth Estimation via Cross-modality Cross-domain Knowledge Transfer [53.413305467674434]
スパイク深度推定をサポートするためにオープンソースのRGBデータを導入し,そのアノテーションと空間情報を活用する。
教師なしスパイク深さ推定を実現するために,クロスモーダルクロスドメイン(BiCross)フレームワークを提案する。
提案手法は,RGB指向の教師なし深度推定法と比較して,最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2022-08-26T09:35:20Z) - Depthformer : Multiscale Vision Transformer For Monocular Depth
Estimation With Local Global Information Fusion [6.491470878214977]
本稿では,屋内のNYUV2データセットと屋外のKITTIデータセットの深度推定のためのトランスフォーマーベースモデルをベンチマークする。
単眼深度推定のための新しいアテンションベースアーキテクチャDepthformerを提案する。
提案手法は,屋根平均正方形誤差(RMSE)でそれぞれ3.3%,3.3%改善する。
論文 参考訳(メタデータ) (2022-07-10T20:49:11Z) - DepthFormer: Exploiting Long-Range Correlation and Local Information for
Accurate Monocular Depth Estimation [50.08080424613603]
高精度な単分子深度推定には長距離相関が不可欠である。
我々は,このグローバルコンテキストを効果的な注意機構でモデル化するためにTransformerを活用することを提案する。
提案したモデルであるDepthFormerは、最先端のモノクル深度推定手法をはるかに超えている。
論文 参考訳(メタデータ) (2022-03-27T05:03:56Z) - Towards Comprehensive Monocular Depth Estimation: Multiple Heads Are
Better Than One [32.01675089157679]
本稿では,複数の弱い深度予測器の強度を統合し,包括的かつ正確な深度予測器を構築することを提案する。
具体的には、異なるTransformerベースおよび畳み込みニューラルネットワーク(CNN)ベースのアーキテクチャを用いて、複数のベース(弱)深さ予測器を構築する。
その結果、トランスフォーマー支援深度アンサンブル(TEDepth)と呼ばれるモデルでは、従来の最先端手法よりも優れた結果が得られる。
論文 参考訳(メタデータ) (2021-11-16T09:09:05Z) - PLADE-Net: Towards Pixel-Level Accuracy for Self-Supervised Single-View
Depth Estimation with Neural Positional Encoding and Distilled Matting Loss [49.66736599668501]
PLADE-Netと呼ばれる自己監視型単視点画素レベルの高精度深度推定ネットワークを提案する。
提案手法は,KITTIデータセットの$delta1$測定値の95%を超え,前例のない精度を示す。
論文 参考訳(メタデータ) (2021-03-12T15:54:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。