論文の概要: Towards Comprehensive Monocular Depth Estimation: Multiple Heads Are
Better Than One
- arxiv url: http://arxiv.org/abs/2111.08313v2
- Date: Mon, 25 Sep 2023 14:29:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-27 05:22:42.050293
- Title: Towards Comprehensive Monocular Depth Estimation: Multiple Heads Are
Better Than One
- Title(参考訳): 包括的単眼深度推定に向けて: 複数の頭部は1つより優れている
- Authors: Shuwei Shao, Ran Li, Zhongcai Pei, Zhong Liu, Weihai Chen, Wentao Zhu,
Xingming Wu and Baochang Zhang
- Abstract要約: 本稿では,複数の弱い深度予測器の強度を統合し,包括的かつ正確な深度予測器を構築することを提案する。
具体的には、異なるTransformerベースおよび畳み込みニューラルネットワーク(CNN)ベースのアーキテクチャを用いて、複数のベース(弱)深さ予測器を構築する。
その結果、トランスフォーマー支援深度アンサンブル(TEDepth)と呼ばれるモデルでは、従来の最先端手法よりも優れた結果が得られる。
- 参考スコア(独自算出の注目度): 32.01675089157679
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Depth estimation attracts widespread attention in the computer vision
community. However, it is still quite difficult to recover an accurate depth
map using only one RGB image. We observe a phenomenon that existing methods
tend to fail in different cases, caused by differences in network architecture,
loss function and so on. In this work, we investigate into the phenomenon and
propose to integrate the strengths of multiple weak depth predictor to build a
comprehensive and accurate depth predictor, which is critical for many
real-world applications, e.g., 3D reconstruction. Specifically, we construct
multiple base (weak) depth predictors by utilizing different Transformer-based
and convolutional neural network (CNN)-based architectures. Transformer
establishes long-range correlation while CNN preserves local information
ignored by Transformer due to the spatial inductive bias. Therefore, the
coupling of Transformer and CNN contributes to the generation of complementary
depth estimates, which are essential to achieve a comprehensive depth
predictor. Then, we design mixers to learn from multiple weak predictions and
adaptively fuse them into a strong depth estimate. The resultant model, which
we refer to as Transformer-assisted depth ensembles (TEDepth). On the standard
NYU-Depth-v2 and KITTI datasets, we thoroughly explore how the neural ensembles
affect the depth estimation and demonstrate that our TEDepth achieves better
results than previous state-of-the-art approaches. To validate the
generalizability across cameras, we directly apply the models trained on
NYU-Depth-v2 to the SUN RGB-D dataset without any fine-tuning, and the superior
results emphasize its strong generalizability.
- Abstract(参考訳): 深さ推定はコンピュータビジョンコミュニティで広く注目を集めている。
しかし,単一のrgb画像のみを用いて正確な深度マップを復元することは困難である。
ネットワークアーキテクチャの違いや損失関数などによって,既存手法が異なるケースでフェールする傾向にある現象を観察する。
本研究では,この現象を解明し,複数の弱い深さ予測器の強みを統合し,包括的かつ正確な深さ予測器を構築することを提案する。
具体的には、異なるTransformerベースおよび畳み込みニューラルネットワーク(CNN)ベースのアーキテクチャを用いて、複数のベース(弱)深さ予測器を構築する。
トランスフォーマーは長距離相関を確立し、CNNは空間誘導バイアスによりトランスフォーマーによって無視される局所情報を保存する。
そのため,TransformerとCNNの結合は,包括的深度予測器の実現に不可欠である相補的深度推定の生成に寄与する。
そして,複数の弱予測から学習するためにミキサーを設計し,それらを適応的に深い深さ推定に融合する。
その結果,トランスフォーマー支援深度アンサンブル (TEDepth) と呼ばれるモデルが得られた。
標準のNYU-Depth-v2とKITTIデータセットでは、ニューラルアンサンブルが深度推定にどのように影響するかを徹底的に検討し、TEDepthが従来の最先端アプローチよりも優れた結果をもたらすことを示す。
カメラ間の一般化性を検証するために、nyu-depth-v2でトレーニングされたモデルをsun rgb-dデータセットに微調整することなく直接適用する。
関連論文リスト
- Improving Depth Gradient Continuity in Transformers: A Comparative Study on Monocular Depth Estimation with CNN [9.185929396989083]
我々は、トランスフォーマーとCNNの区別を対照的に分析するために、スパースピクセルアプローチを採用している。
以上の結果から,トランスフォーマーはグローバルな文脈や複雑なテクスチャを扱うのに優れるが,CNNより遅れて奥行き勾配の連続性を保っていることが示唆された。
本稿では,高次微分,特徴融合,再校正による深度推定を改良したDGRモジュールを提案する。
論文 参考訳(メタデータ) (2023-08-16T12:46:52Z) - CompletionFormer: Depth Completion with Convolutions and Vision
Transformers [0.0]
本稿では、ピラミッド構造における深度補完モデルを構築するための基本単位として、畳み込み注意層と視覚変換器を1つのブロックに深く結合したJCAT(Joint Convolutional Attention and Transformer Block)を提案する。
我々のCompletionFormerは、屋外のKITTIDepth Completionベンチマークと屋内のNYUv2データセットで最先端のCNNベースの手法より優れており、純粋なTransformerベースの手法に比べてはるかに高い効率(約1/3FLOPs)を実現しています。
論文 参考訳(メタデータ) (2023-04-25T17:59:47Z) - URCDC-Depth: Uncertainty Rectified Cross-Distillation with CutFlip for
Monocular Depth Estimation [24.03121823263355]
本稿では,トランスフォーマーと畳み込みニューラルネットワーク(CNN)間の不確かさを補正し,統合された深度推定器を学習する。
具体的には、TransformerブランチとCNNブランチの深さ推定を擬似ラベルとして使い、互いに教え合う。
そこで本研究では,深度推定のための垂直画像位置とは別に,より有用な手がかりを活用できる,驚くほどシンプルで効果的なデータ拡張手法であるCutFlipを提案する。
論文 参考訳(メタデータ) (2023-02-16T08:53:08Z) - SwinDepth: Unsupervised Depth Estimation using Monocular Sequences via
Swin Transformer and Densely Cascaded Network [29.798579906253696]
教師付きトレーニングのための深層地下深度ラベルの取得は困難であり,単分子配列を用いた教師なし深度推定が有望な代替手段として出現する。
本稿では,画像特徴抽出器としてコンボリューションフリーのSwin Transformerを用い,局所的幾何学的特徴と大域的意味的特徴の両方を網羅して深度推定を行う。
また,Densely Cascaded Multi-scale Network (DCMNet)を提案する。
論文 参考訳(メタデータ) (2023-01-17T06:01:46Z) - DepthFormer: Exploiting Long-Range Correlation and Local Information for
Accurate Monocular Depth Estimation [50.08080424613603]
高精度な単分子深度推定には長距離相関が不可欠である。
我々は,このグローバルコンテキストを効果的な注意機構でモデル化するためにTransformerを活用することを提案する。
提案したモデルであるDepthFormerは、最先端のモノクル深度推定手法をはるかに超えている。
論文 参考訳(メタデータ) (2022-03-27T05:03:56Z) - 3DVNet: Multi-View Depth Prediction and Volumetric Refinement [68.68537312256144]
3DVNetは、新しいマルチビューステレオ(MVS)深度予測法である。
私たちのキーとなるアイデアは、粗い深度予測を反復的に更新する3Dシーンモデリングネットワークを使用することです。
本手法は, 深度予測と3次元再構成の両指標において, 最先端の精度を超えることを示す。
論文 参考訳(メタデータ) (2021-12-01T00:52:42Z) - VolumeFusion: Deep Depth Fusion for 3D Scene Reconstruction [71.83308989022635]
本稿では、ディープニューラルネットワークを用いた従来の2段階フレームワークの複製により、解釈可能性と結果の精度が向上することを提唱する。
ネットワークは,1)深部MVS技術を用いた局所深度マップの局所計算,2)深部マップと画像の特徴を融合させて単一のTSDFボリュームを構築する。
異なる視点から取得した画像間のマッチング性能を改善するために,PosedConvと呼ばれる回転不変な3D畳み込みカーネルを導入する。
論文 参考訳(メタデータ) (2021-08-19T11:33:58Z) - Dilated Fully Convolutional Neural Network for Depth Estimation from a
Single Image [1.0131895986034314]
従来のCNNの欠点に対処するために,高度な拡張完全畳み込みニューラルネットワークを提案する。
拡張畳み込みにおける受容野の指数拡大の利点を利用して、我々のモデルは分解能の損失を最小限に抑えることができる。
本研究では,nyu深部v2データセットを用いて,従来のcnns手法よりも奥行き予測が基礎的真理にかなり近いことを示す。
論文 参考訳(メタデータ) (2021-03-12T23:19:32Z) - PLADE-Net: Towards Pixel-Level Accuracy for Self-Supervised Single-View
Depth Estimation with Neural Positional Encoding and Distilled Matting Loss [49.66736599668501]
PLADE-Netと呼ばれる自己監視型単視点画素レベルの高精度深度推定ネットワークを提案する。
提案手法は,KITTIデータセットの$delta1$測定値の95%を超え,前例のない精度を示す。
論文 参考訳(メタデータ) (2021-03-12T15:54:46Z) - Virtual Normal: Enforcing Geometric Constraints for Accurate and Robust
Depth Prediction [87.08227378010874]
深度予測における高次3次元幾何学的制約の重要性を示す。
単純な幾何学的制約を強制する損失項を設計することにより、単眼深度推定の精度とロバスト性を大幅に改善する。
The-of-the-art results of learning metric depth on NYU Depth-V2 and KITTI。
論文 参考訳(メタデータ) (2021-03-07T00:08:21Z) - Multi-view Depth Estimation using Epipolar Spatio-Temporal Networks [87.50632573601283]
一つのビデオから多視点深度を推定する新しい手法を提案する。
提案手法は,新しいEpipolar Spatio-Temporal Transformer(EST)を用いて時間的コヒーレントな深度推定を行う。
最近のMixture-of-Expertsモデルにインスパイアされた計算コストを削減するため、我々はコンパクトなハイブリッドネットワークを設計する。
論文 参考訳(メタデータ) (2020-11-26T04:04:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。