論文の概要: NENet: Monocular Depth Estimation via Neural Ensembles
- arxiv url: http://arxiv.org/abs/2111.08313v1
- Date: Tue, 16 Nov 2021 09:09:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-17 15:05:08.176589
- Title: NENet: Monocular Depth Estimation via Neural Ensembles
- Title(参考訳): NENet:ニューラルアンサンブルによる単眼深度推定
- Authors: Shuwei Shao, Ran Li, Zhongcai Pei, Zhong Liu, Weihai Chen, Wentao Zhu,
Xingming Wu and Baochang Zhang
- Abstract要約: 多様なベース予測器からの複数の予測を統合するための2レベルアンサンブル方式NENetを提案する。
提案されたNENetは、NYU-Depth-v2データセットとKITTIデータセットの最先端アプローチよりも優れた結果が得られる。
- 参考スコア(独自算出の注目度): 40.05818557961441
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Depth estimation is getting a widespread popularity in the computer vision
community, and it is still quite difficult to recover an accurate depth map
using only one single RGB image. In this work, we observe a phenomenon that
existing methods tend to exhibit asymmetric errors, which might open up a new
direction for accurate and robust depth estimation. We carefully investigate
into the phenomenon, and construct a two-level ensemble scheme, NENet, to
integrate multiple predictions from diverse base predictors. The NENet forms a
more reliable depth estimator, which substantially boosts the performance over
base predictors. Notably, this is the first attempt to introduce ensemble
learning and evaluate its utility for monocular depth estimation to the best of
our knowledge. Extensive experiments demonstrate that the proposed NENet
achieves better results than previous state-of-the-art approaches on the
NYU-Depth-v2 and KITTI datasets. In particular, our method improves previous
state-of-the-art methods from 0.365 to 0.349 on the metric RMSE on the NYU
dataset. To validate the generalizability across cameras, we directly apply the
models trained on the NYU dataset to the SUN RGB-D dataset without any
fine-tuning, and achieve the superior results, which indicate its strong
generalizability. The source code and trained models will be publicly available
upon the acceptance.
- Abstract(参考訳): 深度推定はコンピュータビジョンコミュニティで広く普及しており、単一のRGB画像のみを用いて正確な深度マップを復元することは依然として困難である。
本研究では,既存の手法が非対称な誤差を呈する傾向にある現象を観察し,高精度でロバストな深度推定のための新しい方向を開く可能性がある。
我々は,この現象を慎重に検討し,多種多様なベース予測器からの複数の予測を統合するために,二段階アンサンブルスキームnenetを構築した。
NENetはより信頼性の高い深さ推定器を形成し、ベース予測器よりも性能を大幅に向上させる。
特に,アンサンブル学習を導入する試みとしてはこれが初めてであり,知識の長所に対して単眼深度推定の有用性を評価する。
広範な実験により、nyu-depth-v2とkittiデータセットの以前の最先端のアプローチよりも優れた結果が得られることが示されている。
特に,本手法は,NYUデータセット上のRMSE測定値の0.365から0.349に改善する。
カメラ間の一般化性を検証するため、NYUデータセットでトレーニングされたモデルを微調整なしでSUN RGB-Dデータセットに直接適用し、その強力な一般化性を示す優れた結果を得る。
ソースコードとトレーニングされたモデルは、受け入れ次第公開される。
関連論文リスト
- Improving Depth Gradient Continuity in Transformers: A Comparative Study on Monocular Depth Estimation with CNN [9.185929396989083]
我々は、トランスフォーマーとCNNの区別を対照的に分析するために、スパースピクセルアプローチを採用している。
以上の結果から,トランスフォーマーはグローバルな文脈や複雑なテクスチャを扱うのに優れるが,CNNより遅れて奥行き勾配の連続性を保っていることが示唆された。
本稿では,高次微分,特徴融合,再校正による深度推定を改良したDGRモジュールを提案する。
論文 参考訳(メタデータ) (2023-08-16T12:46:52Z) - CompletionFormer: Depth Completion with Convolutions and Vision
Transformers [0.0]
本稿では、ピラミッド構造における深度補完モデルを構築するための基本単位として、畳み込み注意層と視覚変換器を1つのブロックに深く結合したJCAT(Joint Convolutional Attention and Transformer Block)を提案する。
我々のCompletionFormerは、屋外のKITTIDepth Completionベンチマークと屋内のNYUv2データセットで最先端のCNNベースの手法より優れており、純粋なTransformerベースの手法に比べてはるかに高い効率(約1/3FLOPs)を実現しています。
論文 参考訳(メタデータ) (2023-04-25T17:59:47Z) - URCDC-Depth: Uncertainty Rectified Cross-Distillation with CutFlip for
Monocular Depth Estimation [24.03121823263355]
本稿では,トランスフォーマーと畳み込みニューラルネットワーク(CNN)間の不確かさを補正し,統合された深度推定器を学習する。
具体的には、TransformerブランチとCNNブランチの深さ推定を擬似ラベルとして使い、互いに教え合う。
そこで本研究では,深度推定のための垂直画像位置とは別に,より有用な手がかりを活用できる,驚くほどシンプルで効果的なデータ拡張手法であるCutFlipを提案する。
論文 参考訳(メタデータ) (2023-02-16T08:53:08Z) - SwinDepth: Unsupervised Depth Estimation using Monocular Sequences via
Swin Transformer and Densely Cascaded Network [29.798579906253696]
教師付きトレーニングのための深層地下深度ラベルの取得は困難であり,単分子配列を用いた教師なし深度推定が有望な代替手段として出現する。
本稿では,画像特徴抽出器としてコンボリューションフリーのSwin Transformerを用い,局所的幾何学的特徴と大域的意味的特徴の両方を網羅して深度推定を行う。
また,Densely Cascaded Multi-scale Network (DCMNet)を提案する。
論文 参考訳(メタデータ) (2023-01-17T06:01:46Z) - DepthFormer: Exploiting Long-Range Correlation and Local Information for
Accurate Monocular Depth Estimation [50.08080424613603]
高精度な単分子深度推定には長距離相関が不可欠である。
我々は,このグローバルコンテキストを効果的な注意機構でモデル化するためにTransformerを活用することを提案する。
提案したモデルであるDepthFormerは、最先端のモノクル深度推定手法をはるかに超えている。
論文 参考訳(メタデータ) (2022-03-27T05:03:56Z) - 3DVNet: Multi-View Depth Prediction and Volumetric Refinement [68.68537312256144]
3DVNetは、新しいマルチビューステレオ(MVS)深度予測法である。
私たちのキーとなるアイデアは、粗い深度予測を反復的に更新する3Dシーンモデリングネットワークを使用することです。
本手法は, 深度予測と3次元再構成の両指標において, 最先端の精度を超えることを示す。
論文 参考訳(メタデータ) (2021-12-01T00:52:42Z) - VolumeFusion: Deep Depth Fusion for 3D Scene Reconstruction [71.83308989022635]
本稿では、ディープニューラルネットワークを用いた従来の2段階フレームワークの複製により、解釈可能性と結果の精度が向上することを提唱する。
ネットワークは,1)深部MVS技術を用いた局所深度マップの局所計算,2)深部マップと画像の特徴を融合させて単一のTSDFボリュームを構築する。
異なる視点から取得した画像間のマッチング性能を改善するために,PosedConvと呼ばれる回転不変な3D畳み込みカーネルを導入する。
論文 参考訳(メタデータ) (2021-08-19T11:33:58Z) - Dilated Fully Convolutional Neural Network for Depth Estimation from a
Single Image [1.0131895986034314]
従来のCNNの欠点に対処するために,高度な拡張完全畳み込みニューラルネットワークを提案する。
拡張畳み込みにおける受容野の指数拡大の利点を利用して、我々のモデルは分解能の損失を最小限に抑えることができる。
本研究では,nyu深部v2データセットを用いて,従来のcnns手法よりも奥行き予測が基礎的真理にかなり近いことを示す。
論文 参考訳(メタデータ) (2021-03-12T23:19:32Z) - PLADE-Net: Towards Pixel-Level Accuracy for Self-Supervised Single-View
Depth Estimation with Neural Positional Encoding and Distilled Matting Loss [49.66736599668501]
PLADE-Netと呼ばれる自己監視型単視点画素レベルの高精度深度推定ネットワークを提案する。
提案手法は,KITTIデータセットの$delta1$測定値の95%を超え,前例のない精度を示す。
論文 参考訳(メタデータ) (2021-03-12T15:54:46Z) - Virtual Normal: Enforcing Geometric Constraints for Accurate and Robust
Depth Prediction [87.08227378010874]
深度予測における高次3次元幾何学的制約の重要性を示す。
単純な幾何学的制約を強制する損失項を設計することにより、単眼深度推定の精度とロバスト性を大幅に改善する。
The-of-the-art results of learning metric depth on NYU Depth-V2 and KITTI。
論文 参考訳(メタデータ) (2021-03-07T00:08:21Z) - Multi-view Depth Estimation using Epipolar Spatio-Temporal Networks [87.50632573601283]
一つのビデオから多視点深度を推定する新しい手法を提案する。
提案手法は,新しいEpipolar Spatio-Temporal Transformer(EST)を用いて時間的コヒーレントな深度推定を行う。
最近のMixture-of-Expertsモデルにインスパイアされた計算コストを削減するため、我々はコンパクトなハイブリッドネットワークを設計する。
論文 参考訳(メタデータ) (2020-11-26T04:04:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。