論文の概要: Multi-view Depth Estimation using Epipolar Spatio-Temporal Networks
- arxiv url: http://arxiv.org/abs/2011.13118v3
- Date: Mon, 12 Jul 2021 16:02:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 08:55:59.022870
- Title: Multi-view Depth Estimation using Epipolar Spatio-Temporal Networks
- Title(参考訳): エピポーラ時空間ネットワークを用いた多視点深度推定
- Authors: Xiaoxiao Long, Lingjie Liu, Wei Li, Christian Theobalt, Wenping Wang
- Abstract要約: 一つのビデオから多視点深度を推定する新しい手法を提案する。
提案手法は,新しいEpipolar Spatio-Temporal Transformer(EST)を用いて時間的コヒーレントな深度推定を行う。
最近のMixture-of-Expertsモデルにインスパイアされた計算コストを削減するため、我々はコンパクトなハイブリッドネットワークを設計する。
- 参考スコア(独自算出の注目度): 87.50632573601283
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a novel method for multi-view depth estimation from a single
video, which is a critical task in various applications, such as perception,
reconstruction and robot navigation. Although previous learning-based methods
have demonstrated compelling results, most works estimate depth maps of
individual video frames independently, without taking into consideration the
strong geometric and temporal coherence among the frames. Moreover, current
state-of-the-art (SOTA) models mostly adopt a fully 3D convolution network for
cost regularization and therefore require high computational cost, thus
limiting their deployment in real-world applications. Our method achieves
temporally coherent depth estimation results by using a novel Epipolar
Spatio-Temporal (EST) transformer to explicitly associate geometric and
temporal correlation with multiple estimated depth maps. Furthermore, to reduce
the computational cost, inspired by recent Mixture-of-Experts models, we design
a compact hybrid network consisting of a 2D context-aware network and a 3D
matching network which learn 2D context information and 3D disparity cues
separately. Extensive experiments demonstrate that our method achieves higher
accuracy in depth estimation and significant speedup than the SOTA methods.
- Abstract(参考訳): 本稿では,認識,再構成,ロボットナビゲーションなど,様々なアプリケーションにおいて重要な課題である,単一ビデオからの多視点深度推定手法を提案する。
従来の学習に基づく手法は説得力のある結果を示しているが、ほとんどの研究は、フレーム間の強い幾何学的・時間的コヒーレンスを考慮せずに、個々のビデオフレームの深度マップを独立に推定する。
さらに、現在の最先端(SOTA)モデルでは、コスト正規化のために完全に3次元の畳み込みネットワークを採用しているため、計算コストが高いため、実際のアプリケーションへの展開を制限している。
提案手法は,幾何的および時間的相関を複数の推定深度マップと明示的に関連付けるために,新しいエピポーラ時空間変換器を用いて時間的コヒーレントな深度推定を行う。
さらに,近年の混合学習モデルに触発された計算コストを低減すべく,2次元コンテキスト認識ネットワークと3次元マッチングネットワークからなるコンパクトなハイブリッドネットワークを設計し,2次元コンテキスト情報と3次元不一致の手がかりを別々に学習する。
広範な実験により,soma法よりも奥行き推定精度が高く,大幅な高速化が得られた。
関連論文リスト
- SwinDepth: Unsupervised Depth Estimation using Monocular Sequences via
Swin Transformer and Densely Cascaded Network [29.798579906253696]
教師付きトレーニングのための深層地下深度ラベルの取得は困難であり,単分子配列を用いた教師なし深度推定が有望な代替手段として出現する。
本稿では,画像特徴抽出器としてコンボリューションフリーのSwin Transformerを用い,局所的幾何学的特徴と大域的意味的特徴の両方を網羅して深度推定を行う。
また,Densely Cascaded Multi-scale Network (DCMNet)を提案する。
論文 参考訳(メタデータ) (2023-01-17T06:01:46Z) - GraphCSPN: Geometry-Aware Depth Completion via Dynamic GCNs [49.55919802779889]
本稿では,グラフ畳み込みに基づく空間伝搬ネットワーク(GraphCSPN)を提案する。
本研究では、幾何学的表現学習において、畳み込みニューラルネットワークとグラフニューラルネットワークを相補的に活用する。
提案手法は,数段の伝搬ステップのみを使用する場合と比較して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-10-19T17:56:03Z) - 3DVNet: Multi-View Depth Prediction and Volumetric Refinement [68.68537312256144]
3DVNetは、新しいマルチビューステレオ(MVS)深度予測法である。
私たちのキーとなるアイデアは、粗い深度予測を反復的に更新する3Dシーンモデリングネットワークを使用することです。
本手法は, 深度予測と3次元再構成の両指標において, 最先端の精度を超えることを示す。
論文 参考訳(メタデータ) (2021-12-01T00:52:42Z) - Non-local Recurrent Regularization Networks for Multi-view Stereo [108.17325696835542]
深層多視点ステレオネットワークでは、正確な深さ推定を実現するためにコスト正規化が不可欠である。
NR2-Netと呼ばれるマルチビューステレオのための新しい非局所リカレント正規化ネットワークを提案する。
提案手法は,DTU,タンク,テンプルの双方のデータセットに対して,最先端の再構築結果を実現する。
論文 参考訳(メタデータ) (2021-10-13T01:43:54Z) - VolumeFusion: Deep Depth Fusion for 3D Scene Reconstruction [71.83308989022635]
本稿では、ディープニューラルネットワークを用いた従来の2段階フレームワークの複製により、解釈可能性と結果の精度が向上することを提唱する。
ネットワークは,1)深部MVS技術を用いた局所深度マップの局所計算,2)深部マップと画像の特徴を融合させて単一のTSDFボリュームを構築する。
異なる視点から取得した画像間のマッチング性能を改善するために,PosedConvと呼ばれる回転不変な3D畳み込みカーネルを導入する。
論文 参考訳(メタデータ) (2021-08-19T11:33:58Z) - Self-supervised Depth Estimation Leveraging Global Perception and
Geometric Smoothness Using On-board Videos [0.5276232626689566]
我々は,グローバルな特徴と局所的な特徴を同時に抽出する画素ワイド深度推定のためのDLNetを提案する。
幾何学的に自然な深度マップを予測するために3次元形状の滑らかさ損失を提案する。
KITTIとMake3Dベンチマークの実験では、提案したDLNetは最先端の手法と競合する性能を実現している。
論文 参考訳(メタデータ) (2021-06-07T10:53:27Z) - Searching Multi-Rate and Multi-Modal Temporal Enhanced Networks for
Gesture Recognition [89.0152015268929]
RGB-Dジェスチャ認識のための最初のニューラルアーキテクチャサーチ(NAS)手法を提案する。
提案手法は,1)3次元中央差分畳畳み込み(3D-CDC)ファミリーによる時間的表現の強化,および多モードレート分岐と横方向接続のための最適化されたバックボーンを含む。
結果として得られたマルチレートネットワークは、RGBと深さ変調と時間力学の関係を理解するための新しい視点を提供する。
論文 参考訳(メタデータ) (2020-08-21T10:45:09Z) - DELTAS: Depth Estimation by Learning Triangulation And densification of
Sparse points [14.254472131009653]
多視点ステレオ (MVS) は, 能動深度センシングの精度と単眼深度推定の実用性の間の黄金平均値である。
3次元畳み込みニューラルネットワーク(CNN)を用いたコストボリュームベースのアプローチにより、MVSシステムの精度が大幅に向上した。
まず、(a)興味点の記述子を検出して評価し、次に(b)興味点の小さな集合をマッチングして三角測量し、最後に(c)CNNを用いてこのスパースな3D点の集合を密度化することで、効率的な深さ推定手法を提案する。
論文 参考訳(メタデータ) (2020-03-19T17:56:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。