論文の概要: DeepVideoMVS: Multi-View Stereo on Video with Recurrent Spatio-Temporal
Fusion
- arxiv url: http://arxiv.org/abs/2012.02177v1
- Date: Thu, 3 Dec 2020 18:54:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-23 18:48:36.835780
- Title: DeepVideoMVS: Multi-View Stereo on Video with Recurrent Spatio-Temporal
Fusion
- Title(参考訳): DeepVideoMVS: Recurrent Spatio-Temporal Fusionによるビデオのマルチビューステレオ
- Authors: Arda D\"uz\c{c}eker, Silvano Galliani, Christoph Vogel, Pablo
Speciale, Mihai Dusmanu, Marc Pollefeys
- Abstract要約: 提案手法は,提案するビデオストリームに対するオンライン多視点深度予測手法である。
前のタイムステップで計算されたシーン形状情報を現在のタイムステップに伝搬する。
評価指標のほとんどにおいて、既存の最先端のマルチビューステレオ手法よりも優れています。
- 参考スコア(独自算出の注目度): 67.64047158294062
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose an online multi-view depth prediction approach on posed video
streams, where the scene geometry information computed in the previous time
steps is propagated to the current time step in an efficient and geometrically
plausible way. The backbone of our approach is a real-time capable, lightweight
encoder-decoder that relies on cost volumes computed from pairs of images. We
extend it by placing a ConvLSTM cell at the bottleneck layer, which compresses
an arbitrary amount of past information in its states. The novelty lies in
propagating the hidden state of the cell by accounting for the viewpoint
changes between time steps. At a given time step, we warp the previous hidden
state into the current camera plane using the previous depth prediction. Our
extension brings only a small overhead of computation time and memory
consumption, while improving the depth predictions significantly. As a result,
we outperform the existing state-of-the-art multi-view stereo methods on most
of the evaluated metrics in hundreds of indoor scenes while maintaining a
real-time performance. Code available:
https://github.com/ardaduz/deep-video-mvs
- Abstract(参考訳): 本研究では,前回の時間ステップで計算されたシーン形状情報を,現在時間ステップに効率的かつ幾何学的に妥当な方法で伝搬する,ポーズ付きビデオストリームに対するオンラインマルチビュー深度予測手法を提案する。
私たちのアプローチのバックボーンは、画像ペアから計算したコストボリュームに依存する、リアルタイムで、軽量なエンコーダ・デコーダです。
我々は、ConvLSTMセルをボトルネック層に配置することで拡張し、任意の量の過去の情報をその状態に圧縮する。
新規性は、時間ステップ間の視点変化を考慮し、細胞の隠れた状態を伝播することにある。
所定の時間ステップで、前回の深度予測を使用して、現在のカメラプレーンに以前の隠れ状態を警告します。
我々の拡張は計算時間とメモリ消費のオーバーヘッドを少なく抑えつつ、深さ予測を大幅に改善する。
その結果,既存のマルチビューステレオ手法よりも,実時間性能を維持しつつ,数百の屋内シーンで評価された指標のほとんどを上回ります。
コード提供: https://github.com/ardaduz/deep-video-mvs
関連論文リスト
- DoubleTake: Geometry Guided Depth Estimation [17.464549832122714]
RGB画像の列から深度を推定することは、基本的なコンピュータビジョンタスクである。
本稿では,現在のカメラ位置から深度マップとして描画された,ボリューム特徴と先行幾何学のヒントを組み合わせた再構成手法を提案する。
本手法は, オフライン・インクリメンタルな評価シナリオにおいて, 対話的な速度, 最先端の深度推定, および3次元シーンで動作可能であることを示す。
論文 参考訳(メタデータ) (2024-06-26T14:29:05Z) - Learning Temporally Consistent Video Depth from Video Diffusion Priors [57.929828486615605]
本研究は,映像深度推定の課題に対処する。
我々は予測タスクを条件付き生成問題に再構成する。
これにより、既存のビデオ生成モデルに埋め込まれた事前の知識を活用することができる。
論文 参考訳(メタデータ) (2024-06-03T16:20:24Z) - Viewport Prediction for Volumetric Video Streaming by Exploring Video Saliency and Trajectory Information [45.31198546289057]
本稿では,Saliency and Trajectory Viewport Prediction (STVP) という新しいアプローチを提案し,提案する。
ボリュームビデオストリーミングにおけるビューポート予測の精度の向上を目的としている。
特に,計算複雑性を低減するために,新しいサンプリング手法であるUniform Random Smpling (URS)を導入する。
論文 参考訳(メタデータ) (2023-11-28T03:45:29Z) - MAMo: Leveraging Memory and Attention for Monocular Video Depth
Estimation [53.90194273249202]
モノクロ映像深度推定のための新しいメモリとアテンションフレームであるMAMOを提案する。
また,MAMoでは,映像を流すときの深度予測を支援するメモリによるモデル拡張を行う。
我々はMAMoが一貫した単分子深度推定ネットワークを改善し,SOTA(State-of-the-art)の精度を新たに設定することを示した。
論文 参考訳(メタデータ) (2023-07-26T17:55:32Z) - Deep Video Prior for Video Consistency and Propagation [58.250209011891904]
視覚的ビデオの時間的整合性に対する新規で一般的なアプローチを提案する。
提案手法は,大規模なデータセットではなく,オリジナルビデオとプロセッシングビデオのペアでのみ訓練される。
我々は、Deep Video Priorでビデオ上で畳み込みニューラルネットワークをトレーニングすることで、時間的一貫性を実現することができることを示す。
論文 参考訳(メタデータ) (2022-01-27T16:38:52Z) - CodeVIO: Visual-Inertial Odometry with Learned Optimizable Dense Depth [83.77839773394106]
本稿では,軽量で密結合の深い深度ネットワークと視覚慣性オドメトリーシステムを提案する。
我々は、初期深度予測の精度を高めるために、以前にVIOから切り離されたスパース特徴を持つネットワークを提供する。
本稿では,ネットワークとコードヤコビアンでのみGPUアクセラレーションを活用しながら,シングルスレッド実行でリアルタイムに動作可能であることを示す。
論文 参考訳(メタデータ) (2020-12-18T09:42:54Z) - Multiple Instance-Based Video Anomaly Detection using Deep Temporal
Encoding-Decoding [5.255783459833821]
本稿では,監視ビデオにおける異常検出のための時間的深部符号化復号化手法を提案する。
提案手法はトレーニング期間中に異常ビデオクリップと正常ビデオクリップの両方を使用する。
提案手法は,ビデオ監視アプリケーションにおける異常検出の最先端ソリューションと同等かそれ以上に動作することを示す。
論文 参考訳(メタデータ) (2020-07-03T08:22:42Z) - Don't Forget The Past: Recurrent Depth Estimation from Monocular Video [92.84498980104424]
私たちは3つの異なる種類の深さ推定を共通のフレームワークに組み込んだ。
提案手法は, 時系列の深度マップを生成する。
モノクロビデオにのみ適用したり、異なる種類のスパース深度パターンと組み合わせたりすることができる。
論文 参考訳(メタデータ) (2020-01-08T16:50:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。