論文の概要: Consistent Video Depth Estimation
- arxiv url: http://arxiv.org/abs/2004.15021v2
- Date: Wed, 26 Aug 2020 20:11:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 05:08:37.208283
- Title: Consistent Video Depth Estimation
- Title(参考訳): 一貫性ビデオ深度推定
- Authors: Xuan Luo, Jia-Bin Huang, Richard Szeliski, Kevin Matzen, Johannes Kopf
- Abstract要約: モノクロ映像中の全画素に対して, 密度, 幾何的に整合した深度を再構成するアルゴリズムを提案する。
動画中の画素の幾何的制約を確立するために、従来の動きから再構成した構造を利用する。
我々のアルゴリズムは、手持ちの映像をある程度のダイナミックな動きで処理することができる。
- 参考スコア(独自算出の注目度): 57.712779457632024
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present an algorithm for reconstructing dense, geometrically consistent
depth for all pixels in a monocular video. We leverage a conventional
structure-from-motion reconstruction to establish geometric constraints on
pixels in the video. Unlike the ad-hoc priors in classical reconstruction, we
use a learning-based prior, i.e., a convolutional neural network trained for
single-image depth estimation. At test time, we fine-tune this network to
satisfy the geometric constraints of a particular input video, while retaining
its ability to synthesize plausible depth details in parts of the video that
are less constrained. We show through quantitative validation that our method
achieves higher accuracy and a higher degree of geometric consistency than
previous monocular reconstruction methods. Visually, our results appear more
stable. Our algorithm is able to handle challenging hand-held captured input
videos with a moderate degree of dynamic motion. The improved quality of the
reconstruction enables several applications, such as scene reconstruction and
advanced video-based visual effects.
- Abstract(参考訳): 本稿では,全画素の密度,幾何学的一貫性のある深さを単眼映像で再構成するアルゴリズムを提案する。
映像中の画素に対する幾何学的制約を確立するために,従来の構造から運動への再構成を利用する。
古典的再構築におけるアドホックな前処理とは異なり、学習に基づく前処理、すなわち、単一画像深度推定のために訓練された畳み込みニューラルネットワークを用いる。
テスト時には、このネットワークを微調整して、特定の入力ビデオの幾何学的制約を満たしながら、より制約の少ないビデオの一部で、妥当な奥行き詳細を合成する能力を保持します。
本手法は,従来の単眼再構成法よりも高い精度と高い幾何学的一貫性を実現することを定量的に検証した。
視覚的には、結果はより安定しています。
我々のアルゴリズムは、手持ちの映像をある程度のダイナミックな動きで処理することができる。
再現性の向上により、シーン再構成や高度な映像ベース視覚効果など、いくつかの応用が可能になる。
関連論文リスト
- Video Depth Anything: Consistent Depth Estimation for Super-Long Videos [60.857723250653976]
超長ビデオにおける高品質で一貫した深度推定のためのビデオ深度推定法を提案する。
我々のモデルは、Depth Anything V2と同様、ビデオ深度とラベルなし画像の合同データセットに基づいて訓練されている。
提案手法は,ゼロショット映像深度推定における新しい最先端技術である。
論文 参考訳(メタデータ) (2025-01-21T18:53:30Z) - Align3R: Aligned Monocular Depth Estimation for Dynamic Videos [50.28715151619659]
動的ビデオの時間的一貫した深度マップを推定するために,Align3Rと呼ばれる新しいビデオ深度推定法を提案する。
我々のキーとなる考え方は、最近のDUSt3Rモデルを用いて、異なる時間ステップの単分子深度マップを整列させることである。
実験により、Align3Rは一貫したビデオ深度を推定し、カメラはベースライン法よりも優れた性能を持つ単眼ビデオのポーズを示す。
論文 参考訳(メタデータ) (2024-12-04T07:09:59Z) - DoubleTake: Geometry Guided Depth Estimation [17.464549832122714]
RGB画像の列から深度を推定することは、基本的なコンピュータビジョンタスクである。
本稿では,現在のカメラ位置から深度マップとして描画された,ボリューム特徴と先行幾何学のヒントを組み合わせた再構成手法を提案する。
本手法は, オフライン・インクリメンタルな評価シナリオにおいて, 対話的な速度, 最先端の深度推定, および3次元シーンで動作可能であることを示す。
論文 参考訳(メタデータ) (2024-06-26T14:29:05Z) - Edge-aware Consistent Stereo Video Depth Estimation [3.611754783778107]
本稿では,高密度映像深度推定のための一貫した手法を提案する。
既存のモノラルな方法とは異なり、ステレオビデオに関係しています。
エッジ対応ステレオビデオモデルにより,深度マップを精度良く推定できることを示す。
論文 参考訳(メタデータ) (2023-05-04T08:30:04Z) - Accurate Human Body Reconstruction for Volumetric Video [0.9134661726886928]
専門的なボリュームビデオ再構成の文脈において,深度マップ推定のための深度学習に基づく多視点ステレオネットワークを導入し,最適化する。
本手法は, 復元された人体に対して, 高レベルの幾何学的詳細を生成できることを示す。
論文 参考訳(メタデータ) (2022-02-26T11:37:08Z) - Towards 3D Scene Reconstruction from Locally Scale-Aligned Monocular
Video Depth [90.33296913575818]
映像深度推定や映像からの3次元シーン再構成のようなビデオベースのシナリオでは、フレームごとの予測における未知のスケールとシフトが深度の不整合を引き起こす可能性がある。
局所重み付き線形回帰法を提案する。
提案手法は,複数のゼロショットベンチマークにおいて,既存の最先端手法の性能を50%向上させることができる。
論文 参考訳(メタデータ) (2022-02-03T08:52:54Z) - DF-VO: What Should Be Learnt for Visual Odometry? [33.379888882093965]
マルチビュージオメトリと深層学習を深さと光フローで統合し、シンプルで堅牢な視覚オドメトリーシステムを設計します。
包括的アブレーション研究により,提案手法の有効性が示され,本システムの性能に関する広範な評価結果が得られた。
論文 参考訳(メタデータ) (2021-03-01T11:50:39Z) - Robust Consistent Video Depth Estimation [65.53308117778361]
本稿では,単眼映像からカメラのカメラポーズと密集した深度マップを推定するアルゴリズムを提案する。
本手法は,(1)低周波大規模アライメントのためのフレキシブルな変形-スプラインと(2)細部奥行き詳細の高周波アライメントのための幾何認識深度フィルタリングとを組み合わせた手法である。
従来の手法とは対照的に, カメラのポーズを入力として必要とせず, かなりの音量, 揺動, 動きのぼやき, 転がりシャッター変形を含む携帯のハンドヘルドキャプチャに頑健な再構成を実現する。
論文 参考訳(メタデータ) (2020-12-10T18:59:48Z) - Depth Completion Using a View-constrained Deep Prior [73.21559000917554]
近年の研究では、畳み込みニューラルネットワーク(CNN)の構造が、自然画像に有利な強い先行性をもたらすことが示されている。
この前者はディープ・イメージ・先行 (DIP) と呼ばれ、画像の装飾や塗装といった逆問題において有効な正則化器である。
我々は、DIPの概念を深度画像に拡張し、色画像とノイズと不完全な目標深度マップから、CNNネットワーク構造を先行して復元された深度マップを再構成する。
論文 参考訳(メタデータ) (2020-01-21T21:56:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。