Fugu-MT 論文翻訳(概要): Consistent Video Depth Estimation

論文の概要: Consistent Video Depth Estimation

arxiv url: http://arxiv.org/abs/2004.15021v2
Date: Wed, 26 Aug 2020 20:11:33 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-08 05:08:37.208283
Title: Consistent Video Depth Estimation
Title（参考訳）: 一貫性ビデオ深度推定
Authors: Xuan Luo, Jia-Bin Huang, Richard Szeliski, Kevin Matzen, Johannes Kopf
Abstract要約: モノクロ映像中の全画素に対して, 密度, 幾何的に整合した深度を再構成するアルゴリズムを提案する。動画中の画素の幾何的制約を確立するために、従来の動きから再構成した構造を利用する。我々のアルゴリズムは、手持ちの映像をある程度のダイナミックな動きで処理することができる。
参考スコア（独自算出の注目度）: 57.712779457632024
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present an algorithm for reconstructing dense, geometrically consistent depth for all pixels in a monocular video. We leverage a conventional structure-from-motion reconstruction to establish geometric constraints on pixels in the video. Unlike the ad-hoc priors in classical reconstruction, we use a learning-based prior, i.e., a convolutional neural network trained for single-image depth estimation. At test time, we fine-tune this network to satisfy the geometric constraints of a particular input video, while retaining its ability to synthesize plausible depth details in parts of the video that are less constrained. We show through quantitative validation that our method achieves higher accuracy and a higher degree of geometric consistency than previous monocular reconstruction methods. Visually, our results appear more stable. Our algorithm is able to handle challenging hand-held captured input videos with a moderate degree of dynamic motion. The improved quality of the reconstruction enables several applications, such as scene reconstruction and advanced video-based visual effects.
Abstract（参考訳）: 本稿では,全画素の密度,幾何学的一貫性のある深さを単眼映像で再構成するアルゴリズムを提案する。映像中の画素に対する幾何学的制約を確立するために,従来の構造から運動への再構成を利用する。古典的再構築におけるアドホックな前処理とは異なり、学習に基づく前処理、すなわち、単一画像深度推定のために訓練された畳み込みニューラルネットワークを用いる。テスト時には、このネットワークを微調整して、特定の入力ビデオの幾何学的制約を満たしながら、より制約の少ないビデオの一部で、妥当な奥行き詳細を合成する能力を保持します。本手法は,従来の単眼再構成法よりも高い精度と高い幾何学的一貫性を実現することを定量的に検証した。視覚的には、結果はより安定しています。我々のアルゴリズムは、手持ちの映像をある程度のダイナミックな動きで処理することができる。再現性の向上により、シーン再構成や高度な映像ベース視覚効果など、いくつかの応用が可能になる。

関連論文リスト

DepthSync: Diffusion Guidance-Based Depth Synchronization for Scale- and Geometry-Consistent Video Depth Estimation [45.8790174686242]
本稿では,DepthSyncを提案する。DepthSyncは拡散誘導を用いて,長ビデオのスケールと幾何に一貫性のある深度予測を実現するフレームワークである。具体的には、ウィンドウ間の深さスケールを同期させるスケールガイダンスと、ウィンドウ内の幾何学的アライメントを強制するための幾何学的ガイダンスを導入する。様々なデータセットを用いた実験により、特に長ビデオにおいて、スケールと幾何の整合性を改善した深度推定法の有効性が検証された。
論文参考訳（メタデータ） (2025-07-02T11:11:51Z)
Video Depth Anything: Consistent Depth Estimation for Super-Long Videos [60.857723250653976]
超長ビデオにおける高品質で一貫した深度推定のためのビデオ深度推定法を提案する。我々のモデルは、Depth Anything V2と同様、ビデオ深度とラベルなし画像の合同データセットに基づいて訓練されている。提案手法は,ゼロショット映像深度推定における新しい最先端技術である。
論文参考訳（メタデータ） (2025-01-21T18:53:30Z)
Align3R: Aligned Monocular Depth Estimation for Dynamic Videos [50.28715151619659]
動的ビデオの時間的一貫した深度マップを推定するために,Align3Rと呼ばれる新しいビデオ深度推定法を提案する。我々のキーとなる考え方は、最近のDUSt3Rモデルを用いて、異なる時間ステップの単分子深度マップを整列させることである。実験により、Align3Rは一貫したビデオ深度を推定し、カメラはベースライン法よりも優れた性能を持つ単眼ビデオのポーズを示す。
論文参考訳（メタデータ） (2024-12-04T07:09:59Z)
DoubleTake: Geometry Guided Depth Estimation [17.464549832122714]
RGB画像の列から深度を推定することは、基本的なコンピュータビジョンタスクである。本稿では,現在のカメラ位置から深度マップとして描画された,ボリューム特徴と先行幾何学のヒントを組み合わせた再構成手法を提案する。本手法は, オフライン・インクリメンタルな評価シナリオにおいて, 対話的な速度, 最先端の深度推定, および3次元シーンで動作可能であることを示す。
論文参考訳（メタデータ） (2024-06-26T14:29:05Z)
Learning Temporally Consistent Video Depth from Video Diffusion Priors [57.929828486615605]
本研究は,映像深度推定の課題に対処する。我々は予測タスクを条件付き生成問題に再構成する。これにより、既存のビデオ生成モデルに埋め込まれた事前の知識を活用することができる。
論文参考訳（メタデータ） (2024-06-03T16:20:24Z)
AugUndo: Scaling Up Augmentations for Monocular Depth Completion and Estimation [51.143540967290114]
本研究では,教師なし深度計算と推定のために,従来不可能であった幾何拡張の幅広い範囲をアンロックする手法を提案する。これは、出力深さの座標への幾何変換を反転、あるいはアンドウイング(undo''-ing)し、深度マップを元の参照フレームに戻すことで達成される。
論文参考訳（メタデータ） (2023-10-15T05:15:45Z)
Edge-aware Consistent Stereo Video Depth Estimation [3.611754783778107]
本稿では,高密度映像深度推定のための一貫した手法を提案する。既存のモノラルな方法とは異なり、ステレオビデオに関係しています。エッジ対応ステレオビデオモデルにより,深度マップを精度良く推定できることを示す。
論文参考訳（メタデータ） (2023-05-04T08:30:04Z)
Accurate Human Body Reconstruction for Volumetric Video [0.9134661726886928]
専門的なボリュームビデオ再構成の文脈において,深度マップ推定のための深度学習に基づく多視点ステレオネットワークを導入し,最適化する。本手法は, 復元された人体に対して, 高レベルの幾何学的詳細を生成できることを示す。
論文参考訳（メタデータ） (2022-02-26T11:37:08Z)
Towards 3D Scene Reconstruction from Locally Scale-Aligned Monocular Video Depth [90.33296913575818]
映像深度推定や映像からの3次元シーン再構成のようなビデオベースのシナリオでは、フレームごとの予測における未知のスケールとシフトが深度の不整合を引き起こす可能性がある。局所重み付き線形回帰法を提案する。提案手法は,複数のゼロショットベンチマークにおいて,既存の最先端手法の性能を50%向上させることができる。
論文参考訳（メタデータ） (2022-02-03T08:52:54Z)
DF-VO: What Should Be Learnt for Visual Odometry? [33.379888882093965]
マルチビュージオメトリと深層学習を深さと光フローで統合し、シンプルで堅牢な視覚オドメトリーシステムを設計します。包括的アブレーション研究により,提案手法の有効性が示され,本システムの性能に関する広範な評価結果が得られた。
論文参考訳（メタデータ） (2021-03-01T11:50:39Z)
Robust Consistent Video Depth Estimation [65.53308117778361]
本稿では,単眼映像からカメラのカメラポーズと密集した深度マップを推定するアルゴリズムを提案する。本手法は,(1)低周波大規模アライメントのためのフレキシブルな変形-スプラインと(2)細部奥行き詳細の高周波アライメントのための幾何認識深度フィルタリングとを組み合わせた手法である。従来の手法とは対照的に, カメラのポーズを入力として必要とせず, かなりの音量, 揺動, 動きのぼやき, 転がりシャッター変形を含む携帯のハンドヘルドキャプチャに頑健な再構成を実現する。
論文参考訳（メタデータ） (2020-12-10T18:59:48Z)
Learning non-rigid surface reconstruction from spatio-temporal image patches [0.0]
ビデオシーケンスから変形可能な物体の高密度時間深度マップを再構成する手法を提案する。映像の非時間的パッチで深度推定をローカルに行い、それらを組み合わせることで全形状のフル深度映像を復元する。本手法をKinectデータとKinectデータの両方で検証し,従来の非剛体構造のような他の手法に比べて再構成誤差が有意に低いことを実験的に観察した。
論文参考訳（メタデータ） (2020-06-18T20:25:15Z)
Depth Completion Using a View-constrained Deep Prior [73.21559000917554]
近年の研究では、畳み込みニューラルネットワーク(CNN)の構造が、自然画像に有利な強い先行性をもたらすことが示されている。この前者はディープ・イメージ・先行 (DIP) と呼ばれ、画像の装飾や塗装といった逆問題において有効な正則化器である。我々は、DIPの概念を深度画像に拡張し、色画像とノイズと不完全な目標深度マップから、CNNネットワーク構造を先行して復元された深度マップを再構成する。
論文参考訳（メタデータ） (2020-01-21T21:56:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。