論文の概要: Learning Temporally Consistent Video Depth from Video Diffusion Priors
- arxiv url: http://arxiv.org/abs/2406.01493v2
- Date: Tue, 4 Jun 2024 03:33:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-05 22:10:43.849197
- Title: Learning Temporally Consistent Video Depth from Video Diffusion Priors
- Title(参考訳): ビデオ拡散先行データから時間的に一貫性のあるビデオ深度を学習する
- Authors: Jiahao Shao, Yuanbo Yang, Hongyu Zhou, Youmin Zhang, Yujun Shen, Matteo Poggi, Yiyi Liao,
- Abstract要約: 本研究は,映像深度推定の課題に対処する。
我々は予測タスクを条件付き生成問題に再構成する。
これにより、既存のビデオ生成モデルに埋め込まれた事前の知識を活用することができる。
- 参考スコア(独自算出の注目度): 57.929828486615605
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work addresses the challenge of video depth estimation, which expects not only per-frame accuracy but, more importantly, cross-frame consistency. Instead of directly developing a depth estimator from scratch, we reformulate the prediction task into a conditional generation problem. This allows us to leverage the prior knowledge embedded in existing video generation models, thereby reducing learning difficulty and enhancing generalizability. Concretely, we study how to tame the public Stable Video Diffusion (SVD) to predict reliable depth from input videos using a mixture of image depth and video depth datasets. We empirically confirm that a procedural training strategy -- first optimizing the spatial layers of SVD and then optimizing the temporal layers while keeping the spatial layers frozen -- yields the best results in terms of both spatial accuracy and temporal consistency. We further examine the sliding window strategy for inference on arbitrarily long videos. Our observations indicate a trade-off between efficiency and performance, with a one-frame overlap already producing favorable results. Extensive experimental results demonstrate the superiority of our approach, termed ChronoDepth, over existing alternatives, particularly in terms of the temporal consistency of the estimated depth. Additionally, we highlight the benefits of more consistent video depth in two practical applications: depth-conditioned video generation and novel view synthesis. Our project page is available at https://jhaoshao.github.io/ChronoDepth/.
- Abstract(参考訳): この研究は、フレーム単位の精度だけでなく、フレーム間の一貫性を期待するビデオ深度推定の課題に対処する。
スクラッチから深度推定器を直接開発する代わりに、予測タスクを条件付き生成問題に再構成する。
これにより、既存のビデオ生成モデルに埋め込まれた事前知識を活用することができ、学習の難しさを低減し、一般化可能性を高めることができる。
具体的には,画像深度と映像深度を混合した画像深度データセットを用いて,パブリック安定ビデオ拡散(SVD)を用いて,入力ビデオから信頼性の高い深度を予測する方法について検討する。
我々は,まずSVDの空間層を最適化し,次に空間層を凍結させながら時間層を最適化する手続き的トレーニング戦略が,空間的精度と時間的一貫性の両面で最高の結果をもたらすことを実証的に確認した。
さらに、任意長ビデオの推測のためのスライディングウィンドウ戦略について検討する。
私たちの観察では、効率とパフォーマンスのトレードオフが示され、1フレームのオーバーラップがすでに望ましい結果を生み出しています。
大規模な実験結果から,提案手法はクロノデプス(ChronoDepth, ChronoDepth)と呼ばれ, 既存の代替手法, 特に推定深さの時間的一貫性よりも優れていることが示された。
さらに,深度条件付きビデオ生成と新しいビュー合成という,より一貫したビデオ深度の利点を強調した。
私たちのプロジェクトページはhttps://jhaoshao.github.io/ChronoDepth/で公開されています。
関連論文リスト
- Depth Any Video with Scalable Synthetic Data [98.42356740981839]
多様な合成環境からリアルタイムのビデオ深度データをキャプチャする,スケーラブルな合成データパイプラインを開発した。
我々は、生成的ビデオ拡散モデルの強力な先駆を生かして、実世界の動画を効果的に処理する。
我々のモデルは、空間的精度と時間的一貫性の観点から、過去のすべての生成深度モデルより優れている。
論文 参考訳(メタデータ) (2024-10-14T17:59:46Z) - NVDS+: Towards Efficient and Versatile Neural Stabilizer for Video Depth Estimation [58.21817572577012]
ビデオ深度推定は時間的に一貫した深度を推定することを目的としている。
プラグ・アンド・プレイ方式で様々な単一画像モデルから推定される不整合深さを安定化するNVDS+を導入する。
このデータセットには、200万フレーム以上の14,203本のビデオが含まれている。
論文 参考訳(メタデータ) (2023-07-17T17:57:01Z) - Globally Consistent Video Depth and Pose Estimation with Efficient
Test-Time Training [15.46056322267856]
我々は、動きから学習に基づくビデオ構造(SfM)のグローバルな一貫した方法であるGCVDを提案する。
GCVDはコンパクトなポーズグラフをCNNベースの最適化に統合し、効率的な選択機構からグローバルに一貫した結果を得る。
実験の結果,GCVDは深さと姿勢の両面において最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2022-08-04T15:12:03Z) - Deep Video Prior for Video Consistency and Propagation [58.250209011891904]
視覚的ビデオの時間的整合性に対する新規で一般的なアプローチを提案する。
提案手法は,大規模なデータセットではなく,オリジナルビデオとプロセッシングビデオのペアでのみ訓練される。
我々は、Deep Video Priorでビデオ上で畳み込みニューラルネットワークをトレーニングすることで、時間的一貫性を実現することができることを示す。
論文 参考訳(メタデータ) (2022-01-27T16:38:52Z) - ViPNAS: Efficient Video Pose Estimation via Neural Architecture Search [94.90294600817215]
高速なオンラインビデオポーズ推定のための空間的・時間的ネットワークに対する新しいニューラルネットワーク探索(NAS)手法(ViPNAS)を提案する。
空間レベルでは,ネットワーク深さ,幅,カーネルサイズ,グループ数,注目度などの5つの異なる次元の探索空間を慎重に設計する。
時間レベルでは、一連の時間的特徴融合から検索し、複数のビデオフレームの合計精度と速度を最適化する。
論文 参考訳(メタデータ) (2021-05-21T06:36:40Z) - Blind Video Temporal Consistency via Deep Video Prior [61.062900556483164]
視覚的ビデオの時間的整合性に対する新規で一般的なアプローチを提案する。
本手法は,一対のオリジナルビデオとプロセッシングビデオを直接トレーニングするのみである。
本稿では,Deep Video Priorを用いてビデオ上の畳み込みネットワークをトレーニングすることにより,時間的一貫性を実現することができることを示す。
論文 参考訳(メタデータ) (2020-10-22T16:19:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。