論文の概要: DepthCrafter: Generating Consistent Long Depth Sequences for Open-world Videos
- arxiv url: http://arxiv.org/abs/2409.02095v2
- Date: Wed, 27 Nov 2024 07:59:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:17:06.964176
- Title: DepthCrafter: Generating Consistent Long Depth Sequences for Open-world Videos
- Title(参考訳): DepthCrafter: オープンワールドビデオのための一貫性のある長い深さシーケンスを生成する
- Authors: Wenbo Hu, Xiangjun Gao, Xiaoyu Li, Sijie Zhao, Xiaodong Cun, Yong Zhang, Long Quan, Ying Shan,
- Abstract要約: 本稿では,オープンワールドビデオの複雑な詳細を伴う時間的に一貫した長深さシーケンスを生成するDepthCrafterを提案する。
オープンワールドビデオの一般化能力は、事前訓練された画像間拡散モデルからビデオ間拡散モデルを訓練することによって達成される。
トレーニング手法により、モデルは、最大110フレームまでの可変長の深度シーケンスを生成し、リアルかつ合成されたデータセットから、正確な深度の詳細と豊富な内容の多様性を抽出することができる。
- 参考スコア(独自算出の注目度): 51.90501863934735
- License:
- Abstract: Estimating video depth in open-world scenarios is challenging due to the diversity of videos in appearance, content motion, camera movement, and length. We present DepthCrafter, an innovative method for generating temporally consistent long depth sequences with intricate details for open-world videos, without requiring any supplementary information such as camera poses or optical flow. The generalization ability to open-world videos is achieved by training the video-to-depth model from a pre-trained image-to-video diffusion model, through our meticulously designed three-stage training strategy. Our training approach enables the model to generate depth sequences with variable lengths at one time, up to 110 frames, and harvest both precise depth details and rich content diversity from realistic and synthetic datasets. We also propose an inference strategy that can process extremely long videos through segment-wise estimation and seamless stitching. Comprehensive evaluations on multiple datasets reveal that DepthCrafter achieves state-of-the-art performance in open-world video depth estimation under zero-shot settings. Furthermore, DepthCrafter facilitates various downstream applications, including depth-based visual effects and conditional video generation.
- Abstract(参考訳): オープンワールドシナリオにおけるビデオ深度の推定は、外見、コンテンツの動き、カメラの動き、長さの多様性のために難しい。
DepthCrafterは、カメラのポーズや光の流れなどの補足的な情報を必要としない、オープンワールドビデオの複雑な詳細で時間的に一貫した長い深度シーケンスを生成する革新的な方法である。
オープンワールドビデオの一般化能力は,事前学習した画像間拡散モデルから,精密に設計した3段階のトレーニング戦略を通じて,映像間拡散モデルをトレーニングすることによって達成される。
トレーニング手法により、モデルは、最大110フレームまでの可変長の深度シーケンスを生成し、リアルかつ合成されたデータセットから、正確な深度の詳細と豊富な内容の多様性を抽出することができる。
また,セグメントワイズ推定とシームレスな縫合により,非常に長い動画を処理できる推論戦略を提案する。
複数のデータセットに対する総合的な評価により、DepthCrafterはゼロショット設定下でのオープンワールドビデオ深度推定において最先端のパフォーマンスを達成することが明らかになった。
さらにDepthCrafterは、深度に基づく視覚効果や条件付きビデオ生成など、さまざまなダウンストリームアプリケーションを容易にする。
関連論文リスト
- Depth Any Video with Scalable Synthetic Data [98.42356740981839]
多様な合成環境からリアルタイムのビデオ深度データをキャプチャする,スケーラブルな合成データパイプラインを開発した。
我々は、生成的ビデオ拡散モデルの強力な先駆を生かして、実世界の動画を効果的に処理する。
我々のモデルは、空間的精度と時間的一貫性の観点から、過去のすべての生成深度モデルより優れている。
論文 参考訳(メタデータ) (2024-10-14T17:59:46Z) - Learning Temporally Consistent Video Depth from Video Diffusion Priors [57.929828486615605]
本研究は,映像深度推定の課題に対処する。
我々は予測タスクを条件付き生成問題に再構成する。
これにより、既存のビデオ生成モデルに埋め込まれた事前の知識を活用することができる。
論文 参考訳(メタデータ) (2024-06-03T16:20:24Z) - NVDS+: Towards Efficient and Versatile Neural Stabilizer for Video Depth Estimation [58.21817572577012]
ビデオ深度推定は時間的に一貫した深度を推定することを目的としている。
プラグ・アンド・プレイ方式で様々な単一画像モデルから推定される不整合深さを安定化するNVDS+を導入する。
このデータセットには、200万フレーム以上の14,203本のビデオが含まれている。
論文 参考訳(メタデータ) (2023-07-17T17:57:01Z) - MonoDVPS: A Self-Supervised Monocular Depth Estimation Approach to
Depth-aware Video Panoptic Segmentation [3.2489082010225494]
単眼深度推定とビデオパノプティックセグメンテーションを行うマルチタスクネットワークを用いた新しいソリューションを提案する。
トレーニング信号の劣化を回避するため,物体を移動させるための新しいパノプティカルマスキング方式と,パノプティカル誘導による奥行き損失を導入した。
論文 参考訳(メタデータ) (2022-10-14T07:00:42Z) - Consistent Depth of Moving Objects in Video [52.72092264848864]
移動カメラで撮影した通常の映像から任意の移動物体を含む動的シーンの深さを推定する手法を提案する。
我々は、この目的を、深度予測CNNを入力ビデオ全体にわたって補助的なシーンフロー予測でタンデムで訓練する新しいテストタイムトレーニングフレームワークで定式化する。
我々は、さまざまな移動物体(ペット、人、車)とカメラの動きを含む様々な挑戦的なビデオに対して、正確かつ時間的に一貫性のある結果を示す。
論文 参考訳(メタデータ) (2021-08-02T20:53:18Z) - Video Depth Estimation by Fusing Flow-to-Depth Proposals [65.24533384679657]
本稿では,映像深度推定のためのフロー・ツー・ディープス・レイヤの異なる手法を提案する。
モデルは、フロー・トゥ・ディープス層、カメラ・ポーズ・リファインメント・モジュール、ディープ・フュージョン・ネットワークから構成される。
提案手法は,最先端の深度推定法より優れ,合理的なデータセット一般化能力を有する。
論文 参考訳(メタデータ) (2019-12-30T10:45:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。