論文の概要: DepthCrafter: Generating Consistent Long Depth Sequences for Open-world Videos
- arxiv url: http://arxiv.org/abs/2409.02095v1
- Date: Tue, 3 Sep 2024 17:52:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 00:04:31.241684
- Title: DepthCrafter: Generating Consistent Long Depth Sequences for Open-world Videos
- Title(参考訳): DepthCrafter: オープンワールドビデオのための一貫性のある長い深さシーケンスを生成する
- Authors: Wenbo Hu, Xiangjun Gao, Xiaoyu Li, Sijie Zhao, Xiaodong Cun, Yong Zhang, Long Quan, Ying Shan,
- Abstract要約: DepthCrafterは、オープンワールドビデオの複雑な詳細とともに、時間的に一貫した長い深さのシーケンスを生成する。
トレーニング手法により,最大110フレームまでの異なる長さの深度シーケンスを一度に生成できる。
DepthCrafterは、深度に基づく視覚効果や条件付きビデオ生成など、さまざまなダウンストリームアプリケーションを容易にする。
- 参考スコア(独自算出の注目度): 51.90501863934735
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite significant advancements in monocular depth estimation for static images, estimating video depth in the open world remains challenging, since open-world videos are extremely diverse in content, motion, camera movement, and length. We present DepthCrafter, an innovative method for generating temporally consistent long depth sequences with intricate details for open-world videos, without requiring any supplementary information such as camera poses or optical flow. DepthCrafter achieves generalization ability to open-world videos by training a video-to-depth model from a pre-trained image-to-video diffusion model, through our meticulously designed three-stage training strategy with the compiled paired video-depth datasets. Our training approach enables the model to generate depth sequences with variable lengths at one time, up to 110 frames, and harvest both precise depth details and rich content diversity from realistic and synthetic datasets. We also propose an inference strategy that processes extremely long videos through segment-wise estimation and seamless stitching. Comprehensive evaluations on multiple datasets reveal that DepthCrafter achieves state-of-the-art performance in open-world video depth estimation under zero-shot settings. Furthermore, DepthCrafter facilitates various downstream applications, including depth-based visual effects and conditional video generation.
- Abstract(参考訳): 静止画像の単眼深度推定の大幅な進歩にもかかわらず、オープンワールドでの映像深度の推定は、コンテンツ、動き、カメラの動き、長さに非常に多様であるため、依然として困難である。
DepthCrafterは、カメラのポーズや光の流れなどの補足的な情報を必要としない、オープンワールドビデオの複雑な詳細で時間的に一貫した長い深度シーケンスを生成する革新的な方法である。
DepthCrafterは、事前訓練された画像-映像拡散モデルからビデオ-深度モデルをトレーニングし、コンパイルされたビデオ-深度データセットを用いた3段階トレーニング戦略を巧みに設計することで、ビデオのオープン化を実現する。
トレーニング手法により、モデルは、最大110フレームまでの可変長の深度シーケンスを生成し、リアルかつ合成されたデータセットから、正確な深度の詳細と豊富な内容の多様性を抽出することができる。
また,セグメントワイズ推定とシームレスな縫合により,非常に長いビデオを処理する推論戦略を提案する。
複数のデータセットに対する総合的な評価により、DepthCrafterはゼロショット設定下でのオープンワールドビデオ深度推定において最先端のパフォーマンスを達成することが明らかになった。
さらにDepthCrafterは、深度に基づく視覚効果や条件付きビデオ生成など、さまざまなダウンストリームアプリケーションを容易にする。
関連論文リスト
- MultiPly: Reconstruction of Multiple People from Monocular Video in the Wild [32.6521941706907]
モノクラーインザワイルドビデオから3Dで複数の人物を再構成する新しいフレームワークであるMultiPlyを提案する。
まず、シーン全体の階層化されたニューラル表現を定義し、個々の人間と背景モデルで合成する。
階層化可能なボリュームレンダリングを通じて,ビデオから階層化ニューラル表現を学習する。
論文 参考訳(メタデータ) (2024-06-03T17:59:57Z) - Learning Temporally Consistent Video Depth from Video Diffusion Priors [57.929828486615605]
本研究は,映像深度推定の課題に対処する。
我々は予測タスクを条件付き生成問題に再構成する。
これにより、既存のビデオ生成モデルに埋め込まれた事前の知識を活用することができる。
論文 参考訳(メタデータ) (2024-06-03T16:20:24Z) - Neural Video Depth Stabilizer [74.04508918791637]
ビデオ深度推定は時間的に一貫した深度を推定することを目的としている。
いくつかの方法は、幾何学的制約と再射影制約を用いて、テスト時間中に単一画像深度モデルを微調整することで、時間的整合性を達成する。
本稿では,不整合深度推定を安定化し,余分な労力を伴わずに異なる単一画像深度モデルに適用可能なプラグアンドプレイフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-17T17:57:01Z) - MonoDVPS: A Self-Supervised Monocular Depth Estimation Approach to
Depth-aware Video Panoptic Segmentation [3.2489082010225494]
単眼深度推定とビデオパノプティックセグメンテーションを行うマルチタスクネットワークを用いた新しいソリューションを提案する。
トレーニング信号の劣化を回避するため,物体を移動させるための新しいパノプティカルマスキング方式と,パノプティカル誘導による奥行き損失を導入した。
論文 参考訳(メタデータ) (2022-10-14T07:00:42Z) - Consistent Depth of Moving Objects in Video [52.72092264848864]
移動カメラで撮影した通常の映像から任意の移動物体を含む動的シーンの深さを推定する手法を提案する。
我々は、この目的を、深度予測CNNを入力ビデオ全体にわたって補助的なシーンフロー予測でタンデムで訓練する新しいテストタイムトレーニングフレームワークで定式化する。
我々は、さまざまな移動物体(ペット、人、車)とカメラの動きを含む様々な挑戦的なビデオに対して、正確かつ時間的に一貫性のある結果を示す。
論文 参考訳(メタデータ) (2021-08-02T20:53:18Z) - Consistent Video Depth Estimation [57.712779457632024]
モノクロ映像中の全画素に対して, 密度, 幾何的に整合した深度を再構成するアルゴリズムを提案する。
動画中の画素の幾何的制約を確立するために、従来の動きから再構成した構造を利用する。
我々のアルゴリズムは、手持ちの映像をある程度のダイナミックな動きで処理することができる。
論文 参考訳(メタデータ) (2020-04-30T17:59:26Z) - Video Depth Estimation by Fusing Flow-to-Depth Proposals [65.24533384679657]
本稿では,映像深度推定のためのフロー・ツー・ディープス・レイヤの異なる手法を提案する。
モデルは、フロー・トゥ・ディープス層、カメラ・ポーズ・リファインメント・モジュール、ディープ・フュージョン・ネットワークから構成される。
提案手法は,最先端の深度推定法より優れ,合理的なデータセット一般化能力を有する。
論文 参考訳(メタデータ) (2019-12-30T10:45:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。