論文の概要: DepthCrafter: Generating Consistent Long Depth Sequences for Open-world Videos
- arxiv url: http://arxiv.org/abs/2409.02095v1
- Date: Tue, 3 Sep 2024 17:52:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 00:04:31.241684
- Title: DepthCrafter: Generating Consistent Long Depth Sequences for Open-world Videos
- Title(参考訳): DepthCrafter: オープンワールドビデオのための一貫性のある長い深さシーケンスを生成する
- Authors: Wenbo Hu, Xiangjun Gao, Xiaoyu Li, Sijie Zhao, Xiaodong Cun, Yong Zhang, Long Quan, Ying Shan,
- Abstract要約: DepthCrafterは、オープンワールドビデオの複雑な詳細とともに、時間的に一貫した長い深さのシーケンスを生成する。
トレーニング手法により,最大110フレームまでの異なる長さの深度シーケンスを一度に生成できる。
DepthCrafterは、深度に基づく視覚効果や条件付きビデオ生成など、さまざまなダウンストリームアプリケーションを容易にする。
- 参考スコア(独自算出の注目度): 51.90501863934735
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite significant advancements in monocular depth estimation for static images, estimating video depth in the open world remains challenging, since open-world videos are extremely diverse in content, motion, camera movement, and length. We present DepthCrafter, an innovative method for generating temporally consistent long depth sequences with intricate details for open-world videos, without requiring any supplementary information such as camera poses or optical flow. DepthCrafter achieves generalization ability to open-world videos by training a video-to-depth model from a pre-trained image-to-video diffusion model, through our meticulously designed three-stage training strategy with the compiled paired video-depth datasets. Our training approach enables the model to generate depth sequences with variable lengths at one time, up to 110 frames, and harvest both precise depth details and rich content diversity from realistic and synthetic datasets. We also propose an inference strategy that processes extremely long videos through segment-wise estimation and seamless stitching. Comprehensive evaluations on multiple datasets reveal that DepthCrafter achieves state-of-the-art performance in open-world video depth estimation under zero-shot settings. Furthermore, DepthCrafter facilitates various downstream applications, including depth-based visual effects and conditional video generation.
- Abstract(参考訳): 静止画像の単眼深度推定の大幅な進歩にもかかわらず、オープンワールドでの映像深度の推定は、コンテンツ、動き、カメラの動き、長さに非常に多様であるため、依然として困難である。
DepthCrafterは、カメラのポーズや光の流れなどの補足的な情報を必要としない、オープンワールドビデオの複雑な詳細で時間的に一貫した長い深度シーケンスを生成する革新的な方法である。
DepthCrafterは、事前訓練された画像-映像拡散モデルからビデオ-深度モデルをトレーニングし、コンパイルされたビデオ-深度データセットを用いた3段階トレーニング戦略を巧みに設計することで、ビデオのオープン化を実現する。
トレーニング手法により、モデルは、最大110フレームまでの可変長の深度シーケンスを生成し、リアルかつ合成されたデータセットから、正確な深度の詳細と豊富な内容の多様性を抽出することができる。
また,セグメントワイズ推定とシームレスな縫合により,非常に長いビデオを処理する推論戦略を提案する。
複数のデータセットに対する総合的な評価により、DepthCrafterはゼロショット設定下でのオープンワールドビデオ深度推定において最先端のパフォーマンスを達成することが明らかになった。
さらにDepthCrafterは、深度に基づく視覚効果や条件付きビデオ生成など、さまざまなダウンストリームアプリケーションを容易にする。
関連論文リスト
- Video Depth Anything: Consistent Depth Estimation for Super-Long Videos [60.857723250653976]
超長ビデオにおける高品質で一貫した深度推定のためのビデオ深度推定法を提案する。
我々のモデルは、Depth Anything V2と同様、ビデオ深度とラベルなし画像の合同データセットに基づいて訓練されている。
提案手法は,ゼロショット映像深度推定における新しい最先端技術である。
論文 参考訳(メタデータ) (2025-01-21T18:53:30Z) - Align3R: Aligned Monocular Depth Estimation for Dynamic Videos [50.28715151619659]
動的ビデオの時間的一貫した深度マップを推定するために,Align3Rと呼ばれる新しいビデオ深度推定法を提案する。
我々のキーとなる考え方は、最近のDUSt3Rモデルを用いて、異なる時間ステップの単分子深度マップを整列させることである。
実験により、Align3Rは一貫したビデオ深度を推定し、カメラはベースライン法よりも優れた性能を持つ単眼ビデオのポーズを示す。
論文 参考訳(メタデータ) (2024-12-04T07:09:59Z) - Video Depth without Video Models [34.11454612504574]
ビデオ深度推定は、各フレームに濃密な深度を推定することにより、単眼のビデオクリップを3Dに引き上げる。
単一画像潜在拡散モデル(LDM)を最先端のビデオ深度推定器にする方法を示す。
このモデルはRollingDepthと呼ばれ、(i)シングルイメージのLCMから派生したマルチフレーム深度推定器と、非常に短いビデオスニペットを深度スニペットにマッピングする。
論文 参考訳(メタデータ) (2024-11-28T14:50:14Z) - Depth Any Video with Scalable Synthetic Data [98.42356740981839]
多様な合成環境からリアルタイムのビデオ深度データをキャプチャする,スケーラブルな合成データパイプラインを開発した。
我々は、生成的ビデオ拡散モデルの強力な先駆を生かして、実世界の動画を効果的に処理する。
我々のモデルは、空間的精度と時間的一貫性の観点から、過去のすべての生成深度モデルより優れている。
論文 参考訳(メタデータ) (2024-10-14T17:59:46Z) - NVDS+: Towards Efficient and Versatile Neural Stabilizer for Video Depth Estimation [58.21817572577012]
ビデオ深度推定は時間的に一貫した深度を推定することを目的としている。
プラグ・アンド・プレイ方式で様々な単一画像モデルから推定される不整合深さを安定化するNVDS+を導入する。
このデータセットには、200万フレーム以上の14,203本のビデオが含まれている。
論文 参考訳(メタデータ) (2023-07-17T17:57:01Z) - Video Depth Estimation by Fusing Flow-to-Depth Proposals [65.24533384679657]
本稿では,映像深度推定のためのフロー・ツー・ディープス・レイヤの異なる手法を提案する。
モデルは、フロー・トゥ・ディープス層、カメラ・ポーズ・リファインメント・モジュール、ディープ・フュージョン・ネットワークから構成される。
提案手法は,最先端の深度推定法より優れ,合理的なデータセット一般化能力を有する。
論文 参考訳(メタデータ) (2019-12-30T10:45:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。