論文の概要: Video Depth Anything: Consistent Depth Estimation for Super-Long Videos
- arxiv url: http://arxiv.org/abs/2501.12375v2
- Date: Wed, 22 Jan 2025 11:33:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-23 13:30:47.136613
- Title: Video Depth Anything: Consistent Depth Estimation for Super-Long Videos
- Title(参考訳): 超長編ビデオの連続深度推定
- Authors: Sili Chen, Hengkai Guo, Shengnan Zhu, Feihu Zhang, Zilong Huang, Jiashi Feng, Bingyi Kang,
- Abstract要約: 超長ビデオにおける高品質で一貫した深度推定のためのビデオ深度推定法を提案する。
我々のモデルは、Depth Anything V2と同様、ビデオ深度とラベルなし画像の合同データセットに基づいて訓練されている。
提案手法は,ゼロショット映像深度推定における新しい最先端技術である。
- 参考スコア(独自算出の注目度): 60.857723250653976
- License:
- Abstract: Depth Anything has achieved remarkable success in monocular depth estimation with strong generalization ability. However, it suffers from temporal inconsistency in videos, hindering its practical applications. Various methods have been proposed to alleviate this issue by leveraging video generation models or introducing priors from optical flow and camera poses. Nonetheless, these methods are only applicable to short videos (< 10 seconds) and require a trade-off between quality and computational efficiency. We propose Video Depth Anything for high-quality, consistent depth estimation in super-long videos (over several minutes) without sacrificing efficiency. We base our model on Depth Anything V2 and replace its head with an efficient spatial-temporal head. We design a straightforward yet effective temporal consistency loss by constraining the temporal depth gradient, eliminating the need for additional geometric priors. The model is trained on a joint dataset of video depth and unlabeled images, similar to Depth Anything V2. Moreover, a novel key-frame-based strategy is developed for long video inference. Experiments show that our model can be applied to arbitrarily long videos without compromising quality, consistency, or generalization ability. Comprehensive evaluations on multiple video benchmarks demonstrate that our approach sets a new state-of-the-art in zero-shot video depth estimation. We offer models of different scales to support a range of scenarios, with our smallest model capable of real-time performance at 30 FPS.
- Abstract(参考訳): ディープス・エジングは、強い一般化能力を持つ単分子深度推定において顕著な成功を収めた。
しかし、ビデオの時間的矛盾に悩まされ、実用的利用を妨げている。
映像生成モデルを利用したり、光学フローやカメラのポーズから先行情報を導入することで、この問題を緩和する様々な方法が提案されている。
それでも、これらの手法は短いビデオ(10秒)にのみ適用でき、品質と計算効率のトレードオフを必要とする。
超長編ビデオ(数分以上)における高品質で一貫した深度推定のためのビデオ深度推定法を提案する。
我々は、Depth Anything V2をベースとし、その頭部を効率的な時空間ヘッドに置き換える。
我々は、時間的深度勾配を制約し、追加の幾何学的先行を不要にすることで、単純で効果的な時間的整合性損失を設計する。
このモデルは、Depth Anything V2と同様、ビデオ深度とラベルなし画像の合同データセットに基づいてトレーニングされている。
さらに、長大なビデオ推論のための新しいキーフレームベースの戦略を開発した。
実験の結果,品質,一貫性,一般化性を損なうことなく,任意の長さの動画にモデルを適用できることが判明した。
複数のビデオベンチマークによる包括的評価は,本手法がゼロショット映像深度推定における新たな最先端技術であることを示す。
さまざまなシナリオをサポートするために,さまざまなスケールのモデルを提供しています。
関連論文リスト
- Buffer Anytime: Zero-Shot Video Depth and Normal from Image Priors [54.8852848659663]
Buffer Anytimeは、ビデオから深さと正規マップ(幾何バッファと呼ばれる)を推定するためのフレームワークです。
時間的整合性制約を持つ単一画像の先行値を活用することによって,高品質なビデオバッファ推定を実証する。
論文 参考訳(メタデータ) (2024-11-26T09:28:32Z) - Depth Any Video with Scalable Synthetic Data [98.42356740981839]
多様な合成環境からリアルタイムのビデオ深度データをキャプチャする,スケーラブルな合成データパイプラインを開発した。
我々は、生成的ビデオ拡散モデルの強力な先駆を生かして、実世界の動画を効果的に処理する。
我々のモデルは、空間的精度と時間的一貫性の観点から、過去のすべての生成深度モデルより優れている。
論文 参考訳(メタデータ) (2024-10-14T17:59:46Z) - DepthCrafter: Generating Consistent Long Depth Sequences for Open-world Videos [51.90501863934735]
本稿では,オープンワールドビデオの複雑な詳細を伴う時間的に一貫した長深さシーケンスを生成するDepthCrafterを提案する。
オープンワールドビデオの一般化能力は、事前訓練された画像間拡散モデルからビデオ間拡散モデルを訓練することによって達成される。
トレーニング手法により、モデルは、最大110フレームまでの可変長の深度シーケンスを生成し、リアルかつ合成されたデータセットから、正確な深度の詳細と豊富な内容の多様性を抽出することができる。
論文 参考訳(メタデータ) (2024-09-03T17:52:03Z) - Learning Temporally Consistent Video Depth from Video Diffusion Priors [62.36887303063542]
本研究は,ストリーム映像深度推定の課題に対処する。
フレームやクリップ間でコンテキスト情報を共有することは、時間的一貫性を育む上で重要である、と我々は主張する。
具体的には、任意の長さの動画に対して一貫したコンテキスト認識学習と推論戦略を提案し、クロスクリップなコンテキストを提供する。
論文 参考訳(メタデータ) (2024-06-03T16:20:24Z) - NVDS+: Towards Efficient and Versatile Neural Stabilizer for Video Depth Estimation [58.21817572577012]
ビデオ深度推定は時間的に一貫した深度を推定することを目的としている。
プラグ・アンド・プレイ方式で様々な単一画像モデルから推定される不整合深さを安定化するNVDS+を導入する。
このデータセットには、200万フレーム以上の14,203本のビデオが含まれている。
論文 参考訳(メタデータ) (2023-07-17T17:57:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。