Fugu-MT 論文翻訳(概要): Video Depth Anything: Consistent Depth Estimation for Super-Long Videos

論文の概要: Video Depth Anything: Consistent Depth Estimation for Super-Long Videos

arxiv url: http://arxiv.org/abs/2501.12375v1
Date: Tue, 21 Jan 2025 18:53:30 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-22 19:37:19.766936
Title: Video Depth Anything: Consistent Depth Estimation for Super-Long Videos
Title（参考訳）: 超長編ビデオの連続深度推定
Authors: Sili Chen, Hengkai Guo, Shengnan Zhu, Feihu Zhang, Zilong Huang, Jiashi Feng, Bingyi Kang,
Abstract要約: 超長ビデオにおける高品質で一貫した深度推定のためのビデオ深度推定法を提案する。我々のモデルは、Depth Anything V2と同様、ビデオ深度とラベルなし画像の合同データセットに基づいて訓練されている。提案手法は,ゼロショット映像深度推定における新しい最先端技術である。
参考スコア（独自算出の注目度）: 60.857723250653976
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Depth Anything has achieved remarkable success in monocular depth estimation with strong generalization ability. However, it suffers from temporal inconsistency in videos, hindering its practical applications. Various methods have been proposed to alleviate this issue by leveraging video generation models or introducing priors from optical flow and camera poses. Nonetheless, these methods are only applicable to short videos (< 10 seconds) and require a trade-off between quality and computational efficiency. We propose Video Depth Anything for high-quality, consistent depth estimation in super-long videos (over several minutes) without sacrificing efficiency. We base our model on Depth Anything V2 and replace its head with an efficient spatial-temporal head. We design a straightforward yet effective temporal consistency loss by constraining the temporal depth gradient, eliminating the need for additional geometric priors. The model is trained on a joint dataset of video depth and unlabeled images, similar to Depth Anything V2. Moreover, a novel key-frame-based strategy is developed for long video inference. Experiments show that our model can be applied to arbitrarily long videos without compromising quality, consistency, or generalization ability. Comprehensive evaluations on multiple video benchmarks demonstrate that our approach sets a new state-of-the-art in zero-shot video depth estimation. We offer models of different scales to support a range of scenarios, with our smallest model capable of real-time performance at 30 FPS.
Abstract（参考訳）: ディープス・エジングは、強い一般化能力を持つ単分子深度推定において顕著な成功を収めた。しかし、ビデオの時間的矛盾に悩まされ、実用的利用を妨げている。映像生成モデルを利用したり、光学フローやカメラのポーズから先行情報を導入することで、この問題を緩和する様々な方法が提案されている。それでも、これらの手法は短いビデオ(10秒)にのみ適用でき、品質と計算効率のトレードオフを必要とする。超長編ビデオ(数分以上)における高品質で一貫した深度推定のためのビデオ深度推定法を提案する。我々は、Depth Anything V2をベースとし、その頭部を効率的な時空間ヘッドに置き換える。我々は、時間的深度勾配を制約し、追加の幾何学的先行を不要にすることで、単純で効果的な時間的整合性損失を設計する。このモデルは、Depth Anything V2と同様、ビデオ深度とラベルなし画像の合同データセットに基づいてトレーニングされている。さらに、長大なビデオ推論のための新しいキーフレームベースの戦略を開発した。実験の結果,品質,一貫性,一般化性を損なうことなく,任意の長さの動画にモデルを適用できることが判明した。複数のビデオベンチマークによる包括的評価は,本手法がゼロショット映像深度推定における新たな最先端技術であることを示す。さまざまなシナリオをサポートするために,さまざまなスケールのモデルを提供しています。

関連論文リスト

FlashDepth: Real-time Streaming Video Depth Estimation at 2K Resolution [50.55876151973996]
ビデオ深度推定モデルは,(1)フレーム間の精度,(2)高解像度深度マップの作成,(3)リアルタイムストリーミングをサポートする。提案するFlashDepthは,2044x1148ストリーミングビデオの深さ推定を24FPSで行うことで,3つの要件をすべて満たす手法である。我々は、最先端の深度モデルに対する複数の未知のデータセットに対するアプローチを評価し、競争精度を維持しながら、境界のシャープネスと速度の点でそれらを上回ります。
論文参考訳（メタデータ） (2025-04-09T17:59:31Z)
Align3R: Aligned Monocular Depth Estimation for Dynamic Videos [50.28715151619659]
動的ビデオの時間的一貫した深度マップを推定するために,Align3Rと呼ばれる新しいビデオ深度推定法を提案する。我々のキーとなる考え方は、最近のDUSt3Rモデルを用いて、異なる時間ステップの単分子深度マップを整列させることである。実験により、Align3Rは一貫したビデオ深度を推定し、カメラはベースライン法よりも優れた性能を持つ単眼ビデオのポーズを示す。
論文参考訳（メタデータ） (2024-12-04T07:09:59Z)
Video Depth without Video Models [34.11454612504574]
ビデオ深度推定は、各フレームに濃密な深度を推定することにより、単眼のビデオクリップを3Dに引き上げる。単一画像潜在拡散モデル(LDM)を最先端のビデオ深度推定器にする方法を示す。このモデルはRollingDepthと呼ばれ、(i)シングルイメージのLCMから派生したマルチフレーム深度推定器と、非常に短いビデオスニペットを深度スニペットにマッピングする。
論文参考訳（メタデータ） (2024-11-28T14:50:14Z)
Buffer Anytime: Zero-Shot Video Depth and Normal from Image Priors [54.8852848659663]
Buffer Anytimeは、ビデオから深さと正規マップ(幾何バッファと呼ばれる)を推定するためのフレームワークです。時間的整合性制約を持つ単一画像の先行値を活用することによって,高品質なビデオバッファ推定を実証する。
論文参考訳（メタデータ） (2024-11-26T09:28:32Z)
Depth Any Video with Scalable Synthetic Data [98.42356740981839]
多様な仮想環境からリアルタイムのビデオ深度データをキャプチャする,スケーラブルな合成データパイプラインを開発した。我々は、生成的ビデオ拡散モデルの強力な先駆を生かして、実世界の動画を効果的に処理する。我々のモデルは、空間的精度と時間的一貫性の観点から、過去のすべての生成深度モデルより優れている。
論文参考訳（メタデータ） (2024-10-14T17:59:46Z)
DepthCrafter: Generating Consistent Long Depth Sequences for Open-world Videos [51.90501863934735]
本稿では,オープンワールドビデオの複雑な詳細を伴う時間的に一貫した長深さシーケンスを生成するDepthCrafterを提案する。オープンワールドビデオの一般化能力は、事前訓練された画像間拡散モデルからビデオ間拡散モデルを訓練することによって達成される。トレーニング手法により、モデルは、最大110フレームまでの可変長の深度シーケンスを生成し、リアルかつ合成されたデータセットから、正確な深度の詳細と豊富な内容の多様性を抽出することができる。
論文参考訳（メタデータ） (2024-09-03T17:52:03Z)
NVDS+: Towards Efficient and Versatile Neural Stabilizer for Video Depth Estimation [58.21817572577012]
ビデオ深度推定は時間的に一貫した深度を推定することを目的としている。プラグ・アンド・プレイ方式で様々な単一画像モデルから推定される不整合深さを安定化するNVDS+を導入する。このデータセットには、200万フレーム以上の14,203本のビデオが含まれている。
論文参考訳（メタデータ） (2023-07-17T17:57:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。