論文の概要: Video Depth without Video Models
- arxiv url: http://arxiv.org/abs/2411.19189v1
- Date: Thu, 28 Nov 2024 14:50:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:20:06.513987
- Title: Video Depth without Video Models
- Title(参考訳): ビデオモデルのないビデオ深度
- Authors: Bingxin Ke, Dominik Narnhofer, Shengyu Huang, Lei Ke, Torben Peters, Katerina Fragkiadaki, Anton Obukhov, Konrad Schindler,
- Abstract要約: ビデオ深度推定は、各フレームに濃密な深度を推定することにより、単眼のビデオクリップを3Dに引き上げる。
単一画像潜在拡散モデル(LDM)を最先端のビデオ深度推定器にする方法を示す。
このモデルはRollingDepthと呼ばれ、(i)シングルイメージのLCMから派生したマルチフレーム深度推定器と、非常に短いビデオスニペットを深度スニペットにマッピングする。
- 参考スコア(独自算出の注目度): 34.11454612504574
- License:
- Abstract: Video depth estimation lifts monocular video clips to 3D by inferring dense depth at every frame. Recent advances in single-image depth estimation, brought about by the rise of large foundation models and the use of synthetic training data, have fueled a renewed interest in video depth. However, naively applying a single-image depth estimator to every frame of a video disregards temporal continuity, which not only leads to flickering but may also break when camera motion causes sudden changes in depth range. An obvious and principled solution would be to build on top of video foundation models, but these come with their own limitations; including expensive training and inference, imperfect 3D consistency, and stitching routines for the fixed-length (short) outputs. We take a step back and demonstrate how to turn a single-image latent diffusion model (LDM) into a state-of-the-art video depth estimator. Our model, which we call RollingDepth, has two main ingredients: (i) a multi-frame depth estimator that is derived from a single-image LDM and maps very short video snippets (typically frame triplets) to depth snippets. (ii) a robust, optimization-based registration algorithm that optimally assembles depth snippets sampled at various different frame rates back into a consistent video. RollingDepth is able to efficiently handle long videos with hundreds of frames and delivers more accurate depth videos than both dedicated video depth estimators and high-performing single-frame models. Project page: rollingdepth.github.io.
- Abstract(参考訳): ビデオ深度推定は、各フレームに濃密な深度を推定することにより、単眼のビデオクリップを3Dに引き上げる。
大規模基盤モデルの台頭と合成訓練データの利用により, 映像深度推定の進歩が進み, 映像深度への新たな関心が高まっている。
しかし、ビデオの各フレームに単一画像深度推定器を内在的に適用すると、時間的連続性は無視される。
ビデオファンデーションモデルの上に構築することが明確で原則的な解決策だが、これらには、高価なトレーニングや推論、不完全な3D整合性、固定長(短い)出力のための縫製ルーチンなど、独自の制限がある。
我々は一歩後退して、単一画像潜在拡散モデル(LDM)を最先端のビデオ深度推定器にする方法を実証する。
私たちのモデルはRollingDepthと呼ばれ、主な材料は2つあります。
i) 単一画像のLCMから派生した多フレーム深度推定器で, 非常に短いビデオスニペット(典型的にはフレームトリプレット)を深度スニペットにマッピングする。
(II) 様々なフレームレートでサンプリングされた深度スニペットを一貫したビデオに最適に組み立てる頑健な最適化ベース登録アルゴリズム。
RollingDepthは、数百フレームの長いビデオを効率的に処理でき、専用のビデオ深度推定器や高性能シングルフレームモデルよりも正確な深度ビデオを配信できる。
プロジェクトページ: Rolldepth.github.io
関連論文リスト
- Depth Any Video with Scalable Synthetic Data [98.42356740981839]
多様な合成環境からリアルタイムのビデオ深度データをキャプチャする,スケーラブルな合成データパイプラインを開発した。
我々は、生成的ビデオ拡散モデルの強力な先駆を生かして、実世界の動画を効果的に処理する。
我々のモデルは、空間的精度と時間的一貫性の観点から、過去のすべての生成深度モデルより優れている。
論文 参考訳(メタデータ) (2024-10-14T17:59:46Z) - Learning Temporally Consistent Video Depth from Video Diffusion Priors [57.929828486615605]
本研究は,映像深度推定の課題に対処する。
我々は予測タスクを条件付き生成問題に再構成する。
これにより、既存のビデオ生成モデルに埋め込まれた事前の知識を活用することができる。
論文 参考訳(メタデータ) (2024-06-03T16:20:24Z) - FrozenRecon: Pose-free 3D Scene Reconstruction with Frozen Depth Models [67.96827539201071]
本稿では,3次元シーン再構成のための新しいテスト時間最適化手法を提案する。
本手法は5つのゼロショットテストデータセット上で,最先端のクロスデータセット再構築を実現する。
論文 参考訳(メタデータ) (2023-08-10T17:55:02Z) - NVDS+: Towards Efficient and Versatile Neural Stabilizer for Video Depth Estimation [58.21817572577012]
ビデオ深度推定は時間的に一貫した深度を推定することを目的としている。
プラグ・アンド・プレイ方式で様々な単一画像モデルから推定される不整合深さを安定化するNVDS+を導入する。
このデータセットには、200万フレーム以上の14,203本のビデオが含まれている。
論文 参考訳(メタデータ) (2023-07-17T17:57:01Z) - Towards 3D Scene Reconstruction from Locally Scale-Aligned Monocular
Video Depth [90.33296913575818]
映像深度推定や映像からの3次元シーン再構成のようなビデオベースのシナリオでは、フレームごとの予測における未知のスケールとシフトが深度の不整合を引き起こす可能性がある。
局所重み付き線形回帰法を提案する。
提案手法は,複数のゼロショットベンチマークにおいて,既存の最先端手法の性能を50%向上させることができる。
論文 参考訳(メタデータ) (2022-02-03T08:52:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。