論文の概要: DVD: Deterministic Video Depth Estimation with Generative Priors
- arxiv url: http://arxiv.org/abs/2603.12250v1
- Date: Thu, 12 Mar 2026 17:58:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:26.289516
- Title: DVD: Deterministic Video Depth Estimation with Generative Priors
- Title(参考訳): DVD: 生成優先順位による決定論的ビデオ深度推定
- Authors: Hongfei Zhang, Harold Haodong Chen, Chenfei Liao, Jing He, Zixin Zhang, Haodong Li, Yihao Liang, Kanghao Chen, Bin Ren, Xu Zheng, Shuai Yang, Kun Zhou, Yinchuan Li, Nicu Sebe, Ying-Cong Chen,
- Abstract要約: DVDは、事前訓練されたビデオ拡散モデルをシングルパス深度回帰器に適応させる最初のフレームワークである。
DVDは、最先端のゼロショットのパフォーマンスをベンチマークで達成する。
私たちはパイプラインを完全にリリースし、オープンソースコミュニティに利益をもたらすために、SOTAビデオ深度推定のためのトレーニングスイート全体を提供しています。
- 参考スコア(独自算出の注目度): 87.46576463137801
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing video depth estimation faces a fundamental trade-off: generative models suffer from stochastic geometric hallucinations and scale drift, while discriminative models demand massive labeled datasets to resolve semantic ambiguities. To break this impasse, we present DVD, the first framework to deterministically adapt pre-trained video diffusion models into single-pass depth regressors. Specifically, DVD features three core designs: (i) repurposing the diffusion timestep as a structural anchor to balance global stability with high-frequency details; (ii) latent manifold rectification (LMR) to mitigate regression-induced over-smoothing, enforcing differential constraints to restore sharp boundaries and coherent motion; and (iii) global affine coherence, an inherent property bounding inter-window divergence, which enables seamless long-video inference without requiring complex temporal alignment. Extensive experiments demonstrate that DVD achieves state-of-the-art zero-shot performance across benchmarks. Furthermore, DVD successfully unlocks the profound geometric priors implicit in video foundation models using 163x less task-specific data than leading baselines. Notably, we fully release our pipeline, providing the whole training suite for SOTA video depth estimation to benefit the open-source community.
- Abstract(参考訳): 生成モデルは確率的幾何学的幻覚とスケールドリフトに悩まされ、識別モデルは意味的曖昧さを解決するために大量のラベル付きデータセットを必要とする。
そこで本研究では,事前学習した映像拡散モデルを単一パス深度回帰器に適応させる最初の枠組みであるDVDを提案する。
特に、DVDには3つのコアデザインがある。
一 拡散タイムステップを構造的アンカーとして再生し、大域的安定性と高周波詳細とのバランスをとること。
(II)回帰誘起過平滑化を緩和し、鋭い境界とコヒーレントな動きを回復するための差分制約を強制する潜在多様体整流(LMR)
(3) 風間分岐に縛られる固有の特性であるグローバルアフィンコヒーレンス(英語版)は、複雑な時間的アライメントを必要としないシームレスな長ビデオ推論を可能にする。
大規模な実験により、DVDはベンチマーク全体で最先端のゼロショット性能を達成することが示された。
さらに、DVDは、主要なベースラインよりも163倍少ないタスク固有データを使用して、ビデオ基礎モデルで暗黙的に深い幾何学的先行を解き放つことに成功した。
特に、私たちはパイプラインを完全にリリースし、オープンソースコミュニティに利益をもたらすために、SOTAビデオ深度推定のためのトレーニングスイート全体を提供しています。
関連論文リスト
- VideoGPA: Distilling Geometry Priors for 3D-Consistent Video Generation [34.46015478321541]
VideoGPAは、高密度な嗜好信号を自動的に導出する、データ効率のよい自己組織化フレームワークである。
人間のアノテーションを必要とせずに、固有の3D一貫性に向けた生成的分布を操縦する。
最小限の選好ペアを用いて、時間的安定性、身体的可視性、動きコヒーレンスを大幅に向上させる。
論文 参考訳(メタデータ) (2026-01-30T18:59:57Z) - GeometryCrafter: Consistent Geometry Estimation for Open-world Videos with Diffusion Priors [47.21120442961684]
オープンワールドビデオから時間的コヒーレンスで高忠実度点マップシーケンスを復元する新しいフレームワークであるGeometryCrafterを提案する。
GeometryCrafterは最先端の3D精度、時間的一貫性、一般化能力を実現する。
論文 参考訳(メタデータ) (2025-04-01T17:58:03Z) - Towards Ambiguity-Free Spatial Foundation Model: Rethinking and Decoupling Depth Ambiguity [20.86484181698326]
決定論的予測に限定された既存のモデルは、現実世界の多層深度を見落としている。
単一予測から多仮説空間基盤モデルへのパラダイムシフトを導入する。
論文 参考訳(メタデータ) (2025-03-08T02:33:54Z) - Video Depth without Video Models [34.11454612504574]
ビデオ深度推定は、各フレームに濃密な深度を推定することにより、単眼のビデオクリップを3Dに引き上げる。
単一画像潜在拡散モデル(LDM)を最先端のビデオ深度推定器にする方法を示す。
このモデルはRollingDepthと呼ばれ、(i)シングルイメージのLCMから派生したマルチフレーム深度推定器と、非常に短いビデオスニペットを深度スニペットにマッピングする。
論文 参考訳(メタデータ) (2024-11-28T14:50:14Z) - Depth Any Video with Scalable Synthetic Data [98.42356740981839]
多様な仮想環境からリアルタイムのビデオ深度データをキャプチャする,スケーラブルな合成データパイプラインを開発した。
我々は、生成的ビデオ拡散モデルの強力な先駆を生かして、実世界の動画を効果的に処理する。
我々のモデルは、空間的精度と時間的一貫性の観点から、過去のすべての生成深度モデルより優れている。
論文 参考訳(メタデータ) (2024-10-14T17:59:46Z) - NVDS+: Towards Efficient and Versatile Neural Stabilizer for Video Depth Estimation [58.21817572577012]
ビデオ深度推定は時間的に一貫した深度を推定することを目的としている。
プラグ・アンド・プレイ方式で様々な単一画像モデルから推定される不整合深さを安定化するNVDS+を導入する。
このデータセットには、200万フレーム以上の14,203本のビデオが含まれている。
論文 参考訳(メタデータ) (2023-07-17T17:57:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。