論文の概要: StereoDiff: Stereo-Diffusion Synergy for Video Depth Estimation
- arxiv url: http://arxiv.org/abs/2506.20756v1
- Date: Wed, 25 Jun 2025 18:35:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:09.851283
- Title: StereoDiff: Stereo-Diffusion Synergy for Video Depth Estimation
- Title(参考訳): StereoDiff:ビデオ深度推定のためのステレオ拡散シナジー
- Authors: Haodong Li, Chen Wang, Jiahui Lei, Kostas Daniilidis, Lingjie Liu,
- Abstract要約: 我々は,映像深度推定は画像深度推定の単純な拡張ではないと主張している。
ビデオ深度拡散を伴う静的領域のステレオマッチングを相乗化する2段ビデオ深度推定器であるStereoDiffを紹介する。
- 参考スコア(独自算出の注目度): 50.105716381966516
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent video depth estimation methods achieve great performance by following the paradigm of image depth estimation, i.e., typically fine-tuning pre-trained video diffusion models with massive data. However, we argue that video depth estimation is not a naive extension of image depth estimation. The temporal consistency requirements for dynamic and static regions in videos are fundamentally different. Consistent video depth in static regions, typically backgrounds, can be more effectively achieved via stereo matching across all frames, which provides much stronger global 3D cues. While the consistency for dynamic regions still should be learned from large-scale video depth data to ensure smooth transitions, due to the violation of triangulation constraints. Based on these insights, we introduce StereoDiff, a two-stage video depth estimator that synergizes stereo matching for mainly the static areas with video depth diffusion for maintaining consistent depth transitions in dynamic areas. We mathematically demonstrate how stereo matching and video depth diffusion offer complementary strengths through frequency domain analysis, highlighting the effectiveness of their synergy in capturing the advantages of both. Experimental results on zero-shot, real-world, dynamic video depth benchmarks, both indoor and outdoor, demonstrate StereoDiff's SoTA performance, showcasing its superior consistency and accuracy in video depth estimation.
- Abstract(参考訳): 近年の映像深度推定法は,画像深度推定のパラダイムに従うことで高い性能を達成している。
しかし,映像深度推定は画像深度推定の単純な拡張ではないと論じる。
ビデオ中の動的領域と静的領域の時間的一貫性の要件は、根本的に異なる。
静的領域における一貫性のあるビデオ深度(典型的には背景)は、全フレームにわたるステレオマッチングによってより効果的に達成され、より強力なグローバルな3Dキューを提供する。
動的領域の一貫性は、三角制限に違反しているため、スムーズな遷移を保証するため、大規模なビデオ深度データから学習する必要がある。
これらの知見に基づき,2段階のビデオ深度推定器であるStereoDiffを導入し,ビデオ深度拡散を伴う静的領域のステレオマッチングを相乗化することにより,動的領域における一貫した深度遷移を維持する。
本稿では,ステレオマッチングとビデオ深度拡散が周波数領域解析によって相補的な長所を提供する様子を数学的に示し,両者の利点を捉える上での相乗効果を明らかにする。
屋内および屋外の両方で、ゼロショット、実世界、動的ビデオ深度ベンチマークの実験結果は、StereoDiffのSoTA性能を示し、ビデオ深度推定における優れた一貫性と精度を示している。
関連論文リスト
- Align3R: Aligned Monocular Depth Estimation for Dynamic Videos [50.28715151619659]
動的ビデオの時間的一貫した深度マップを推定するために,Align3Rと呼ばれる新しいビデオ深度推定法を提案する。
我々のキーとなる考え方は、最近のDUSt3Rモデルを用いて、異なる時間ステップの単分子深度マップを整列させることである。
実験により、Align3Rは一貫したビデオ深度を推定し、カメラはベースライン法よりも優れた性能を持つ単眼ビデオのポーズを示す。
論文 参考訳(メタデータ) (2024-12-04T07:09:59Z) - Helvipad: A Real-World Dataset for Omnidirectional Stereo Depth Estimation [83.841877607646]
全方位ステレオ深度推定のための実世界のデータセットであるHelvipadを紹介する。
このデータセットは、3Dポイント雲を等方形画像に投影することで、正確な深度と不均質のラベルを含む。
標準画像と全方位画像のステレオ深度推定モデルをベンチマークする。
論文 参考訳(メタデータ) (2024-11-27T13:34:41Z) - Edge-aware Consistent Stereo Video Depth Estimation [3.611754783778107]
本稿では,高密度映像深度推定のための一貫した手法を提案する。
既存のモノラルな方法とは異なり、ステレオビデオに関係しています。
エッジ対応ステレオビデオモデルにより,深度マップを精度良く推定できることを示す。
論文 参考訳(メタデータ) (2023-05-04T08:30:04Z) - DynamicStereo: Consistent Dynamic Depth from Stereo Videos [91.1804971397608]
ステレオビデオの相違を推定するためにDynamicStereoを提案する。
ネットワークは、その予測の時間的一貫性を改善するために、隣接するフレームからの情報をプールすることを学ぶ。
スキャンされた環境における人や動物の合成ビデオを含む新しいベンチマークデータセットであるDynamic Replicaも導入した。
論文 参考訳(メタデータ) (2023-05-03T17:40:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。