論文の概要: DepthSync: Diffusion Guidance-Based Depth Synchronization for Scale- and Geometry-Consistent Video Depth Estimation
- arxiv url: http://arxiv.org/abs/2507.01603v1
- Date: Wed, 02 Jul 2025 11:11:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:23:00.166671
- Title: DepthSync: Diffusion Guidance-Based Depth Synchronization for Scale- and Geometry-Consistent Video Depth Estimation
- Title(参考訳): DepthSync: 拡散誘導に基づく大規模・幾何学的ビデオ深度推定のための深度同期
- Authors: Yue-Jiang Dong, Wang Zhao, Jiale Xu, Ying Shan, Song-Hai Zhang,
- Abstract要約: 本稿では,DepthSyncを提案する。DepthSyncは拡散誘導を用いて,長ビデオのスケールと幾何に一貫性のある深度予測を実現するフレームワークである。
具体的には、ウィンドウ間の深さスケールを同期させるスケールガイダンスと、ウィンドウ内の幾何学的アライメントを強制するための幾何学的ガイダンスを導入する。
様々なデータセットを用いた実験により、特に長ビデオにおいて、スケールと幾何の整合性を改善した深度推定法の有効性が検証された。
- 参考スコア(独自算出の注目度): 45.8790174686242
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion-based video depth estimation methods have achieved remarkable success with strong generalization ability. However, predicting depth for long videos remains challenging. Existing methods typically split videos into overlapping sliding windows, leading to accumulated scale discrepancies across different windows, particularly as the number of windows increases. Additionally, these methods rely solely on 2D diffusion priors, overlooking the inherent 3D geometric structure of video depths, which results in geometrically inconsistent predictions. In this paper, we propose DepthSync, a novel, training-free framework using diffusion guidance to achieve scale- and geometry-consistent depth predictions for long videos. Specifically, we introduce scale guidance to synchronize the depth scale across windows and geometry guidance to enforce geometric alignment within windows based on the inherent 3D constraints in video depths. These two terms work synergistically, steering the denoising process toward consistent depth predictions. Experiments on various datasets validate the effectiveness of our method in producing depth estimates with improved scale and geometry consistency, particularly for long videos.
- Abstract(参考訳): 拡散に基づく映像深度推定法は, 高い一般化能力で大きな成功を収めている。
しかし、長いビデオの深さを予測することは依然として難しい。
既存の方法は通常、動画をオーバーラップするウィンドウに分割し、特にウィンドウの数が増加するにつれて、異なるウィンドウにスケールの相違が蓄積される。
さらに、これらの手法は2次元拡散先行にのみ依存し、ビデオ深度に固有の3次元幾何学的構造を見極め、幾何学的に矛盾した予測をもたらす。
本稿では,DepthSyncを提案する。DepthSyncは,拡散誘導を用いた新しいトレーニング不要なフレームワークで,長尺ビデオのスケールと幾何に一貫性のある深度予測を実現する。
具体的には,映像の奥行きに固有の3次元制約に基づいて,窓の奥行きを同期させるスケールガイダンスと幾何学的ガイダンスを導入し,窓内の幾何的アライメントを強制する。
これら2つの用語は相乗的に機能し、一貫した深度予測に向けて妄想過程を操る。
様々なデータセットを用いた実験により、特に長ビデオにおいて、スケールと幾何の整合性を改善した深度推定法の有効性が検証された。
関連論文リスト
- GeometryCrafter: Consistent Geometry Estimation for Open-world Videos with Diffusion Priors [47.21120442961684]
オープンワールドビデオから時間的コヒーレンスで高忠実度点マップシーケンスを復元する新しいフレームワークであるGeometryCrafterを提案する。
GeometryCrafterは最先端の3D精度、時間的一貫性、一般化能力を実現する。
論文 参考訳(メタデータ) (2025-04-01T17:58:03Z) - Learning Temporally Consistent Video Depth from Video Diffusion Priors [62.36887303063542]
本研究は,ストリーム映像深度推定の課題に対処する。
フレームやクリップ間でコンテキスト情報を共有することは、時間的一貫性を育む上で重要である、と我々は主張する。
本稿では,任意の長さの動画に対して一貫したコンテキスト認識学習と推論戦略を提案し,クロスクリップなコンテキストを提供する。
論文 参考訳(メタデータ) (2024-06-03T16:20:24Z) - Self-Supervised Depth Completion Guided by 3D Perception and Geometry
Consistency [17.68427514090938]
本稿では,3次元の知覚的特徴と多視点幾何整合性を利用して,高精度な自己監督深度補完法を提案する。
NYU-Depthv2 と VOID のベンチマークデータセットを用いた実験により,提案モデルが最先端の深度補完性能を実現することを示す。
論文 参考訳(メタデータ) (2023-12-23T14:19:56Z) - Constraining Depth Map Geometry for Multi-View Stereo: A Dual-Depth
Approach with Saddle-shaped Depth Cells [23.345139129458122]
同じ深度予測誤差を用いても、異なる深度ジオメトリには大きな性能ギャップがあることが示される。
サドル形状のセルからなる理想的な深度幾何学を導入し, 予測深度マップは地表面を上下に振動する。
また,本手法は,MVSにおける深度幾何学の新たな研究方向を示す。
論文 参考訳(メタデータ) (2023-07-18T11:37:53Z) - NVDS+: Towards Efficient and Versatile Neural Stabilizer for Video Depth Estimation [58.21817572577012]
ビデオ深度推定は時間的に一貫した深度を推定することを目的としている。
プラグ・アンド・プレイ方式で様々な単一画像モデルから推定される不整合深さを安定化するNVDS+を導入する。
このデータセットには、200万フレーム以上の14,203本のビデオが含まれている。
論文 参考訳(メタデータ) (2023-07-17T17:57:01Z) - Consistent Video Depth Estimation [57.712779457632024]
モノクロ映像中の全画素に対して, 密度, 幾何的に整合した深度を再構成するアルゴリズムを提案する。
動画中の画素の幾何的制約を確立するために、従来の動きから再構成した構造を利用する。
我々のアルゴリズムは、手持ちの映像をある程度のダイナミックな動きで処理することができる。
論文 参考訳(メタデータ) (2020-04-30T17:59:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。