Fugu-MT 論文翻訳(概要): StereoDiff: Stereo-Diffusion Synergy for Video Depth Estimation

論文の概要: StereoDiff: Stereo-Diffusion Synergy for Video Depth Estimation

arxiv url: http://arxiv.org/abs/2506.20756v1
Date: Wed, 25 Jun 2025 18:35:10 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-27 19:53:09.851283
Title: StereoDiff: Stereo-Diffusion Synergy for Video Depth Estimation
Title（参考訳）: StereoDiff:ビデオ深度推定のためのステレオ拡散シナジー
Authors: Haodong Li, Chen Wang, Jiahui Lei, Kostas Daniilidis, Lingjie Liu,
Abstract要約: 我々は,映像深度推定は画像深度推定の単純な拡張ではないと主張している。ビデオ深度拡散を伴う静的領域のステレオマッチングを相乗化する2段ビデオ深度推定器であるStereoDiffを紹介する。
参考スコア（独自算出の注目度）: 50.105716381966516
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent video depth estimation methods achieve great performance by following the paradigm of image depth estimation, i.e., typically fine-tuning pre-trained video diffusion models with massive data. However, we argue that video depth estimation is not a naive extension of image depth estimation. The temporal consistency requirements for dynamic and static regions in videos are fundamentally different. Consistent video depth in static regions, typically backgrounds, can be more effectively achieved via stereo matching across all frames, which provides much stronger global 3D cues. While the consistency for dynamic regions still should be learned from large-scale video depth data to ensure smooth transitions, due to the violation of triangulation constraints. Based on these insights, we introduce StereoDiff, a two-stage video depth estimator that synergizes stereo matching for mainly the static areas with video depth diffusion for maintaining consistent depth transitions in dynamic areas. We mathematically demonstrate how stereo matching and video depth diffusion offer complementary strengths through frequency domain analysis, highlighting the effectiveness of their synergy in capturing the advantages of both. Experimental results on zero-shot, real-world, dynamic video depth benchmarks, both indoor and outdoor, demonstrate StereoDiff's SoTA performance, showcasing its superior consistency and accuracy in video depth estimation.
Abstract（参考訳）: 近年の映像深度推定法は,画像深度推定のパラダイムに従うことで高い性能を達成している。しかし,映像深度推定は画像深度推定の単純な拡張ではないと論じる。ビデオ中の動的領域と静的領域の時間的一貫性の要件は、根本的に異なる。静的領域における一貫性のあるビデオ深度(典型的には背景)は、全フレームにわたるステレオマッチングによってより効果的に達成され、より強力なグローバルな3Dキューを提供する。動的領域の一貫性は、三角制限に違反しているため、スムーズな遷移を保証するため、大規模なビデオ深度データから学習する必要がある。これらの知見に基づき,2段階のビデオ深度推定器であるStereoDiffを導入し,ビデオ深度拡散を伴う静的領域のステレオマッチングを相乗化することにより,動的領域における一貫した深度遷移を維持する。本稿では,ステレオマッチングとビデオ深度拡散が周波数領域解析によって相補的な長所を提供する様子を数学的に示し,両者の利点を捉える上での相乗効果を明らかにする。屋内および屋外の両方で、ゼロショット、実世界、動的ビデオ深度ベンチマークの実験結果は、StereoDiffのSoTA性能を示し、ビデオ深度推定における優れた一貫性と精度を示している。

関連論文リスト

Align3R: Aligned Monocular Depth Estimation for Dynamic Videos [50.28715151619659]
動的ビデオの時間的一貫した深度マップを推定するために,Align3Rと呼ばれる新しいビデオ深度推定法を提案する。我々のキーとなる考え方は、最近のDUSt3Rモデルを用いて、異なる時間ステップの単分子深度マップを整列させることである。実験により、Align3Rは一貫したビデオ深度を推定し、カメラはベースライン法よりも優れた性能を持つ単眼ビデオのポーズを示す。
論文参考訳（メタデータ） (2024-12-04T07:09:59Z)
Video Depth without Video Models [34.11454612504574]
ビデオ深度推定は、各フレームに濃密な深度を推定することにより、単眼のビデオクリップを3Dに引き上げる。単一画像潜在拡散モデル(LDM)を最先端のビデオ深度推定器にする方法を示す。このモデルはRollingDepthと呼ばれ、(i)シングルイメージのLCMから派生したマルチフレーム深度推定器と、非常に短いビデオスニペットを深度スニペットにマッピングする。
論文参考訳（メタデータ） (2024-11-28T14:50:14Z)
Helvipad: A Real-World Dataset for Omnidirectional Stereo Depth Estimation [83.841877607646]
全方位ステレオ深度推定のための実世界のデータセットであるHelvipadを紹介する。このデータセットは、3Dポイント雲を等方形画像に投影することで、正確な深度と不均質のラベルを含む。標準画像と全方位画像のステレオ深度推定モデルをベンチマークする。
論文参考訳（メタデータ） (2024-11-27T13:34:41Z)
NVDS+: Towards Efficient and Versatile Neural Stabilizer for Video Depth Estimation [58.21817572577012]
ビデオ深度推定は時間的に一貫した深度を推定することを目的としている。プラグ・アンド・プレイ方式で様々な単一画像モデルから推定される不整合深さを安定化するNVDS+を導入する。このデータセットには、200万フレーム以上の14,203本のビデオが含まれている。
論文参考訳（メタデータ） (2023-07-17T17:57:01Z)
Edge-aware Consistent Stereo Video Depth Estimation [3.611754783778107]
本稿では,高密度映像深度推定のための一貫した手法を提案する。既存のモノラルな方法とは異なり、ステレオビデオに関係しています。エッジ対応ステレオビデオモデルにより,深度マップを精度良く推定できることを示す。
論文参考訳（メタデータ） (2023-05-04T08:30:04Z)
DynamicStereo: Consistent Dynamic Depth from Stereo Videos [91.1804971397608]
ステレオビデオの相違を推定するためにDynamicStereoを提案する。ネットワークは、その予測の時間的一貫性を改善するために、隣接するフレームからの情報をプールすることを学ぶ。スキャンされた環境における人や動物の合成ビデオを含む新しいベンチマークデータセットであるDynamic Replicaも導入した。
論文参考訳（メタデータ） (2023-05-03T17:40:49Z)
SMD-Nets: Stereo Mixture Density Networks [68.56947049719936]
SMD-Nets(Stereo Mixture Density Networks)は、幅広い2Dおよび3Dアーキテクチャに対応したシンプルで効果的な学習フレームワークです。具体的には,バイモーダル混合密度を出力表現として活用し,不連続近傍の鋭く正確な不一致推定を可能にすることを示す。我々は8Mpx解像度のステレオペアと現実世界のステレオデータセットからなる、新しい高解像度でリアルな合成ステレオデータセットに関する包括的な実験を行う。
論文参考訳（メタデータ） (2021-04-08T16:15:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。