論文の概要: NVDS+: Towards Efficient and Versatile Neural Stabilizer for Video Depth Estimation
- arxiv url: http://arxiv.org/abs/2307.08695v3
- Date: Thu, 03 Oct 2024 17:58:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-04 23:29:44.973257
- Title: NVDS+: Towards Efficient and Versatile Neural Stabilizer for Video Depth Estimation
- Title(参考訳): NVDS+:ビデオ深度推定のための高能率・高能率ニューラル安定化器を目指して
- Authors: Yiran Wang, Min Shi, Jiaqi Li, Chaoyi Hong, Zihao Huang, Juewen Peng, Zhiguo Cao, Jianming Zhang, Ke Xian, Guosheng Lin,
- Abstract要約: ビデオ深度推定は時間的に一貫した深度を推定することを目的としている。
プラグ・アンド・プレイ方式で様々な単一画像モデルから推定される不整合深さを安定化するNVDS+を導入する。
このデータセットには、200万フレーム以上の14,203本のビデオが含まれている。
- 参考スコア(独自算出の注目度): 58.21817572577012
- License:
- Abstract: Video depth estimation aims to infer temporally consistent depth. One approach is to finetune a single-image model on each video with geometry constraints, which proves inefficient and lacks robustness. An alternative is learning to enforce consistency from data, which requires well-designed models and sufficient video depth data. To address both challenges, we introduce NVDS+ that stabilizes inconsistent depth estimated by various single-image models in a plug-and-play manner. We also elaborate a large-scale Video Depth in the Wild (VDW) dataset, which contains 14,203 videos with over two million frames, making it the largest natural-scene video depth dataset. Additionally, a bidirectional inference strategy is designed to improve consistency by adaptively fusing forward and backward predictions. We instantiate a model family ranging from small to large scales for different applications. The method is evaluated on VDW dataset and three public benchmarks. To further prove the versatility, we extend NVDS+ to video semantic segmentation and several downstream applications like bokeh rendering, novel view synthesis, and 3D reconstruction. Experimental results show that our method achieves significant improvements in consistency, accuracy, and efficiency. Our work serves as a solid baseline and data foundation for learning-based video depth estimation. Code and dataset are available at: https://github.com/RaymondWang987/NVDS
- Abstract(参考訳): ビデオ深度推定は時間的に一貫した深度を推定することを目的としている。
一つのアプローチは、幾何学的制約を伴って各ビデオに単一イメージモデルを微調整することであり、これは非効率性を示し、ロバスト性に欠ける。
もうひとつは、十分に設計されたモデルと十分なビデオ深度データを必要とするデータから一貫性を強制する学習だ。
両課題に対処するために,プラグ・アンド・プレイ方式で様々な単一画像モデルから推定される不整合深さを安定化するNVDS+を導入する。
また、VDW(VDW)データセットには、200万フレーム以上の14,203本のビデオが含まれている。
さらに、双方向推論戦略は、前方と後方の予測を適応的に融合させることで一貫性を向上させるように設計されている。
異なるアプリケーションに対して、小さなものから大規模なものまで、モデルファミリをインスタンス化する。
この手法はVDWデータセットと3つの公開ベンチマークで評価される。
この汎用性をさらに証明するため、NVDS+をビデオセマンティックセグメンテーションに拡張し、ボケレンダリング、新しいビュー合成、および3D再構成など、いくつかの下流アプリケーションに適用する。
実験結果から, 本手法は一貫性, 精度, 効率を著しく向上することがわかった。
我々の研究は、学習に基づくビデオ深度推定のための確かなベースラインとデータ基盤として機能する。
コードとデータセットは、https://github.com/RaymondWang987/NVDSで入手できる。
関連論文リスト
- Video Depth Anything: Consistent Depth Estimation for Super-Long Videos [60.857723250653976]
超長ビデオにおける高品質で一貫した深度推定のためのビデオ深度推定法を提案する。
我々のモデルは、Depth Anything V2と同様、ビデオ深度とラベルなし画像の合同データセットに基づいて訓練されている。
提案手法は,ゼロショット映像深度推定における新しい最先端技術である。
論文 参考訳(メタデータ) (2025-01-21T18:53:30Z) - Align3R: Aligned Monocular Depth Estimation for Dynamic Videos [50.28715151619659]
動的ビデオの時間的一貫した深度マップを推定するために,Align3Rと呼ばれる新しいビデオ深度推定法を提案する。
我々のキーとなる考え方は、最近のDUSt3Rモデルを用いて、異なる時間ステップの単分子深度マップを整列させることである。
実験により、Align3Rは一貫したビデオ深度を推定し、カメラはベースライン法よりも優れた性能を持つ単眼ビデオのポーズを示す。
論文 参考訳(メタデータ) (2024-12-04T07:09:59Z) - Video Depth without Video Models [34.11454612504574]
ビデオ深度推定は、各フレームに濃密な深度を推定することにより、単眼のビデオクリップを3Dに引き上げる。
単一画像潜在拡散モデル(LDM)を最先端のビデオ深度推定器にする方法を示す。
このモデルはRollingDepthと呼ばれ、(i)シングルイメージのLCMから派生したマルチフレーム深度推定器と、非常に短いビデオスニペットを深度スニペットにマッピングする。
論文 参考訳(メタデータ) (2024-11-28T14:50:14Z) - Depth Any Video with Scalable Synthetic Data [98.42356740981839]
多様な合成環境からリアルタイムのビデオ深度データをキャプチャする,スケーラブルな合成データパイプラインを開発した。
我々は、生成的ビデオ拡散モデルの強力な先駆を生かして、実世界の動画を効果的に処理する。
我々のモデルは、空間的精度と時間的一貫性の観点から、過去のすべての生成深度モデルより優れている。
論文 参考訳(メタデータ) (2024-10-14T17:59:46Z) - SM4Depth: Seamless Monocular Metric Depth Estimation across Multiple Cameras and Scenes by One Model [72.0795843450604]
現在のアプローチでは、さまざまなシーンで一貫した精度を維持する上で、課題に直面している。
これらの手法は、何千万、あるいは数千万のデータからなる広範囲なデータセットに依存している。
本稿では室内と屋外の両方でシームレスに機能するSM$4$Depthについて述べる。
論文 参考訳(メタデータ) (2024-03-13T14:08:25Z) - FrozenRecon: Pose-free 3D Scene Reconstruction with Frozen Depth Models [67.96827539201071]
本稿では,3次元シーン再構成のための新しいテスト時間最適化手法を提案する。
本手法は5つのゼロショットテストデータセット上で,最先端のクロスデータセット再構築を実現する。
論文 参考訳(メタデータ) (2023-08-10T17:55:02Z) - ViDaS Video Depth-aware Saliency Network [40.08270905030302]
両ストリームの完全な畳み込みビデオ,Depth-Aware Saliency ネットワークである ViDaS を紹介する。
ビデオのサリエンシ予測を通じて、注目度モデリングの問題に対処する。
ネットワークは2つのビジュアルストリームで構成され、1つはRGBフレーム用、もう1つは奥行きフレーム用である。
エンドツーエンドでトレーニングされ、アイトラッキングデータを備えたさまざまなデータベースで評価される。
論文 参考訳(メタデータ) (2023-05-19T15:04:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。