論文の概要: Neural Video Depth Stabilizer
- arxiv url: http://arxiv.org/abs/2307.08695v2
- Date: Thu, 10 Aug 2023 09:36:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-11 15:28:14.967078
- Title: Neural Video Depth Stabilizer
- Title(参考訳): ニューラルビデオ深度安定化装置
- Authors: Yiran Wang, Min Shi, Jiaqi Li, Zihao Huang, Zhiguo Cao, Jianming
Zhang, Ke Xian, Guosheng Lin
- Abstract要約: ビデオ深度推定は時間的に一貫した深度を推定することを目的としている。
いくつかの方法は、幾何学的制約と再射影制約を用いて、テスト時間中に単一画像深度モデルを微調整することで、時間的整合性を達成する。
本稿では,不整合深度推定を安定化し,余分な労力を伴わずに異なる単一画像深度モデルに適用可能なプラグアンドプレイフレームワークを提案する。
- 参考スコア(独自算出の注目度): 74.04508918791637
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video depth estimation aims to infer temporally consistent depth. Some
methods achieve temporal consistency by finetuning a single-image depth model
during test time using geometry and re-projection constraints, which is
inefficient and not robust. An alternative approach is to learn how to enforce
temporal consistency from data, but this requires well-designed models and
sufficient video depth data. To address these challenges, we propose a
plug-and-play framework called Neural Video Depth Stabilizer (NVDS) that
stabilizes inconsistent depth estimations and can be applied to different
single-image depth models without extra effort. We also introduce a large-scale
dataset, Video Depth in the Wild (VDW), which consists of 14,203 videos with
over two million frames, making it the largest natural-scene video depth
dataset to our knowledge. We evaluate our method on the VDW dataset as well as
two public benchmarks and demonstrate significant improvements in consistency,
accuracy, and efficiency compared to previous approaches. Our work serves as a
solid baseline and provides a data foundation for learning-based video depth
models. We will release our dataset and code for future research.
- Abstract(参考訳): ビデオ深度推定は時間的に一貫した深度を推定することを目的としている。
幾何的制約と再射影制約を用いて、単像深度モデルを微調整することで、時間的一貫性を実現する方法もある。
もうひとつのアプローチは、データから時間的一貫性を強制する方法を学ぶことだが、十分に設計されたモデルと十分なビデオ深度データが必要である。
これらの課題に対処するため,NVDS(Neural Video Depth Stabilizer)と呼ばれるプラグイン・アンド・プレイ・フレームワークを提案する。
また,200万フレーム以上のビデオ14,203本からなる大規模データセットであるvideo depth in the wild (vdw)を導入することで,我々の知識の中で最大の自然シーンビデオ深度データセットとなる。
提案手法をVDWデータセットと2つの公開ベンチマークで評価し,従来の手法と比較して,一貫性,精度,効率性を著しく向上したことを示す。
私たちの研究は、堅固なベースラインとして機能し、学習ベースのビデオ深度モデルのためのデータ基盤を提供します。
今後の研究のためにデータセットとコードをリリースします。
関連論文リスト
- Depth Estimation From Monocular Images With Enhanced Encoder-Decoder Architecture [0.0]
本稿では,エンコーダデコーダアーキテクチャを用いた新しい深層学習手法を提案する。
Inception-ResNet-v2モデルはエンコーダとして利用される。
NYU Depth V2データセットの実験結果は、我々のモデルが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2024-10-15T13:46:19Z) - Depth Any Video with Scalable Synthetic Data [98.42356740981839]
多様な合成環境からリアルタイムのビデオ深度データをキャプチャする,スケーラブルな合成データパイプラインを開発した。
我々は、生成的ビデオ拡散モデルの強力な先駆を生かして、実世界の動画を効果的に処理する。
我々のモデルは、空間的精度と時間的一貫性の観点から、過去のすべての生成深度モデルより優れている。
論文 参考訳(メタデータ) (2024-10-14T17:59:46Z) - Learning Temporally Consistent Video Depth from Video Diffusion Priors [57.929828486615605]
本研究は,映像深度推定の課題に対処する。
我々は予測タスクを条件付き生成問題に再構成する。
これにより、既存のビデオ生成モデルに埋め込まれた事前の知識を活用することができる。
論文 参考訳(メタデータ) (2024-06-03T16:20:24Z) - SM4Depth: Seamless Monocular Metric Depth Estimation across Multiple Cameras and Scenes by One Model [72.0795843450604]
現在のアプローチでは、さまざまなシーンで一貫した精度を維持する上で、課題に直面している。
これらの手法は、何千万、あるいは数千万のデータからなる広範囲なデータセットに依存している。
本稿では室内と屋外の両方でシームレスに機能するSM$4$Depthについて述べる。
論文 参考訳(メタデータ) (2024-03-13T14:08:25Z) - FrozenRecon: Pose-free 3D Scene Reconstruction with Frozen Depth Models [67.96827539201071]
本稿では,3次元シーン再構成のための新しいテスト時間最適化手法を提案する。
本手法は5つのゼロショットテストデータセット上で,最先端のクロスデータセット再構築を実現する。
論文 参考訳(メタデータ) (2023-08-10T17:55:02Z) - ViDaS Video Depth-aware Saliency Network [40.08270905030302]
両ストリームの完全な畳み込みビデオ,Depth-Aware Saliency ネットワークである ViDaS を紹介する。
ビデオのサリエンシ予測を通じて、注目度モデリングの問題に対処する。
ネットワークは2つのビジュアルストリームで構成され、1つはRGBフレーム用、もう1つは奥行きフレーム用である。
エンドツーエンドでトレーニングされ、アイトラッキングデータを備えたさまざまなデータベースで評価される。
論文 参考訳(メタデータ) (2023-05-19T15:04:49Z) - Towards Accurate Reconstruction of 3D Scene Shape from A Single
Monocular Image [91.71077190961688]
まず、未知のスケールまで深さを予測し、単一の単眼画像からシフトする2段階のフレームワークを提案する。
次に、3Dポイントの雲のデータを利用して、奥行きの変化とカメラの焦点距離を予測し、3Dシーンの形状を復元します。
我々は9つの未知のデータセットで深度モデルを検証し、ゼロショット評価で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-28T16:20:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。