論文の概要: Neural Video Depth Stabilizer
- arxiv url: http://arxiv.org/abs/2307.08695v2
- Date: Thu, 10 Aug 2023 09:36:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-11 15:28:14.967078
- Title: Neural Video Depth Stabilizer
- Title(参考訳): ニューラルビデオ深度安定化装置
- Authors: Yiran Wang, Min Shi, Jiaqi Li, Zihao Huang, Zhiguo Cao, Jianming
Zhang, Ke Xian, Guosheng Lin
- Abstract要約: ビデオ深度推定は時間的に一貫した深度を推定することを目的としている。
いくつかの方法は、幾何学的制約と再射影制約を用いて、テスト時間中に単一画像深度モデルを微調整することで、時間的整合性を達成する。
本稿では,不整合深度推定を安定化し,余分な労力を伴わずに異なる単一画像深度モデルに適用可能なプラグアンドプレイフレームワークを提案する。
- 参考スコア(独自算出の注目度): 74.04508918791637
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video depth estimation aims to infer temporally consistent depth. Some
methods achieve temporal consistency by finetuning a single-image depth model
during test time using geometry and re-projection constraints, which is
inefficient and not robust. An alternative approach is to learn how to enforce
temporal consistency from data, but this requires well-designed models and
sufficient video depth data. To address these challenges, we propose a
plug-and-play framework called Neural Video Depth Stabilizer (NVDS) that
stabilizes inconsistent depth estimations and can be applied to different
single-image depth models without extra effort. We also introduce a large-scale
dataset, Video Depth in the Wild (VDW), which consists of 14,203 videos with
over two million frames, making it the largest natural-scene video depth
dataset to our knowledge. We evaluate our method on the VDW dataset as well as
two public benchmarks and demonstrate significant improvements in consistency,
accuracy, and efficiency compared to previous approaches. Our work serves as a
solid baseline and provides a data foundation for learning-based video depth
models. We will release our dataset and code for future research.
- Abstract(参考訳): ビデオ深度推定は時間的に一貫した深度を推定することを目的としている。
幾何的制約と再射影制約を用いて、単像深度モデルを微調整することで、時間的一貫性を実現する方法もある。
もうひとつのアプローチは、データから時間的一貫性を強制する方法を学ぶことだが、十分に設計されたモデルと十分なビデオ深度データが必要である。
これらの課題に対処するため,NVDS(Neural Video Depth Stabilizer)と呼ばれるプラグイン・アンド・プレイ・フレームワークを提案する。
また,200万フレーム以上のビデオ14,203本からなる大規模データセットであるvideo depth in the wild (vdw)を導入することで,我々の知識の中で最大の自然シーンビデオ深度データセットとなる。
提案手法をVDWデータセットと2つの公開ベンチマークで評価し,従来の手法と比較して,一貫性,精度,効率性を著しく向上したことを示す。
私たちの研究は、堅固なベースラインとして機能し、学習ベースのビデオ深度モデルのためのデータ基盤を提供します。
今後の研究のためにデータセットとコードをリリースします。
関連論文リスト
- FrozenRecon: Pose-free 3D Scene Reconstruction with Frozen Depth Models [67.96827539201071]
本稿では,3次元シーン再構成のための新しいテスト時間最適化手法を提案する。
本手法は5つのゼロショットテストデータセット上で,最先端のクロスデータセット再構築を実現する。
論文 参考訳(メタデータ) (2023-08-10T17:55:02Z) - Edge-aware Consistent Stereo Video Depth Estimation [3.611754783778107]
本稿では,高密度映像深度推定のための一貫した手法を提案する。
既存のモノラルな方法とは異なり、ステレオビデオに関係しています。
エッジ対応ステレオビデオモデルにより,深度マップを精度良く推定できることを示す。
論文 参考訳(メタデータ) (2023-05-04T08:30:04Z) - SC-DepthV3: Robust Self-supervised Monocular Depth Estimation for
Dynamic Scenes [58.89295356901823]
自己監督型単眼深度推定は静的な場面で顕著な結果を示した。
トレーニングネットワークのマルチビュー整合性の仮定に依存するが、動的オブジェクト領域に違反する。
単一画像の深度を事前に生成するための,外部トレーニング付き単眼深度推定モデルを提案する。
我々のモデルは、高度にダイナミックなシーンのモノクロビデオからトレーニングしても、シャープで正確な深度マップを予測できる。
論文 参考訳(メタデータ) (2022-11-07T16:17:47Z) - Towards Accurate Reconstruction of 3D Scene Shape from A Single
Monocular Image [91.71077190961688]
まず、未知のスケールまで深さを予測し、単一の単眼画像からシフトする2段階のフレームワークを提案する。
次に、3Dポイントの雲のデータを利用して、奥行きの変化とカメラの焦点距離を予測し、3Dシーンの形状を復元します。
我々は9つの未知のデータセットで深度モデルを検証し、ゼロショット評価で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-28T16:20:14Z) - Globally Consistent Video Depth and Pose Estimation with Efficient
Test-Time Training [15.46056322267856]
我々は、動きから学習に基づくビデオ構造(SfM)のグローバルな一貫した方法であるGCVDを提案する。
GCVDはコンパクトなポーズグラフをCNNベースの最適化に統合し、効率的な選択機構からグローバルに一貫した結果を得る。
実験の結果,GCVDは深さと姿勢の両面において最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2022-08-04T15:12:03Z) - DynOcc: Learning Single-View Depth from Dynamic Occlusion Cues [37.837552043766166]
In-the-wild シーンからなる第1の深度データセット DynOcc を導入する。
提案手法は,これらのダイナミックシーンの手がかりを利用して,選択したビデオフレームのポイント間の深さ関係を推定する。
DynOccデータセットには、91Kフレームのさまざまなビデオセットから22Mの深さペアが含まれています。
論文 参考訳(メタデータ) (2021-03-30T22:17:36Z) - Robust Consistent Video Depth Estimation [65.53308117778361]
本稿では,単眼映像からカメラのカメラポーズと密集した深度マップを推定するアルゴリズムを提案する。
本手法は,(1)低周波大規模アライメントのためのフレキシブルな変形-スプラインと(2)細部奥行き詳細の高周波アライメントのための幾何認識深度フィルタリングとを組み合わせた手法である。
従来の手法とは対照的に, カメラのポーズを入力として必要とせず, かなりの音量, 揺動, 動きのぼやき, 転がりシャッター変形を含む携帯のハンドヘルドキャプチャに頑健な再構成を実現する。
論文 参考訳(メタデータ) (2020-12-10T18:59:48Z) - DiverseDepth: Affine-invariant Depth Prediction Using Diverse Data [110.29043712400912]
本稿では,アフィン変換に至るまでの多様なシーンにおける高品質な深度を予測できるモノクロ画像を用いた深度推定手法を提案する。
実験の結果,提案手法は,ゼロショットテスト設定と大差で8つのデータセットの先行手法より優れていた。
論文 参考訳(メタデータ) (2020-02-03T05:38:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。