Fugu-MT 論文翻訳(概要): Neural Video Depth Stabilizer

論文の概要: Neural Video Depth Stabilizer

arxiv url: http://arxiv.org/abs/2307.08695v2
Date: Thu, 10 Aug 2023 09:36:06 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-11 15:28:14.967078
Title: Neural Video Depth Stabilizer
Title（参考訳）: ニューラルビデオ深度安定化装置
Authors: Yiran Wang, Min Shi, Jiaqi Li, Zihao Huang, Zhiguo Cao, Jianming Zhang, Ke Xian, Guosheng Lin
Abstract要約: ビデオ深度推定は時間的に一貫した深度を推定することを目的としている。いくつかの方法は、幾何学的制約と再射影制約を用いて、テスト時間中に単一画像深度モデルを微調整することで、時間的整合性を達成する。本稿では,不整合深度推定を安定化し,余分な労力を伴わずに異なる単一画像深度モデルに適用可能なプラグアンドプレイフレームワークを提案する。
参考スコア（独自算出の注目度）: 74.04508918791637
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Video depth estimation aims to infer temporally consistent depth. Some methods achieve temporal consistency by finetuning a single-image depth model during test time using geometry and re-projection constraints, which is inefficient and not robust. An alternative approach is to learn how to enforce temporal consistency from data, but this requires well-designed models and sufficient video depth data. To address these challenges, we propose a plug-and-play framework called Neural Video Depth Stabilizer (NVDS) that stabilizes inconsistent depth estimations and can be applied to different single-image depth models without extra effort. We also introduce a large-scale dataset, Video Depth in the Wild (VDW), which consists of 14,203 videos with over two million frames, making it the largest natural-scene video depth dataset to our knowledge. We evaluate our method on the VDW dataset as well as two public benchmarks and demonstrate significant improvements in consistency, accuracy, and efficiency compared to previous approaches. Our work serves as a solid baseline and provides a data foundation for learning-based video depth models. We will release our dataset and code for future research.
Abstract（参考訳）: ビデオ深度推定は時間的に一貫した深度を推定することを目的としている。幾何的制約と再射影制約を用いて、単像深度モデルを微調整することで、時間的一貫性を実現する方法もある。もうひとつのアプローチは、データから時間的一貫性を強制する方法を学ぶことだが、十分に設計されたモデルと十分なビデオ深度データが必要である。これらの課題に対処するため,NVDS(Neural Video Depth Stabilizer)と呼ばれるプラグイン・アンド・プレイ・フレームワークを提案する。また,200万フレーム以上のビデオ14,203本からなる大規模データセットであるvideo depth in the wild (vdw)を導入することで,我々の知識の中で最大の自然シーンビデオ深度データセットとなる。提案手法をVDWデータセットと2つの公開ベンチマークで評価し,従来の手法と比較して,一貫性,精度,効率性を著しく向上したことを示す。私たちの研究は、堅固なベースラインとして機能し、学習ベースのビデオ深度モデルのためのデータ基盤を提供します。今後の研究のためにデータセットとコードをリリースします。

関連論文リスト

FlashDepth: Real-time Streaming Video Depth Estimation at 2K Resolution [50.55876151973996]
ビデオ深度推定モデルは,(1)フレーム間の精度,(2)高解像度深度マップの作成,(3)リアルタイムストリーミングをサポートする。提案するFlashDepthは,2044x1148ストリーミングビデオの深さ推定を24FPSで行うことで,3つの要件をすべて満たす手法である。
論文参考訳（メタデータ） (2025-04-09T17:59:31Z)
Video Depth Anything: Consistent Depth Estimation for Super-Long Videos [60.857723250653976]
超長ビデオにおける高品質で一貫した深度推定のためのビデオ深度推定法を提案する。我々のモデルは、Depth Anything V2と同様、ビデオ深度とラベルなし画像の合同データセットに基づいて訓練されている。提案手法は,ゼロショット映像深度推定における新しい最先端技術である。
論文参考訳（メタデータ） (2025-01-21T18:53:30Z)
Align3R: Aligned Monocular Depth Estimation for Dynamic Videos [50.28715151619659]
動的ビデオの時間的一貫した深度マップを推定するために,Align3Rと呼ばれる新しいビデオ深度推定法を提案する。我々のキーとなる考え方は、最近のDUSt3Rモデルを用いて、異なる時間ステップの単分子深度マップを整列させることである。実験により、Align3Rは一貫したビデオ深度を推定し、カメラはベースライン法よりも優れた性能を持つ単眼ビデオのポーズを示す。
論文参考訳（メタデータ） (2024-12-04T07:09:59Z)
Video Depth without Video Models [34.11454612504574]
ビデオ深度推定は、各フレームに濃密な深度を推定することにより、単眼のビデオクリップを3Dに引き上げる。単一画像潜在拡散モデル(LDM)を最先端のビデオ深度推定器にする方法を示す。このモデルはRollingDepthと呼ばれ、(i)シングルイメージのLCMから派生したマルチフレーム深度推定器と、非常に短いビデオスニペットを深度スニペットにマッピングする。
論文参考訳（メタデータ） (2024-11-28T14:50:14Z)
Depth Estimation From Monocular Images With Enhanced Encoder-Decoder Architecture [0.0]
本稿では,エンコーダデコーダアーキテクチャを用いた新しい深層学習手法を提案する。 Inception-ResNet-v2モデルはエンコーダとして利用される。 NYU Depth V2データセットの実験結果は、我々のモデルが最先端のパフォーマンスを達成することを示す。
論文参考訳（メタデータ） (2024-10-15T13:46:19Z)
Depth Any Video with Scalable Synthetic Data [98.42356740981839]
多様な合成環境からリアルタイムのビデオ深度データをキャプチャする,スケーラブルな合成データパイプラインを開発した。我々は、生成的ビデオ拡散モデルの強力な先駆を生かして、実世界の動画を効果的に処理する。我々のモデルは、空間的精度と時間的一貫性の観点から、過去のすべての生成深度モデルより優れている。
論文参考訳（メタデータ） (2024-10-14T17:59:46Z)
Learning Temporally Consistent Video Depth from Video Diffusion Priors [57.929828486615605]
本研究は,映像深度推定の課題に対処する。我々は予測タスクを条件付き生成問題に再構成する。これにより、既存のビデオ生成モデルに埋め込まれた事前の知識を活用することができる。
論文参考訳（メタデータ） (2024-06-03T16:20:24Z)
SM4Depth: Seamless Monocular Metric Depth Estimation across Multiple Cameras and Scenes by One Model [72.0795843450604]
現在のアプローチでは、さまざまなシーンで一貫した精度を維持する上で、課題に直面している。これらの手法は、何千万、あるいは数千万のデータからなる広範囲なデータセットに依存している。本稿では室内と屋外の両方でシームレスに機能するSM$4$Depthについて述べる。
論文参考訳（メタデータ） (2024-03-13T14:08:25Z)
FrozenRecon: Pose-free 3D Scene Reconstruction with Frozen Depth Models [67.96827539201071]
本稿では,3次元シーン再構成のための新しいテスト時間最適化手法を提案する。本手法は5つのゼロショットテストデータセット上で,最先端のクロスデータセット再構築を実現する。
論文参考訳（メタデータ） (2023-08-10T17:55:02Z)
ViDaS Video Depth-aware Saliency Network [40.08270905030302]
両ストリームの完全な畳み込みビデオ,Depth-Aware Saliency ネットワークである ViDaS を紹介する。ビデオのサリエンシ予測を通じて、注目度モデリングの問題に対処する。ネットワークは2つのビジュアルストリームで構成され、1つはRGBフレーム用、もう1つは奥行きフレーム用である。エンドツーエンドでトレーニングされ、アイトラッキングデータを備えたさまざまなデータベースで評価される。
論文参考訳（メタデータ） (2023-05-19T15:04:49Z)
Towards Accurate Reconstruction of 3D Scene Shape from A Single Monocular Image [91.71077190961688]
まず、未知のスケールまで深さを予測し、単一の単眼画像からシフトする2段階のフレームワークを提案する。次に、3Dポイントの雲のデータを利用して、奥行きの変化とカメラの焦点距離を予測し、3Dシーンの形状を復元します。我々は9つの未知のデータセットで深度モデルを検証し、ゼロショット評価で最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2022-08-28T16:20:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。