論文の概要: FlashDepth: Real-time Streaming Video Depth Estimation at 2K Resolution
- arxiv url: http://arxiv.org/abs/2504.07093v1
- Date: Wed, 09 Apr 2025 17:59:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-10 13:06:01.407485
- Title: FlashDepth: Real-time Streaming Video Depth Estimation at 2K Resolution
- Title(参考訳): FlashDepth:2K解像度でのリアルタイムストリーミングビデオ深度推定
- Authors: Gene Chou, Wenqi Xian, Guandao Yang, Mohamed Abdelfattah, Bharath Hariharan, Noah Snavely, Ning Yu, Paul Debevec,
- Abstract要約: ビデオ深度推定モデルは,(1)フレーム間の精度,(2)高解像度深度マップの作成,(3)リアルタイムストリーミングをサポートする。
提案するFlashDepthは,2044x1148ストリーミングビデオの深さ推定を24FPSで行うことで,3つの要件をすべて満たす手法である。
- 参考スコア(独自算出の注目度): 50.55876151973996
- License:
- Abstract: A versatile video depth estimation model should (1) be accurate and consistent across frames, (2) produce high-resolution depth maps, and (3) support real-time streaming. We propose FlashDepth, a method that satisfies all three requirements, performing depth estimation on a 2044x1148 streaming video at 24 FPS. We show that, with careful modifications to pretrained single-image depth models, these capabilities are enabled with relatively little data and training. We evaluate our approach across multiple unseen datasets against state-of-the-art depth models, and find that ours outperforms them in terms of boundary sharpness and speed by a significant margin, while maintaining competitive accuracy. We hope our model will enable various applications that require high-resolution depth, such as video editing, and online decision-making, such as robotics.
- Abstract(参考訳): ビデオ深度推定モデルでは,(1)フレーム間の精度と一貫性,(2)高分解能深度マップの作成,(3)リアルタイムストリーミングのサポートが望まれる。
提案するFlashDepthは,2044x1148ストリーミングビデオの深さ推定を24FPSで行うことで,3つの要件をすべて満たす手法である。
事前訓練された単一画像深度モデルに注意深い修正を加えることで、これらの機能は比較的少ないデータとトレーニングで実現できることを示す。
我々は、最先端の深度モデルに対する複数の未知のデータセットに対するアプローチを評価し、競争精度を維持しながら、境界のシャープネスと速度の点でそれらを上回ります。
我々は,ビデオ編集やロボット工学などのオンライン意思決定など,高度な深度を必要とする様々なアプリケーションの実現を期待する。
関連論文リスト
- Video Depth Anything: Consistent Depth Estimation for Super-Long Videos [60.857723250653976]
超長ビデオにおける高品質で一貫した深度推定のためのビデオ深度推定法を提案する。
我々のモデルは、Depth Anything V2と同様、ビデオ深度とラベルなし画像の合同データセットに基づいて訓練されている。
提案手法は,ゼロショット映像深度推定における新しい最先端技術である。
論文 参考訳(メタデータ) (2025-01-21T18:53:30Z) - Align3R: Aligned Monocular Depth Estimation for Dynamic Videos [50.28715151619659]
動的ビデオの時間的一貫した深度マップを推定するために,Align3Rと呼ばれる新しいビデオ深度推定法を提案する。
我々のキーとなる考え方は、最近のDUSt3Rモデルを用いて、異なる時間ステップの単分子深度マップを整列させることである。
実験により、Align3Rは一貫したビデオ深度を推定し、カメラはベースライン法よりも優れた性能を持つ単眼ビデオのポーズを示す。
論文 参考訳(メタデータ) (2024-12-04T07:09:59Z) - Video Depth without Video Models [34.11454612504574]
ビデオ深度推定は、各フレームに濃密な深度を推定することにより、単眼のビデオクリップを3Dに引き上げる。
単一画像潜在拡散モデル(LDM)を最先端のビデオ深度推定器にする方法を示す。
このモデルはRollingDepthと呼ばれ、(i)シングルイメージのLCMから派生したマルチフレーム深度推定器と、非常に短いビデオスニペットを深度スニペットにマッピングする。
論文 参考訳(メタデータ) (2024-11-28T14:50:14Z) - Depth Any Video with Scalable Synthetic Data [98.42356740981839]
多様な仮想環境からリアルタイムのビデオ深度データをキャプチャする,スケーラブルな合成データパイプラインを開発した。
我々は、生成的ビデオ拡散モデルの強力な先駆を生かして、実世界の動画を効果的に処理する。
我々のモデルは、空間的精度と時間的一貫性の観点から、過去のすべての生成深度モデルより優れている。
論文 参考訳(メタデータ) (2024-10-14T17:59:46Z) - NVDS+: Towards Efficient and Versatile Neural Stabilizer for Video Depth Estimation [58.21817572577012]
ビデオ深度推定は時間的に一貫した深度を推定することを目的としている。
プラグ・アンド・プレイ方式で様々な単一画像モデルから推定される不整合深さを安定化するNVDS+を導入する。
このデータセットには、200万フレーム以上の14,203本のビデオが含まれている。
論文 参考訳(メタデータ) (2023-07-17T17:57:01Z) - Shakes on a Plane: Unsupervised Depth Estimation from Unstabilized
Photography [54.36608424943729]
2秒で取得した12メガピクセルのRAWフレームの「長バースト」では,自然手震動のみからの視差情報で高品質のシーン深度を回復できることが示されている。
我々は、長時間バーストデータにニューラルRGB-D表現を適合させるテスト時間最適化手法を考案し、シーン深度とカメラモーションを同時に推定する。
論文 参考訳(メタデータ) (2022-12-22T18:54:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。