論文の概要: Video Depth Propagation
- arxiv url: http://arxiv.org/abs/2512.10725v1
- Date: Thu, 11 Dec 2025 15:08:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.43379
- Title: Video Depth Propagation
- Title(参考訳): Video Depth Propagation
- Authors: Luigi Piccinelli, Thiemo Wandel, Christos Sakaridis, Wim Abbeloos, Luc Van Gool,
- Abstract要約: 既存の手法は単純なフレーム・バイ・フレームの単分子モデルに依存しており、時間的矛盾と不正確な結果をもたらす。
本稿では,オンラインビデオパイプラインを効果的に活用し,深い特徴伝達を行うVeloDepthを提案する。
構造的に時間的整合性を強制し, 連続するフレーム間に安定した深さ予測を行い, 効率を向上する。
- 参考スコア(独自算出の注目度): 54.523028170425256
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Depth estimation in videos is essential for visual perception in real-world applications. However, existing methods either rely on simple frame-by-frame monocular models, leading to temporal inconsistencies and inaccuracies, or use computationally demanding temporal modeling, unsuitable for real-time applications. These limitations significantly restrict general applicability and performance in practical settings. To address this, we propose VeloDepth, an efficient and robust online video depth estimation pipeline that effectively leverages spatiotemporal priors from previous depth predictions and performs deep feature propagation. Our method introduces a novel Propagation Module that refines and propagates depth features and predictions using flow-based warping coupled with learned residual corrections. In addition, our design structurally enforces temporal consistency, resulting in stable depth predictions across consecutive frames with improved efficiency. Comprehensive zero-shot evaluation on multiple benchmarks demonstrates the state-of-the-art temporal consistency and competitive accuracy of VeloDepth, alongside its significantly faster inference compared to existing video-based depth estimators. VeloDepth thus provides a practical, efficient, and accurate solution for real-time depth estimation suitable for diverse perception tasks. Code and models are available at https://github.com/lpiccinelli-eth/velodepth
- Abstract(参考訳): ビデオの深さ推定は、実世界のアプリケーションにおける視覚的知覚に不可欠である。
しかし、既存の手法は単純なフレーム・バイ・フレームの単分子モデルに依存し、時間的矛盾と不正確な結果をもたらすか、あるいはリアルタイムアプリケーションには適さない時間的モデリングを計算的に要求する。
これらの制限は、実用的な設定における一般的な適用性と性能を著しく制限する。
これを解決するために,VeloDepthを提案する。VeloDepthは,従来の深度予測から時空間推定を効果的に活用し,深い特徴伝達を行う,効率的で堅牢なオンラインビデオ深度推定パイプラインである。
本手法では,フローベースワープと学習された残差補正を併用して,深度特性と予測を洗練・伝播する新しいプロパゲーションモジュールを提案する。
さらに,本設計では,時間的整合性(時間的整合性)を考慮し,連続するフレーム間を安定的に予測し,効率を向上する。
複数のベンチマークによる総合的なゼロショット評価は、VeloDepthの最先端の時間的一貫性と競合精度を示し、既存のビデオベース深度推定器と比較してかなり高速な推論である。
従って、VeloDepthは多様な知覚タスクに適したリアルタイム深度推定のための実用的で効率的で正確なソリューションを提供する。
コードとモデルはhttps://github.com/lpiccinelli-eth/velodepthで公開されている。
関連論文リスト
- MEDeA: Multi-view Efficient Depth Adjustment [45.90423821963144]
MEDeAは、既存のテスト時間アプローチよりも桁違いに高速な効率的な多視点テスト時間深度調整法である。
提案手法は, TUM RGB-D, 7Scenes, ScanNet のベンチマークに新たな最先端性を設定し,ARKitScenes データセットから取得したスマートフォンデータの処理に成功している。
論文 参考訳(メタデータ) (2024-06-17T19:39:13Z) - Learning Temporally Consistent Video Depth from Video Diffusion Priors [62.36887303063542]
本研究は,ストリーム映像深度推定の課題に対処する。
フレームやクリップ間でコンテキスト情報を共有することは、時間的一貫性を育む上で重要である、と我々は主張する。
本稿では,任意の長さの動画に対して一貫したコンテキスト認識学習と推論戦略を提案し,クロスクリップなコンテキストを提供する。
論文 参考訳(メタデータ) (2024-06-03T16:20:24Z) - NVDS+: Towards Efficient and Versatile Neural Stabilizer for Video Depth Estimation [58.21817572577012]
ビデオ深度推定は時間的に一貫した深度を推定することを目的としている。
プラグ・アンド・プレイ方式で様々な単一画像モデルから推定される不整合深さを安定化するNVDS+を導入する。
このデータセットには、200万フレーム以上の14,203本のビデオが含まれている。
論文 参考訳(メタデータ) (2023-07-17T17:57:01Z) - Robust Monocular Localization of Drones by Adapting Domain Maps to Depth
Prediction Inaccuracies [0.4523163728236143]
本稿では,深層学習に基づく深度予測とベイズフィルタリングに基づくポーズ推論を併用して,新しい単眼位置推定フレームワークを提案する。
提案するクロスモーダル・フレームワークは,モデルスケーラビリティと環境変動に対する耐性に関して,ディープラーニングのみの予測を著しく上回っている。
論文 参考訳(メタデータ) (2022-10-27T15:48:53Z) - Globally Consistent Video Depth and Pose Estimation with Efficient
Test-Time Training [15.46056322267856]
我々は、動きから学習に基づくビデオ構造(SfM)のグローバルな一貫した方法であるGCVDを提案する。
GCVDはコンパクトなポーズグラフをCNNベースの最適化に統合し、効率的な選択機構からグローバルに一貫した結果を得る。
実験の結果,GCVDは深さと姿勢の両面において最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2022-08-04T15:12:03Z) - Cascaded Deep Video Deblurring Using Temporal Sharpness Prior [88.98348546566675]
提案アルゴリズムは主に,中間潜水フレームと潜水フレームの復元ステップから光フローを推定する。
まず、中間潜伏フレームから光フローを推定し、推定した光フローに基づいて潜伏フレームを復元する深部CNNモデルを開発する。
ビデオデブロアリングのドメイン知識を探索することで、深層CNNモデルをよりコンパクトで効率的なものにすることができることを示す。
論文 参考訳(メタデータ) (2020-04-06T09:13:49Z) - Efficient Semantic Video Segmentation with Per-frame Inference [117.97423110566963]
本研究では,フレームごとの効率的なセマンティックビデオセグメンテーションを推論プロセス中に処理する。
そこで我々は,コンパクトモデルと大規模モデルのパフォーマンスギャップを狭めるために,新しい知識蒸留法を設計した。
論文 参考訳(メタデータ) (2020-02-26T12:24:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。