論文の概要: StableDPT: Temporal Stable Monocular Video Depth Estimation
- arxiv url: http://arxiv.org/abs/2601.02793v1
- Date: Tue, 06 Jan 2026 08:02:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:12.85407
- Title: StableDPT: Temporal Stable Monocular Video Depth Estimation
- Title(参考訳): 静止DPT: 時間的安定な単眼ビデオ深度推定
- Authors: Ivan Sobko, Hayko Riemenschneider, Markus Gross, Christopher Schroers,
- Abstract要約: 本稿では,最新の画像ベース(深度)推定モデルをビデオ処理に適用する手法を提案する。
我々のアーキテクチャは、市販のViTエンコーダ上に構築され、Dense Prediction Transformer (DPT) ヘッドが強化されている。
複数のベンチマークデータセットに対する評価では、リアルタイムシナリオにおける時間的一貫性の向上、最先端のパフォーマンスの競争力、および上位2倍高速な処理が示されている。
- 参考スコア(独自算出の注目度): 14.453483279783908
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Applying single image Monocular Depth Estimation (MDE) models to video sequences introduces significant temporal instability and flickering artifacts. We propose a novel approach that adapts any state-of-the-art image-based (depth) estimation model for video processing by integrating a new temporal module - trainable on a single GPU in a few days. Our architecture StableDPT builds upon an off-the-shelf Vision Transformer (ViT) encoder and enhances the Dense Prediction Transformer (DPT) head. The core of our contribution lies in the temporal layers within the head, which use an efficient cross-attention mechanism to integrate information from keyframes sampled across the entire video sequence. This allows the model to capture global context and inter-frame relationships leading to more accurate and temporally stable depth predictions. Furthermore, we propose a novel inference strategy for processing videos of arbitrary length avoiding the scale misalignment and redundant computations associated with overlapping windows used in other methods. Evaluations on multiple benchmark datasets demonstrate improved temporal consistency, competitive state-of-the-art performance and on top 2x faster processing in real-world scenarios.
- Abstract(参考訳): 単一画像単眼深度推定(MDE)モデルをビデオシーケンスに適用すると、時間的不安定性とフリッカリングアーティファクトが発生する。
本稿では,新しい時間モジュールを統合することで,最新の画像ベース(深度)推定モデルをビデオ処理に適用する,新しいアプローチを提案する。
我々のアーキテクチャであるStableDPTは、市販のViTエンコーダ上に構築され、Dense Prediction Transformer (DPT) のヘッドが強化されている。
私たちのコントリビューションのコアは、ビデオシーケンス全体にわたってサンプリングされたキーフレームからの情報を統合するために、効率的なクロスアテンションメカニズムを使用して、ヘッド内の時間層にあります。
これにより、モデルがグローバルなコンテキストとフレーム間の関係をキャプチャし、より正確で時間的に安定した深度予測につながる。
さらに,他の手法で用いられる重なり合うウィンドウに付随するスケールのミスアライメントや冗長な計算を避けるために,任意の長さの動画を処理するための新しい推論手法を提案する。
複数のベンチマークデータセットの評価では、リアルタイムシナリオにおける時間的一貫性の向上、最先端のパフォーマンスの競争力、および2倍高速な処理が示されている。
関連論文リスト
- Video Depth Propagation [54.523028170425256]
既存の手法は単純なフレーム・バイ・フレームの単分子モデルに依存しており、時間的矛盾と不正確な結果をもたらす。
本稿では,オンラインビデオパイプラインを効果的に活用し,深い特徴伝達を行うVeloDepthを提案する。
構造的に時間的整合性を強制し, 連続するフレーム間に安定した深さ予測を行い, 効率を向上する。
論文 参考訳(メタデータ) (2025-12-11T15:08:37Z) - End-to-End Multi-Person Pose Estimation with Pose-Aware Video Transformer [7.19764062839405]
ビデオにおける多人数2Dポーズ推定のためのエンドツーエンドフレームワークを提案する。
鍵となる課題は、複雑な時間軌道と重なり合う時間軌道の下で、個人をフレーム全体で関連付けることである。
本稿では,フレーム内関係と時間デコーダのポーズをモデル化するための空間エンコーダを備えた新しいPose-Aware VideoErEr Network(PAVE-Net)を提案する。
論文 参考訳(メタデータ) (2025-11-17T10:19:35Z) - MiVID: Multi-Strategic Self-Supervision for Video Frame Interpolation using Diffusion Model [2.9795035162522194]
この記事では、ビデオレンダリングのための軽量で自己監督型の拡散ベースのフレームワークであるMiVIDを紹介する。
本モデルでは,3次元U-Netバックボーンとトランスフォーマスタイルの時間的注意を組み合わせることで,明示的な動き推定の必要性を解消する。
この結果から,MiVIDは50エポックしか得られず,教師付きベースラインと競合することがわかった。
論文 参考訳(メタデータ) (2025-11-08T14:10:04Z) - ResidualViT for Efficient Temporally Dense Video Encoding [66.57779133786131]
我々は,時間的に密集したタスクに対する計算機能のコスト削減に3つの貢献をしている。
まず、ビデオの時間的冗長性を活用するビジョントランスフォーマー(ViT)アーキテクチャ、ResidualViTを紹介する。
第2に,原基礎モデルのフレームレベルの特徴を近似する軽量蒸留方式を提案する。
論文 参考訳(メタデータ) (2025-09-16T17:12:23Z) - D-NPC: Dynamic Neural Point Clouds for Non-Rigid View Synthesis from Monocular Video [53.83936023443193]
本稿では,スマートフォンのキャプチャなどのモノクロ映像から動的に新しいビューを合成する手法を導入することにより,この分野に貢献する。
我々のアプローチは、局所的な幾何学と外観を別個のハッシュエンコードされたニューラル特徴グリッドにエンコードする暗黙の時間条件のポイントクラウドである、$textitdynamic Neural point cloudとして表現されている。
論文 参考訳(メタデータ) (2024-06-14T14:35:44Z) - Patch Spatio-Temporal Relation Prediction for Video Anomaly Detection [19.643936110623653]
ビデオ異常検出(VAD)は、特定のコンテキストと時間枠内の異常を識別することを目的としている。
近年の深層学習に基づくVADモデルは,高解像度フレームの生成によって有望な結果を示した。
本稿では, パッチ間関係予測タスクを通じて, VADの自己教師型学習手法を提案する。
論文 参考訳(メタデータ) (2024-03-28T03:07:16Z) - UMMAFormer: A Universal Multimodal-adaptive Transformer Framework for
Temporal Forgery Localization [16.963092523737593]
本稿では,時間的フォージェリー・ローカライゼーション(TFL)のための新しいフレームワークを提案し,マルチモーダル適応によるフォルジェリー・セグメントの予測を行う。
提案手法は,Lav-DF,TVIL,Psyndなど,ベンチマークデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2023-08-28T08:20:30Z) - STDepthFormer: Predicting Spatio-temporal Depth from Video with a
Self-supervised Transformer Model [0.0]
ビデオ入力と空間的時間的注意ネットワークから,映像のフレーム列を同時に予測する自己教師型モデルを提案する。
提案モデルでは,物体形状やテクスチャなどの事前のシーン知識を,単一画像深度推定法に類似した手法で活用する。
マルチオブジェクト検出、セグメンテーション、トラッキングを含む複雑なモデルを必要とするのではなく、暗黙的にシーン内のオブジェクトの動きを予測することができる。
論文 参考訳(メタデータ) (2023-03-02T12:22:51Z) - Fast Non-Rigid Radiance Fields from Monocularized Data [66.74229489512683]
本稿では,不規則に変形するシーンを360度内向きに合成する新しい手法を提案する。
提案手法のコアとなるのは, 空間情報と時間情報の処理を分離し, 訓練と推論を高速化する効率的な変形モジュール, 2) 高速ハッシュ符号化ニューラルラジオアンスフィールドとしての標準シーンを表す静的モジュールである。
どちらの場合も,本手法は従来の手法よりもはるかに高速で,7分未満で収束し,1K解像度でリアルタイムのフレームレートを実現するとともに,生成した新規なビューに対して高い視覚的精度が得られる。
論文 参考訳(メタデータ) (2022-12-02T18:51:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。