Fugu-MT 論文翻訳(概要): Buffer Anytime: Zero-Shot Video Depth and Normal from Image Priors

論文の概要: Buffer Anytime: Zero-Shot Video Depth and Normal from Image Priors

arxiv url: http://arxiv.org/abs/2411.17249v1
Date: Tue, 26 Nov 2024 09:28:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:51.083762
Title: Buffer Anytime: Zero-Shot Video Depth and Normal from Image Priors
Title（参考訳）: Buffer Anytime:ゼロショット動画の奥行きと画像からの正規化
Authors: Zhengfei Kuang, Tianyuan Zhang, Kai Zhang, Hao Tan, Sai Bi, Yiwei Hu, Zexiang Xu, Milos Hasan, Gordon Wetzstein, Fujun Luan,
Abstract要約: Buffer Anytimeは、ビデオから深さと正規マップ(幾何バッファと呼ばれる)を推定するためのフレームワークです。時間的整合性制約を持つ単一画像の先行値を活用することによって,高品質なビデオバッファ推定を実証する。
参考スコア（独自算出の注目度）: 54.8852848659663
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present Buffer Anytime, a framework for estimation of depth and normal maps (which we call geometric buffers) from video that eliminates the need for paired video--depth and video--normal training data. Instead of relying on large-scale annotated video datasets, we demonstrate high-quality video buffer estimation by leveraging single-image priors with temporal consistency constraints. Our zero-shot training strategy combines state-of-the-art image estimation models based on optical flow smoothness through a hybrid loss function, implemented via a lightweight temporal attention architecture. Applied to leading image models like Depth Anything V2 and Marigold-E2E-FT, our approach significantly improves temporal consistency while maintaining accuracy. Experiments show that our method not only outperforms image-based approaches but also achieves results comparable to state-of-the-art video models trained on large-scale paired video datasets, despite using no such paired video data.
Abstract（参考訳）: ビデオから深度と正規マップ(幾何バッファと呼ぶ)を推定するためのフレームワークであるBuffer Anytimeを提示する。大規模なアノテートされたビデオデータセットに頼る代わりに、時間的一貫性の制約のある単一画像の先行値を活用することによって、高品質なビデオバッファ推定を実演する。我々のゼロショットトレーニング戦略は、軽量な時間的注意アーキテクチャを用いて実装されたハイブリッド損失関数による光流の滑らかさに基づく最先端画像推定モデルを組み合わせる。 Depth Anything V2 や Marigold-E2E-FT といった主要画像モデルに適用することにより,精度を維持しながら時間的一貫性を著しく向上する。実験の結果,この手法は画像ベースアプローチに勝るだけでなく,大規模なペアビデオデータセットでトレーニングした最先端のビデオモデルに匹敵する結果が得られることがわかった。

関連論文リスト

StableDPT: Temporal Stable Monocular Video Depth Estimation [14.453483279783908]
本稿では,最新の画像ベース(深度)推定モデルをビデオ処理に適用する手法を提案する。我々のアーキテクチャは、市販のViTエンコーダ上に構築され、Dense Prediction Transformer (DPT) ヘッドが強化されている。複数のベンチマークデータセットに対する評価では、リアルタイムシナリオにおける時間的一貫性の向上、最先端のパフォーマンスの競争力、および上位2倍高速な処理が示されている。
論文参考訳（メタデータ） (2026-01-06T08:02:14Z)
Video Depth Anything: Consistent Depth Estimation for Super-Long Videos [60.857723250653976]
超長ビデオにおける高品質で一貫した深度推定のためのビデオ深度推定法を提案する。我々のモデルは、Depth Anything V2と同様、ビデオ深度とラベルなし画像の合同データセットに基づいて訓練されている。提案手法は,ゼロショット映像深度推定における新しい最先端技術である。
論文参考訳（メタデータ） (2025-01-21T18:53:30Z)
Identifying and Solving Conditional Image Leakage in Image-to-Video Diffusion Model [31.70050311326183]
拡散モデルは、予想より少ない動きでビデオを生成する傾向がある。推論とトレーニングの両方の観点からこの問題に対処します。提案手法は,より低い誤差で高い動作スコアを生成することにより,ベースラインを上回ります。
論文参考訳（メタデータ） (2024-06-22T04:56:16Z)
Learning Temporally Consistent Video Depth from Video Diffusion Priors [57.929828486615605]
本研究は,映像深度推定の課題に対処する。我々は予測タスクを条件付き生成問題に再構成する。これにより、既存のビデオ生成モデルに埋め込まれた事前の知識を活用することができる。
論文参考訳（メタデータ） (2024-06-03T16:20:24Z)
A Simple Recipe for Contrastively Pre-training Video-First Encoders Beyond 16 Frames [54.90226700939778]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。 1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文参考訳（メタデータ） (2023-12-12T16:10:19Z)
Video Demoireing with Relation-Based Temporal Consistency [68.20281109859998]
カラー歪みのように見えるモアレパターンは、デジタルカメラでスクリーンを撮影する際に、画像と映像の画質を著しく劣化させる。我々は、このような望ましくないモアレパターンをビデオで除去する方法を研究している。
論文参考訳（メタデータ） (2022-04-06T17:45:38Z)
Deep Video Prior for Video Consistency and Propagation [58.250209011891904]
視覚的ビデオの時間的整合性に対する新規で一般的なアプローチを提案する。提案手法は,大規模なデータセットではなく,オリジナルビデオとプロセッシングビデオのペアでのみ訓練される。我々は、Deep Video Priorでビデオ上で畳み込みニューラルネットワークをトレーニングすることで、時間的一貫性を実現することができることを示す。
論文参考訳（メタデータ） (2022-01-27T16:38:52Z)
A Plug-and-play Scheme to Adapt Image Saliency Deep Model for Video Data [54.198279280967185]
本稿では,ビデオデータに対して予め訓練された画像の鮮度深度モデルを弱めに再学習する新しいプラグイン・アンド・プレイ方式を提案する。本手法は,既訓練画像の深度モデルに適応して高品質な映像の鮮度検出を実現するのに有効である。
論文参考訳（メタデータ） (2020-08-02T13:23:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。