論文の概要: Temporal-Consistent Video Restoration with Pre-trained Diffusion Models
- arxiv url: http://arxiv.org/abs/2503.14863v1
- Date: Wed, 19 Mar 2025 03:41:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 17:45:40.856573
- Title: Temporal-Consistent Video Restoration with Pre-trained Diffusion Models
- Title(参考訳): 事前学習拡散モデルを用いた時間一貫性ビデオ再生
- Authors: Hengkang Wang, Yang Liu, Huidong Liu, Chien-Chih Wang, Yanhui Guo, Hongdong Li, Bryan Wang, Ju Sun,
- Abstract要約: ビデオ復元(VR)は、劣化したビデオから高品質なビデオを復元することを目的としている。
事前訓練拡散モデル(DM)を用いた最近のゼロショットVR法は,逆拡散時の近似誤差と時間的整合性の欠如に悩まされている。
本稿では,DMのシード空間におけるビデオフレームを直接パラメータ化し,近似誤差を排除した新しいMAP(Posterior Maximum)フレームワークを提案する。
- 参考スコア(独自算出の注目度): 51.47188802535954
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video restoration (VR) aims to recover high-quality videos from degraded ones. Although recent zero-shot VR methods using pre-trained diffusion models (DMs) show good promise, they suffer from approximation errors during reverse diffusion and insufficient temporal consistency. Moreover, dealing with 3D video data, VR is inherently computationally intensive. In this paper, we advocate viewing the reverse process in DMs as a function and present a novel Maximum a Posterior (MAP) framework that directly parameterizes video frames in the seed space of DMs, eliminating approximation errors. We also introduce strategies to promote bilevel temporal consistency: semantic consistency by leveraging clustering structures in the seed space, and pixel-level consistency by progressive warping with optical flow refinements. Extensive experiments on multiple virtual reality tasks demonstrate superior visual quality and temporal consistency achieved by our method compared to the state-of-the-art.
- Abstract(参考訳): ビデオ復元(VR)は、劣化したビデオから高品質なビデオを復元することを目的としている。
近年のゼロショットVR法では,事前学習拡散モデル(DM)が有効であるが,逆拡散時の近似誤差や時間的整合性の欠如に悩まされている。
さらに、3Dビデオデータを扱うため、VRは本質的に計算集約的である。
本稿では,DMの逆過程を関数として見た上で,DMのシード空間におけるビデオフレームを直接パラメータ化し,近似誤差を排除した,新しいMAP(Maximum a Posterior)フレームワークを提案する。
また、シード空間におけるクラスタリング構造を利用した意味的整合性や、光学的フロー改善によるプログレッシブ・ワープによる画素レベルの整合性など、両レベルの時間的整合性を促進する戦略も導入する。
複数のバーチャルリアリティータスクに対する大規模な実験は、我々の手法が実現した視覚的品質と時間的一貫性を最先端技術と比較する。
関連論文リスト
- One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - Rethinking Video Tokenization: A Conditioned Diffusion-based Approach [58.164354605550194]
新しいトークン化ツールであるDiffusion Conditioned-based Gene Tokenizerは、GANベースのデコーダを条件付き拡散モデルで置き換える。
再建に基本的MSE拡散損失とKL項,LPIPSを併用した訓練を行った。
CDTのスケールダウン版(3$times inference speedup)でさえ、トップベースラインと互換性がある。
論文 参考訳(メタデータ) (2025-03-05T17:59:19Z) - SeedVR: Seeding Infinity in Diffusion Transformer Towards Generic Video Restoration [73.70209718408641]
SeedVRは、任意の長さと解像度で現実世界のビデオ再生を処理するために設計された拡散トランスフォーマーである。
合成ベンチマークと実世界のベンチマーク、AI生成ビデオで高い競争力を発揮する。
論文 参考訳(メタデータ) (2025-01-02T16:19:48Z) - Zero-Shot Video Restoration and Enhancement Using Pre-Trained Image Diffusion Model [15.170889156729777]
本稿では,事前学習した画像拡散モデルに基づいて,ゼロショット映像の復元と拡張を行うための第1のフレームワークを提案する。
本手法は,任意の拡散型画像復元・拡張手法に挿入可能なプラグアンドプレイモジュールである。
論文 参考訳(メタデータ) (2024-07-02T05:31:59Z) - Collaborative Feedback Discriminative Propagation for Video Super-Resolution [66.61201445650323]
ビデオ超解像法(VSR)の主な成功は、主に空間情報と時間情報を探索することに由来する。
不正確なアライメントは通常、重要なアーティファクトを備えたアライメント機能につながる。
伝搬モジュールは同じタイムステップ機能のみを前方または後方に伝播する。
論文 参考訳(メタデータ) (2024-04-06T22:08:20Z) - ConVRT: Consistent Video Restoration Through Turbulence with Test-time
Optimization of Neural Video Representations [13.38405890753946]
乱流を通した連続ビデオ再生(ConVRT)を自己管理する手法を提案する。
ConVRTは、回復時の時間的一貫性を高めるように設計されたニューラルビデオ表現を特徴とするテスト時間最適化手法である。
ConVRTの重要な革新は、セマンティック指向の監視のための事前訓練された視覚言語モデル(CLIP)の統合である。
論文 参考訳(メタデータ) (2023-12-07T20:19:48Z) - Motion-Guided Latent Diffusion for Temporally Consistent Real-world Video Super-resolution [15.197746480157651]
本稿では,事前学習した潜伏拡散モデルの強度を利用した実世界のVSRアルゴリズムを提案する。
我々は、LRビデオの時間的ダイナミクスを利用して、動作誘導損失で潜時サンプリング経路を最適化することにより拡散過程を導出する。
動作誘導潜在拡散に基づくVSRアルゴリズムは、実世界のVSRベンチマークデータセットの最先端技術よりも、知覚品質が大幅に向上する。
論文 参考訳(メタデータ) (2023-12-01T14:40:07Z) - Enhancing Perceptual Quality in Video Super-Resolution through Temporally-Consistent Detail Synthesis using Diffusion Models [17.570136632211693]
本稿では,リアルタイムかつ時間的に一貫性のある細部を合成することにより,高画質映像の知覚品質を向上させるためのDMに基づくVSR手法であるStableVSRを提案する。
本稿では,既存のVSRの最先端手法と比較して,時間的整合性を向上しつつ,高画質映像の知覚品質を高める上でのStableVSRの有効性を実証する。
論文 参考訳(メタデータ) (2023-11-27T15:14:38Z) - DiffMesh: A Motion-aware Diffusion Framework for Human Mesh Recovery from Videos [20.895221536570627]
ヒューマンメッシュリカバリ(Human Mesh recovery, HMR)は、さまざまな現実世界のアプリケーションに対して、リッチな人体情報を提供する。
ビデオベースのアプローチはこの問題を緩和するために時間的情報を活用する。
DiffMeshはビデオベースのHMRのための革新的な動き認識型拡散型フレームワークである。
論文 参考訳(メタデータ) (2023-03-23T16:15:18Z) - Investigating Tradeoffs in Real-World Video Super-Resolution [90.81396836308085]
実世界のビデオ超解像(VSR)モデルは、一般化性を改善するために様々な劣化で訓練されることが多い。
最初のトレードオフを軽減するために,性能を犠牲にすることなく,最大40%のトレーニング時間を削減できる劣化手法を提案する。
そこで本研究では,多種多様な実世界の低品質映像系列を含むビデオLQデータセットを提案する。
論文 参考訳(メタデータ) (2021-11-24T18:58:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。