論文の概要: FLAIR: A Conditional Diffusion Framework with Applications to Face Video
Restoration
- arxiv url: http://arxiv.org/abs/2311.15445v1
- Date: Sun, 26 Nov 2023 22:09:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 17:43:41.124781
- Title: FLAIR: A Conditional Diffusion Framework with Applications to Face Video
Restoration
- Title(参考訳): FLAIR: 顔ビデオ復元のための条件付き拡散フレームワーク
- Authors: Zihao Zou and Jiaming Liu and Shirin Shoushtari and Yubo Wang and
Weijie Gan and Ulugbek S. Kamilov
- Abstract要約: 顔画像復元のためのFLAIRと呼ばれる新しい条件拡散フレームワークを提案する。
FLAIRは、計算的に効率的な方法でフレーム間の時間的一貫性を保証する。
我々の実験は,2つの高品質な顔ビデオデータセット上での映像超解像,デブロアリング,JPEG復元,時空フレームにおいて,現在最先端(SOTA)よりもFLAIRの方が優れていることを示す。
- 参考スコア(独自算出の注目度): 14.17192434286707
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Face video restoration (FVR) is a challenging but important problem where one
seeks to recover a perceptually realistic face videos from a low-quality input.
While diffusion probabilistic models (DPMs) have been shown to achieve
remarkable performance for face image restoration, they often fail to preserve
temporally coherent, high-quality videos, compromising the fidelity of
reconstructed faces. We present a new conditional diffusion framework called
FLAIR for FVR. FLAIR ensures temporal consistency across frames in a
computationally efficient fashion by converting a traditional image DPM into a
video DPM. The proposed conversion uses a recurrent video refinement layer and
a temporal self-attention at different scales. FLAIR also uses a conditional
iterative refinement process to balance the perceptual and distortion quality
during inference. This process consists of two key components: a
data-consistency module that analytically ensures that the generated video
precisely matches its degraded observation and a coarse-to-fine image
enhancement module specifically for facial regions. Our extensive experiments
show superiority of FLAIR over the current state-of-the-art (SOTA) for video
super-resolution, deblurring, JPEG restoration, and space-time frame
interpolation on two high-quality face video datasets.
- Abstract(参考訳): 顔画像復元(FVR)は、低品質の入力から知覚的にリアルな顔映像を復元しようとする、難しいが重要な問題である。
拡散確率モデル(dpms)は顔画像の復元において顕著な性能を発揮することが示されているが、しばしば時間的に一貫性のある高品質な映像を保存できず、再構成された顔の忠実さを損なう。
FLAIR for FVRと呼ばれる新しい条件拡散フレームワークを提案する。
FLAIRは、従来の画像DPMをビデオDPMに変換することにより、フレーム間の時間的一貫性を計算的に効率的に確保する。
提案した変換は、繰り返しビデオリファインメント層と、異なるスケールでの時間的自己アテンションを用いる。
FLAIRはまた、推論中に知覚品質と歪み品質のバランスをとるために条件付き反復精製プロセスを使用する。
このプロセスは、2つの重要なコンポーネントから構成される:データ一貫性モジュールは、生成されたビデオがその劣化した観察に正確に一致することを解析的に保証する。
ビデオの超解像、デブロアリング、JPEG復元、および2つの高品質な顔ビデオデータセットに対する時空フレーム補間において、FLAIRが現在最先端(SOTA)よりも優れていることを示す。
関連論文リスト
- Efficient Video Face Enhancement with Enhanced Spatial-Temporal Consistency [36.939731355462264]
本研究では,新規で効率的なブラインド・ビデオ・フェース・エンハンスメント法を提案する。
圧縮された低品質バージョンから、効率的なデフリック機構で高品質の動画を復元する。
VFHQ-Testデータセットで行った実験は、我々の手法が現在の最先端のブラインド・フェイス・ビデオの復元と、効率と有効性の両面での解フリック法を超越していることを示している。
論文 参考訳(メタデータ) (2024-11-25T15:14:36Z) - Learning Spatial Adaptation and Temporal Coherence in Diffusion Models for Video Super-Resolution [151.1255837803585]
ビデオ超解像のための空間適応と時間コヒーレンス(SATeCo)を追求する新しい手法を提案する。
SATeCoは低解像度ビデオから時空間ガイダンスを学習し、潜時空間高解像度ビデオデノイングとピクセル空間ビデオ再構成の両方を校正する。
REDS4データセットとVid4データセットを用いて行った実験は、我々のアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2024-03-25T17:59:26Z) - Motion-Guided Latent Diffusion for Temporally Consistent Real-world Video Super-resolution [15.197746480157651]
本稿では,事前学習した潜伏拡散モデルの強度を利用した実世界のVSRアルゴリズムを提案する。
我々は、LRビデオの時間的ダイナミクスを利用して、動作誘導損失で潜時サンプリング経路を最適化することにより拡散過程を導出する。
動作誘導潜在拡散に基づくVSRアルゴリズムは、実世界のVSRベンチマークデータセットの最先端技術よりも、知覚品質が大幅に向上する。
論文 参考訳(メタデータ) (2023-12-01T14:40:07Z) - Edit Temporal-Consistent Videos with Image Diffusion Model [49.88186997567138]
大規模テキスト・ツー・イメージ(T2I)拡散モデルがテキスト誘導ビデオ編集のために拡張されている。
Tは、ビデオ時間的一貫性とビデオ編集機能の両方において最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-08-17T16:40:55Z) - RIGID: Recurrent GAN Inversion and Editing of Real Face Videos [73.97520691413006]
GANのインバージョンは、実画像に強力な編集可能性を適用するのに不可欠である。
既存のビデオフレームを個別に反転させる手法は、時間の経過とともに望ましくない一貫性のない結果をもたらすことが多い。
我々は、textbfRecurrent vtextbfIdeo textbfGAN textbfInversion and etextbfDiting (RIGID) という統合されたリカレントフレームワークを提案する。
本フレームワークは,入力フレーム間の固有コヒーレンスをエンドツーエンドで学習する。
論文 参考訳(メタデータ) (2023-08-11T12:17:24Z) - Learning Spatiotemporal Frequency-Transformer for Low-Quality Video
Super-Resolution [47.5883522564362]
Video Super-Resolution (VSR)は、高解像度(HR)ビデオを低解像度(LR)ビデオから復元することを目的としている。
既存のVSR技術は通常、近くのフレームから既知の劣化プロセスでテクスチャを抽出することでHRフレームを復元する。
本稿では,空間-時間-周波数領域の組み合わせで自己アテンションを行う低品質ビデオを扱うための新しい周波数変換器(FTVSR)を提案する。
論文 参考訳(メタデータ) (2022-12-27T16:26:15Z) - VRT: A Video Restoration Transformer [126.79589717404863]
ビデオ復元(例:ビデオ超解像度)は、高品質のフレームを低品質のフレームから復元することを目的としている。
並列フレーム予測と長距離時間依存性モデリング機能を備えたビデオ再生変換器(VRT)を提案する。
論文 参考訳(メタデータ) (2022-01-28T17:54:43Z) - Zooming SlowMo: An Efficient One-Stage Framework for Space-Time Video
Super-Resolution [100.11355888909102]
時空ビデオ超解像度は低解像度(LR)と低フレームレート(LFR)ビデオシーケンスから高解像度(HR)スローモーションビデオを生成することを目的としている。
入力LRおよびLFRビデオから直接HRスローモーション映像シーケンスを再構成できる一段階の時空間ビデオ超解像フレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-15T17:59:23Z) - Zooming Slow-Mo: Fast and Accurate One-Stage Space-Time Video
Super-Resolution [95.26202278535543]
単純な解決策は、ビデオフレーム(VFI)とビデオ超解像(VSR)の2つのサブタスクに分割することである。
時間合成と空間超解像はこの課題に関係している。
LFR,LRビデオからHRスローモーション映像を直接合成するワンステージ時空間ビデオ超解像フレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-26T16:59:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。