論文の概要: Beyond Alignment: Blind Video Face Restoration via Parsing-Guided Temporal-Coherent Transformer
- arxiv url: http://arxiv.org/abs/2404.13640v1
- Date: Sun, 21 Apr 2024 12:33:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-23 18:11:42.957371
- Title: Beyond Alignment: Blind Video Face Restoration via Parsing-Guided Temporal-Coherent Transformer
- Title(参考訳): Beyond Alignment:Parsing-Guided Temporal-Coherent Transformerによるブラインドビデオの顔復元
- Authors: Kepeng Xu, Li Xu, Gang He, Wenxin Yu, Yunsong Li,
- Abstract要約: そこで本稿では,新しいパーシング誘導時間コヒーレントトランス (PGTFormer) を用いた最初のブラインドビデオ顔復元手法を提案する。
具体的には、時間空間ベクトル量子化オートエンコーダを高品質なビデオ顔データセット上で事前訓練し、表現的文脈に富む先行情報を抽出する。
この戦略はアーチファクトを減らし、顔の事前調整による累積誤差によるジッタを緩和する。
- 参考スコア(独自算出の注目度): 21.323165895036354
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multiple complex degradations are coupled in low-quality video faces in the real world. Therefore, blind video face restoration is a highly challenging ill-posed problem, requiring not only hallucinating high-fidelity details but also enhancing temporal coherence across diverse pose variations. Restoring each frame independently in a naive manner inevitably introduces temporal incoherence and artifacts from pose changes and keypoint localization errors. To address this, we propose the first blind video face restoration approach with a novel parsing-guided temporal-coherent transformer (PGTFormer) without pre-alignment. PGTFormer leverages semantic parsing guidance to select optimal face priors for generating temporally coherent artifact-free results. Specifically, we pre-train a temporal-spatial vector quantized auto-encoder on high-quality video face datasets to extract expressive context-rich priors. Then, the temporal parse-guided codebook predictor (TPCP) restores faces in different poses based on face parsing context cues without performing face pre-alignment. This strategy reduces artifacts and mitigates jitter caused by cumulative errors from face pre-alignment. Finally, the temporal fidelity regulator (TFR) enhances fidelity through temporal feature interaction and improves video temporal consistency. Extensive experiments on face videos show that our method outperforms previous face restoration baselines. The code will be released on \href{https://github.com/kepengxu/PGTFormer}{https://github.com/kepengxu/PGTFormer}.
- Abstract(参考訳): 複数の複雑な劣化は、現実世界の低品質ビデオフェイスに結合される。
したがって、ブラインドビデオの顔の復元は非常に困難な問題であり、高忠実度の詳細を幻覚させるだけでなく、多様なポーズのバリエーションにまたがる時間的コヒーレンスを高める必要がある。
各フレームをナイーブな方法で独立に復元することは、必然的に、ポーズの変更とキーポイントのローカライゼーションエラーから時間的不整合とアーティファクトを導入する。
そこで本研究では,前向きを伴わない新しいパーシング誘導時間コヒーレントトランス (PGTFormer) を用いた最初のブラインドビデオ顔復元手法を提案する。
PGTFormerはセマンティックパーシングガイダンスを利用して、時間的に一貫性のないアーティファクトフリーな結果を生成するために最適な顔の事前選択を行う。
具体的には、時間空間ベクトル量子化オートエンコーダを高品質なビデオ顔データセット上で事前訓練し、表現的文脈に富む先行情報を抽出する。
そして、時間的パース誘導コードブック予測器(TPCP)は、顔事前調整を行うことなく、顔解析コンテキストキューに基づいて異なるポーズで顔を復元する。
この戦略はアーチファクトを減らし、顔の事前調整による累積誤差によるジッタを緩和する。
最後に、時間的忠実度調整器(TFR)は、時間的特徴相互作用を通じて忠実度を高め、時間的整合性を向上させる。
フェースビデオの広汎な実験により,提案手法は従来の顔修復基準よりも優れていたことが判明した。
コードは \href{https://github.com/kepengxu/PGTFormer}{https://github.com/kepengxu/PGTFormer} でリリースされる。
関連論文リスト
- Analysis and Benchmarking of Extending Blind Face Image Restoration to Videos [99.42805906884499]
まず,実世界の低品質顔画像ベンチマーク(RFV-LQ)を導入し,画像に基づく顔復元アルゴリズムの評価を行った。
次に、失明顔画像復元アルゴリズムを劣化顔ビデオに拡張する際の利点と課題を網羅的に分析する。
分析では、主に顔成分の顕著なジッタとフレーム間のノイズシェープの2つの側面に分類する。
論文 参考訳(メタデータ) (2024-10-15T17:53:25Z) - Kalman-Inspired Feature Propagation for Video Face Super-Resolution [78.84881180336744]
時間前に安定した顔を維持するための新しい枠組みを導入する。
カルマンフィルタの原理は,従来の復元フレームからの情報を用いて,現在のフレームの復元過程をガイドし,調整することができる。
ビデオフレーム間で顔の細部を連続的にキャプチャする手法の有効性を実験により実証した。
論文 参考訳(メタデータ) (2024-08-09T17:57:12Z) - CLR-Face: Conditional Latent Refinement for Blind Face Restoration Using
Score-Based Diffusion Models [57.9771859175664]
最近の生成優先法は、有望なブラインドフェイス修復性能を示している。
入力に忠実なきめ細かい顔の詳細を生成することは、依然として難しい問題である。
本稿では,VQGANアーキテクチャの内部に拡散型プライマーを導入し,非破壊な潜伏埋め込みにおける分布の学習に重点を置いている。
論文 参考訳(メタデータ) (2024-02-08T23:51:49Z) - FLAIR: A Conditional Diffusion Framework with Applications to Face Video
Restoration [14.17192434286707]
顔画像復元のためのFLAIRと呼ばれる新しい条件拡散フレームワークを提案する。
FLAIRは、計算的に効率的な方法でフレーム間の時間的一貫性を保証する。
我々の実験は,2つの高品質な顔ビデオデータセット上での映像超解像,デブロアリング,JPEG復元,時空フレームにおいて,現在最先端(SOTA)よりもFLAIRの方が優れていることを示す。
論文 参考訳(メタデータ) (2023-11-26T22:09:18Z) - RIGID: Recurrent GAN Inversion and Editing of Real Face Videos [73.97520691413006]
GANのインバージョンは、実画像に強力な編集可能性を適用するのに不可欠である。
既存のビデオフレームを個別に反転させる手法は、時間の経過とともに望ましくない一貫性のない結果をもたらすことが多い。
我々は、textbfRecurrent vtextbfIdeo textbfGAN textbfInversion and etextbfDiting (RIGID) という統合されたリカレントフレームワークを提案する。
本フレームワークは,入力フレーム間の固有コヒーレンスをエンドツーエンドで学習する。
論文 参考訳(メタデータ) (2023-08-11T12:17:24Z) - UniFaceGAN: A Unified Framework for Temporally Consistent Facial Video
Editing [78.26925404508994]
我々は,UniFaceGANと呼ばれる時間的に一貫した顔画像編集フレームワークを提案する。
本フレームワークは,顔交換と顔再現を同時に行うように設計されている。
現状の顔画像編集法と比較すると,本フレームワークはより写実的で時間的に滑らかな映像像を生成する。
論文 参考訳(メタデータ) (2021-08-12T10:35:22Z) - VidFace: A Full-Transformer Solver for Video FaceHallucination with
Unaligned Tiny Snapshots [40.24311157634526]
複数のサムネイル間のフルレンジ時間構造と顔構造を利用するために、VidFaceと呼ばれる純粋なトランスフォーマーベースモデルを提案する。
また、パブリックなVoxceleb2ベンチマークから、大規模なビデオ顔幻覚データセットをキュレートする。
論文 参考訳(メタデータ) (2021-05-31T13:40:41Z) - Intrinsic Temporal Regularization for High-resolution Human Video
Synthesis [59.54483950973432]
時間整合性は、画像処理パイプラインをビデオドメインに拡張する上で重要である。
フレームジェネレーターを介して本質的信頼度マップを推定し,運動推定を調節する,本質的な時間正規化方式を提案する。
我々は、本質的な時間的規制をシングルイメージジェネレータに適用し、強力な「Internet」が512Times512$の人間のアクションビデオを生成します。
論文 参考訳(メタデータ) (2020-12-11T05:29:45Z) - Progressive Semantic-Aware Style Transformation for Blind Face
Restoration [26.66332852514812]
顔の復元のために,PSFR-GAN という新しいプログレッシブ・セマンティック・アウェア・スタイルの変換フレームワークを提案する。
提案したPSFR-GANは、入力ペアの異なるスケールからのセマンティック(パーシングマップ)とピクセル(LQ画像)空間情報をフル活用する。
実験結果から, 合成LQ入力に対して, より現実的な高分解能な結果が得られるだけでなく, 自然なLQ顔画像の一般化にも有効であることが示唆された。
論文 参考訳(メタデータ) (2020-09-18T09:27:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。