論文の概要: Beyond Alignment: Blind Video Face Restoration via Parsing-Guided Temporal-Coherent Transformer
- arxiv url: http://arxiv.org/abs/2404.13640v1
- Date: Sun, 21 Apr 2024 12:33:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-23 18:11:42.957371
- Title: Beyond Alignment: Blind Video Face Restoration via Parsing-Guided Temporal-Coherent Transformer
- Title(参考訳): Beyond Alignment:Parsing-Guided Temporal-Coherent Transformerによるブラインドビデオの顔復元
- Authors: Kepeng Xu, Li Xu, Gang He, Wenxin Yu, Yunsong Li,
- Abstract要約: そこで本稿では,新しいパーシング誘導時間コヒーレントトランス (PGTFormer) を用いた最初のブラインドビデオ顔復元手法を提案する。
具体的には、時間空間ベクトル量子化オートエンコーダを高品質なビデオ顔データセット上で事前訓練し、表現的文脈に富む先行情報を抽出する。
この戦略はアーチファクトを減らし、顔の事前調整による累積誤差によるジッタを緩和する。
- 参考スコア(独自算出の注目度): 21.323165895036354
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multiple complex degradations are coupled in low-quality video faces in the real world. Therefore, blind video face restoration is a highly challenging ill-posed problem, requiring not only hallucinating high-fidelity details but also enhancing temporal coherence across diverse pose variations. Restoring each frame independently in a naive manner inevitably introduces temporal incoherence and artifacts from pose changes and keypoint localization errors. To address this, we propose the first blind video face restoration approach with a novel parsing-guided temporal-coherent transformer (PGTFormer) without pre-alignment. PGTFormer leverages semantic parsing guidance to select optimal face priors for generating temporally coherent artifact-free results. Specifically, we pre-train a temporal-spatial vector quantized auto-encoder on high-quality video face datasets to extract expressive context-rich priors. Then, the temporal parse-guided codebook predictor (TPCP) restores faces in different poses based on face parsing context cues without performing face pre-alignment. This strategy reduces artifacts and mitigates jitter caused by cumulative errors from face pre-alignment. Finally, the temporal fidelity regulator (TFR) enhances fidelity through temporal feature interaction and improves video temporal consistency. Extensive experiments on face videos show that our method outperforms previous face restoration baselines. The code will be released on \href{https://github.com/kepengxu/PGTFormer}{https://github.com/kepengxu/PGTFormer}.
- Abstract(参考訳): 複数の複雑な劣化は、現実世界の低品質ビデオフェイスに結合される。
したがって、ブラインドビデオの顔の復元は非常に困難な問題であり、高忠実度の詳細を幻覚させるだけでなく、多様なポーズのバリエーションにまたがる時間的コヒーレンスを高める必要がある。
各フレームをナイーブな方法で独立に復元することは、必然的に、ポーズの変更とキーポイントのローカライゼーションエラーから時間的不整合とアーティファクトを導入する。
そこで本研究では,前向きを伴わない新しいパーシング誘導時間コヒーレントトランス (PGTFormer) を用いた最初のブラインドビデオ顔復元手法を提案する。
PGTFormerはセマンティックパーシングガイダンスを利用して、時間的に一貫性のないアーティファクトフリーな結果を生成するために最適な顔の事前選択を行う。
具体的には、時間空間ベクトル量子化オートエンコーダを高品質なビデオ顔データセット上で事前訓練し、表現的文脈に富む先行情報を抽出する。
そして、時間的パース誘導コードブック予測器(TPCP)は、顔事前調整を行うことなく、顔解析コンテキストキューに基づいて異なるポーズで顔を復元する。
この戦略はアーチファクトを減らし、顔の事前調整による累積誤差によるジッタを緩和する。
最後に、時間的忠実度調整器(TFR)は、時間的特徴相互作用を通じて忠実度を高め、時間的整合性を向上させる。
フェースビデオの広汎な実験により,提案手法は従来の顔修復基準よりも優れていたことが判明した。
コードは \href{https://github.com/kepengxu/PGTFormer}{https://github.com/kepengxu/PGTFormer} でリリースされる。
関連論文リスト
- CLR-Face: Conditional Latent Refinement for Blind Face Restoration Using
Score-Based Diffusion Models [57.9771859175664]
最近の生成優先法は、有望なブラインドフェイス修復性能を示している。
入力に忠実なきめ細かい顔の詳細を生成することは、依然として難しい問題である。
本稿では,VQGANアーキテクチャの内部に拡散型プライマーを導入し,非破壊な潜伏埋め込みにおける分布の学習に重点を置いている。
論文 参考訳(メタデータ) (2024-02-08T23:51:49Z) - FLAIR: A Conditional Diffusion Framework with Applications to Face Video
Restoration [14.17192434286707]
顔画像復元のためのFLAIRと呼ばれる新しい条件拡散フレームワークを提案する。
FLAIRは、計算的に効率的な方法でフレーム間の時間的一貫性を保証する。
我々の実験は,2つの高品質な顔ビデオデータセット上での映像超解像,デブロアリング,JPEG復元,時空フレームにおいて,現在最先端(SOTA)よりもFLAIRの方が優れていることを示す。
論文 参考訳(メタデータ) (2023-11-26T22:09:18Z) - RIGID: Recurrent GAN Inversion and Editing of Real Face Videos [73.97520691413006]
GANのインバージョンは、実画像に強力な編集可能性を適用するのに不可欠である。
既存のビデオフレームを個別に反転させる手法は、時間の経過とともに望ましくない一貫性のない結果をもたらすことが多い。
我々は、textbfRecurrent vtextbfIdeo textbfGAN textbfInversion and etextbfDiting (RIGID) という統合されたリカレントフレームワークを提案する。
本フレームワークは,入力フレーム間の固有コヒーレンスをエンドツーエンドで学習する。
論文 参考訳(メタデータ) (2023-08-11T12:17:24Z) - Correcting Face Distortion in Wide-Angle Videos [85.88898349347149]
これらの歪みを補正するビデオワープアルゴリズムを提案する。
私たちのキーとなるアイデアは、顔領域に局所的に立体投影を適用することです。
性能評価のために,焦点距離の広い広角ビデオデータセットを開発した。
論文 参考訳(メタデータ) (2021-11-18T21:28:17Z) - UniFaceGAN: A Unified Framework for Temporally Consistent Facial Video
Editing [78.26925404508994]
我々は,UniFaceGANと呼ばれる時間的に一貫した顔画像編集フレームワークを提案する。
本フレームワークは,顔交換と顔再現を同時に行うように設計されている。
現状の顔画像編集法と比較すると,本フレームワークはより写実的で時間的に滑らかな映像像を生成する。
論文 参考訳(メタデータ) (2021-08-12T10:35:22Z) - VidFace: A Full-Transformer Solver for Video FaceHallucination with
Unaligned Tiny Snapshots [40.24311157634526]
複数のサムネイル間のフルレンジ時間構造と顔構造を利用するために、VidFaceと呼ばれる純粋なトランスフォーマーベースモデルを提案する。
また、パブリックなVoxceleb2ベンチマークから、大規模なビデオ顔幻覚データセットをキュレートする。
論文 参考訳(メタデータ) (2021-05-31T13:40:41Z) - Intrinsic Temporal Regularization for High-resolution Human Video
Synthesis [59.54483950973432]
時間整合性は、画像処理パイプラインをビデオドメインに拡張する上で重要である。
フレームジェネレーターを介して本質的信頼度マップを推定し,運動推定を調節する,本質的な時間正規化方式を提案する。
我々は、本質的な時間的規制をシングルイメージジェネレータに適用し、強力な「Internet」が512Times512$の人間のアクションビデオを生成します。
論文 参考訳(メタデータ) (2020-12-11T05:29:45Z) - Blind Video Temporal Consistency via Deep Video Prior [61.062900556483164]
視覚的ビデオの時間的整合性に対する新規で一般的なアプローチを提案する。
本手法は,一対のオリジナルビデオとプロセッシングビデオを直接トレーニングするのみである。
本稿では,Deep Video Priorを用いてビデオ上の畳み込みネットワークをトレーニングすることにより,時間的一貫性を実現することができることを示す。
論文 参考訳(メタデータ) (2020-10-22T16:19:20Z) - Progressive Semantic-Aware Style Transformation for Blind Face
Restoration [26.66332852514812]
顔の復元のために,PSFR-GAN という新しいプログレッシブ・セマンティック・アウェア・スタイルの変換フレームワークを提案する。
提案したPSFR-GANは、入力ペアの異なるスケールからのセマンティック(パーシングマップ)とピクセル(LQ画像)空間情報をフル活用する。
実験結果から, 合成LQ入力に対して, より現実的な高分解能な結果が得られるだけでなく, 自然なLQ顔画像の一般化にも有効であることが示唆された。
論文 参考訳(メタデータ) (2020-09-18T09:27:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。