論文の概要: DicFace: Dirichlet-Constrained Variational Codebook Learning for Temporally Coherent Video Face Restoration
- arxiv url: http://arxiv.org/abs/2506.13355v1
- Date: Mon, 16 Jun 2025 10:54:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:48.200811
- Title: DicFace: Dirichlet-Constrained Variational Codebook Learning for Temporally Coherent Video Face Restoration
- Title(参考訳): DicFace: 一時的コヒーレントなビデオ顔復元のためのディリクレ制約付き変分コードブック学習
- Authors: Yan Chen, Hanlin Shang, Ce Liu, Yuxuan Chen, Hui Li, Weihao Yuan, Hao Zhu, Zilong Dong, Siyu Zhu,
- Abstract要約: ビデオ顔の復元は、劣化した入力から顔の詳細を回復しながら、時間的一貫性を維持する上で重要な課題に直面します。
本稿では,Vector-Quantized Variational Autoencoders (VQ-VAEs) をビデオ復元フレームワークに拡張する手法を提案する。
- 参考スコア(独自算出の注目度): 24.004683996460685
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video face restoration faces a critical challenge in maintaining temporal consistency while recovering fine facial details from degraded inputs. This paper presents a novel approach that extends Vector-Quantized Variational Autoencoders (VQ-VAEs), pretrained on static high-quality portraits, into a video restoration framework through variational latent space modeling. Our key innovation lies in reformulating discrete codebook representations as Dirichlet-distributed continuous variables, enabling probabilistic transitions between facial features across frames. A spatio-temporal Transformer architecture jointly models inter-frame dependencies and predicts latent distributions, while a Laplacian-constrained reconstruction loss combined with perceptual (LPIPS) regularization enhances both pixel accuracy and visual quality. Comprehensive evaluations on blind face restoration, video inpainting, and facial colorization tasks demonstrate state-of-the-art performance. This work establishes an effective paradigm for adapting intensive image priors, pretrained on high-quality images, to video restoration while addressing the critical challenge of flicker artifacts. The source code has been open-sourced and is available at https://github.com/fudan-generative-vision/DicFace.
- Abstract(参考訳): ビデオ顔の復元は、劣化した入力から細かい顔の詳細を回復しながら、時間的一貫性を維持する上で重要な課題に直面します。
本稿では,Vector-Quantized Variational Autoencoders (VQ-VAEs) を静的な高画質のポートレートで事前訓練した新しい手法を提案する。
我々の重要な革新は、ディリクレ分散連続変数として個別のコードブック表現を再構成することであり、フレーム間の顔の特徴間の確率的遷移を可能にする。
時空間トランスフォーマーアーキテクチャは、フレーム間の依存関係を共同でモデル化し、遅延分布を予測する一方、ラプラシアン制約の再構成損失と知覚正規化(LPIPS)を組み合わせることで、ピクセル精度と視覚的品質が向上する。
ブラインド・フェイス・リカバリ、ビデオ・インペインティング、顔の着色作業に関する総合的な評価は、最先端のパフォーマンスを示している。
本研究は,フリックアーティファクトの致命的な課題に対処しつつ,高品質な画像に事前訓練された集中的画像前処理をビデオ復元に適用するための効果的なパラダイムを確立する。
ソースコードは、https://github.com/fudan-generative-vision/DicFaceで公開されている。
関連論文リスト
- SVFR: A Unified Framework for Generalized Video Face Restoration [86.17060212058452]
顔復元(FR)は画像およびビデオ処理において重要な領域であり、劣化した入力から高品質な肖像画を再構成することに焦点を当てている。
本稿では,映像BFR,インペイント,カラー化タスクを統合した汎用映像顔復元タスクを提案する。
この研究は、ビデオFRにおける最先端技術を進め、一般化されたビデオ顔の復元のための新しいパラダイムを確立する。
論文 参考訳(メタデータ) (2025-01-02T12:51:20Z) - Efficient Video Face Enhancement with Enhanced Spatial-Temporal Consistency [36.939731355462264]
本研究では,新規で効率的なブラインド・ビデオ・フェース・エンハンスメント法を提案する。
圧縮された低品質バージョンから、効率的なデフリック機構で高品質の動画を復元する。
VFHQ-Testデータセットで行った実験は、我々の手法が現在の最先端のブラインド・フェイス・ビデオの復元と、効率と有効性の両面での解フリック法を超越していることを示している。
論文 参考訳(メタデータ) (2024-11-25T15:14:36Z) - Analysis and Benchmarking of Extending Blind Face Image Restoration to Videos [99.42805906884499]
まず,実世界の低品質顔画像ベンチマーク(RFV-LQ)を導入し,画像に基づく顔復元アルゴリズムの評価を行った。
次に、失明顔画像復元アルゴリズムを劣化顔ビデオに拡張する際の利点と課題を網羅的に分析する。
分析では、主に顔成分の顕著なジッタとフレーム間のノイズシェープの2つの側面に分類する。
論文 参考訳(メタデータ) (2024-10-15T17:53:25Z) - Kalman-Inspired Feature Propagation for Video Face Super-Resolution [78.84881180336744]
時間前に安定した顔を維持するための新しい枠組みを導入する。
カルマンフィルタの原理は,従来の復元フレームからの情報を用いて,現在のフレームの復元過程をガイドし,調整することができる。
ビデオフレーム間で顔の細部を連続的にキャプチャする手法の有効性を実験により実証した。
論文 参考訳(メタデータ) (2024-08-09T17:57:12Z) - Beyond Alignment: Blind Video Face Restoration via Parsing-Guided Temporal-Coherent Transformer [21.323165895036354]
そこで本稿では,新しいパーシング誘導時間コヒーレントトランス (PGTFormer) を用いた最初のブラインドビデオ顔復元手法を提案する。
具体的には、時間空間ベクトル量子化オートエンコーダを高品質なビデオ顔データセット上で事前訓練し、表現的文脈に富む先行情報を抽出する。
この戦略はアーチファクトを減らし、顔の事前調整による累積誤差によるジッタを緩和する。
論文 参考訳(メタデータ) (2024-04-21T12:33:07Z) - CLR-Face: Conditional Latent Refinement for Blind Face Restoration Using
Score-Based Diffusion Models [57.9771859175664]
最近の生成優先法は、有望なブラインドフェイス修復性能を示している。
入力に忠実なきめ細かい顔の詳細を生成することは、依然として難しい問題である。
本稿では,VQGANアーキテクチャの内部に拡散型プライマーを導入し,非破壊な潜伏埋め込みにおける分布の学習に重点を置いている。
論文 参考訳(メタデータ) (2024-02-08T23:51:49Z) - Towards Robust Blind Face Restoration with Codebook Lookup Transformer [94.48731935629066]
ブラインドフェイスの修復は、しばしば補助的なガイダンスを必要とする非常に不適切な問題である。
学習した個別のコードブックを小さなプロキシ空間に配置し,ブラインドフェイスの復元をコード予測タスクとすることを示す。
我々は、低品質顔のグローバルな構成とコンテキストをモデル化するトランスフォーマーベースの予測ネットワーク、CodeFormerを提案する。
論文 参考訳(メタデータ) (2022-06-22T17:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。