論文の概要: Show and Polish: Reference-Guided Identity Preservation in Face Video Restoration
- arxiv url: http://arxiv.org/abs/2507.10293v1
- Date: Mon, 14 Jul 2025 14:01:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:25.064209
- Title: Show and Polish: Reference-Guided Identity Preservation in Face Video Restoration
- Title(参考訳): ショーとポーランド: 顔ビデオ修復における参照ガイドによるアイデンティティ保護
- Authors: Wenkang Han, Wang Lin, Yiyun Zhou, Qi Liu, Shulei Wang, Chang Yao, Jingyuan Chen,
- Abstract要約: Face Video Restoration (FVR)は、劣化したバージョンから高品質な顔ビデオを取り戻すことを目的としている。
従来の方法は、劣化が深刻であるときに、細粒でアイデンティティ固有の特徴を保存するのに苦労する。
視覚的プロンプトとして高品質な参照顔画像を活用する新しい手法であるIP-FVRを導入する。
- 参考スコア(独自算出の注目度): 9.481604837168762
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Face Video Restoration (FVR) aims to recover high-quality face videos from degraded versions. Traditional methods struggle to preserve fine-grained, identity-specific features when degradation is severe, often producing average-looking faces that lack individual characteristics. To address these challenges, we introduce IP-FVR, a novel method that leverages a high-quality reference face image as a visual prompt to provide identity conditioning during the denoising process. IP-FVR incorporates semantically rich identity information from the reference image using decoupled cross-attention mechanisms, ensuring detailed and identity consistent results. For intra-clip identity drift (within 24 frames), we introduce an identity-preserving feedback learning method that combines cosine similarity-based reward signals with suffix-weighted temporal aggregation. This approach effectively minimizes drift within sequences of frames. For inter-clip identity drift, we develop an exponential blending strategy that aligns identities across clips by iteratively blending frames from previous clips during the denoising process. This method ensures consistent identity representation across different clips. Additionally, we enhance the restoration process with a multi-stream negative prompt, guiding the model's attention to relevant facial attributes and minimizing the generation of low-quality or incorrect features. Extensive experiments on both synthetic and real-world datasets demonstrate that IP-FVR outperforms existing methods in both quality and identity preservation, showcasing its substantial potential for practical applications in face video restoration.
- Abstract(参考訳): Face Video Restoration (FVR)は、劣化したバージョンから高品質な顔ビデオを取り戻すことを目的としている。
従来の手法は、劣化が深刻であるときに細粒でアイデンティティ固有の特徴を保存し、個々の特徴を欠く平均的な顔を作り出すのに苦労する。
これらの課題に対処するために,高品質な参照顔画像を活用する新しい手法であるIP-FVRを導入する。
IP-FVRは、分離されたクロスアテンション機構を使用して参照画像から意味的にリッチなアイデンティティ情報を取り込み、詳細およびアイデンティティ一貫性のある結果を保証する。
輪郭内アイデンティティドリフト(24フレーム)に対して,コサイン類似性に基づく報酬信号と接尾辞重み付き時間的アグリゲーションを組み合わせたアイデンティティ保存型フィードバック学習手法を提案する。
このアプローチは、フレームのシーケンス内のドリフトを効果的に最小化する。
クリップ間アイデンティティドリフトでは,デノナイジング過程において,以前のクリップからフレームを反復的にブレンドすることで,クリップ間のアイデンティティを整列させる指数的ブレンディング戦略を開発する。
この方法は、異なるクリップ間で一貫したアイデンティティ表現を保証する。
さらに、複数ストリームの負のプロンプトで復元プロセスを強化し、関連する顔属性にモデルの注意を向け、低品質または不正な特徴の生成を最小限にする。
合成と実世界の両方のデータセットに対する大規模な実験により、IP-FVRは品質とアイデンティティの保存において既存の手法よりも優れており、顔ビデオ復元における実用的可能性を示している。
関連論文リスト
- Audio-Assisted Face Video Restoration with Temporal and Identity Complementary Learning [56.62425904247682]
各種のストリーミングビデオ歪みに対処するGAVN(General Audio-assisted Face Video Restoration Network)を提案する。
GAVNはまず、低解像度空間におけるフレーム間の時間的特徴をキャプチャし、フレームを粗く復元し、計算コストを節約する。
最後に、再構成モジュールは時間的特徴とアイデンティティ機能を統合し、高品質な顔ビデオを生成する。
論文 参考訳(メタデータ) (2025-08-06T07:38:27Z) - Robust ID-Specific Face Restoration via Alignment Learning [18.869593414569206]
本稿では,拡散モデルに基づく新しい顔復元フレームワークであるRobust ID-Specific Face Restoration (RIDFR)を提案する。
RIDFRにはアライメント・ラーニング(Alignment Learning)が組み込まれており、複数の参照からの復元結果を同一のアイデンティティと整合させて、ID非関連顔のセマンティクスの干渉を抑制する。
実験により、我々のフレームワークは最先端の手法よりも優れており、高品質なID固有の結果を高いアイデンティティの忠実度で再現し、強靭性を示す。
論文 参考訳(メタデータ) (2025-07-15T03:16:12Z) - Proteus-ID: ID-Consistent and Motion-Coherent Video Customization [17.792780924370103]
ビデオアイデンティティのカスタマイズは、単一の参照画像とテキストプロンプトを与えられた特定の主題の現実的で時間的に整合したビデオを合成しようとする。
この課題は、説明された外観や動作と整合しながらアイデンティティの整合性を維持すること、非現実的な剛性のない自然な流体運動を生成することである。
Proteus-IDは、アイデンティティ一貫性とモーションコヒーレントなビデオカスタマイズのための、新しい拡散ベースのフレームワークである。
論文 参考訳(メタデータ) (2025-06-30T11:05:32Z) - DicFace: Dirichlet-Constrained Variational Codebook Learning for Temporally Coherent Video Face Restoration [24.004683996460685]
ビデオ顔の復元は、劣化した入力から顔の詳細を回復しながら、時間的一貫性を維持する上で重要な課題に直面します。
本稿では,Vector-Quantized Variational Autoencoders (VQ-VAEs) をビデオ復元フレームワークに拡張する手法を提案する。
論文 参考訳(メタデータ) (2025-06-16T10:54:28Z) - Reference-Guided Identity Preserving Face Restoration [54.10295747851343]
顔のアイデンティティを保存することは、拡散に基づく画像復元において重要な課題である。
本稿では,顔の復元とアイデンティティの保存を改善するために,参照顔の有用性を最大化するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2025-05-28T02:46:34Z) - Removing Averaging: Personalized Lip-Sync Driven Characters Based on Identity Adapter [10.608872317957026]
リップ平均化(lip averaging)現象は、未確認映像を撮影する際に、モデルが微妙な顔の細部を保存できない場合に発生する。
参照ビデオからアイデンティティ埋め込みを抽出し,忠実な顔列を生成するUnAvgLipを提案する。
論文 参考訳(メタデータ) (2025-03-09T02:36:31Z) - EchoVideo: Identity-Preserving Human Video Generation by Multimodal Feature Fusion [3.592206475366951]
既存の手法は「コピー・ペースト」アーティファクトと類似性の低い問題に苦しむ。
テキストから高レベルなセマンティック機能を統合して、クリーンな顔認証表現をキャプチャするEchoVideoを提案する。
高品質で制御性があり、忠実なビデオを生成するのに優れた結果をもたらす。
論文 参考訳(メタデータ) (2025-01-23T08:06:11Z) - OSDFace: One-Step Diffusion Model for Face Restoration [72.5045389847792]
拡散モデルは、顔の修復において顕著な性能を示した。
顔復元のための新しいワンステップ拡散モデルOSDFaceを提案する。
その結果,OSDFaceは現状のSOTA(State-of-the-art)手法を視覚的品質と定量的指標の両方で上回っていることがわかった。
論文 参考訳(メタデータ) (2024-11-26T07:07:48Z) - Analysis and Benchmarking of Extending Blind Face Image Restoration to Videos [99.42805906884499]
まず,実世界の低品質顔画像ベンチマーク(RFV-LQ)を導入し,画像に基づく顔復元アルゴリズムの評価を行った。
次に、失明顔画像復元アルゴリズムを劣化顔ビデオに拡張する際の利点と課題を網羅的に分析する。
分析では、主に顔成分の顕著なジッタとフレーム間のノイズシェープの2つの側面に分類する。
論文 参考訳(メタデータ) (2024-10-15T17:53:25Z) - ID-Aligner: Enhancing Identity-Preserving Text-to-Image Generation with Reward Feedback Learning [57.91881829308395]
AIポートレートや広告といった幅広いアプリケーションシナリオのために、ID-T2I(ID-preserving text-to-image generation)が注目されている。
我々は,ID-T2I性能を向上させるための一般的なフィードバック学習フレームワークである textbfID-Aligner を提案する。
論文 参考訳(メタデータ) (2024-04-23T18:41:56Z) - CLR-Face: Conditional Latent Refinement for Blind Face Restoration Using
Score-Based Diffusion Models [57.9771859175664]
最近の生成優先法は、有望なブラインドフェイス修復性能を示している。
入力に忠実なきめ細かい顔の詳細を生成することは、依然として難しい問題である。
本稿では,VQGANアーキテクチャの内部に拡散型プライマーを導入し,非破壊な潜伏埋め込みにおける分布の学習に重点を置いている。
論文 参考訳(メタデータ) (2024-02-08T23:51:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。