論文の概要: Audio-Assisted Face Video Restoration with Temporal and Identity Complementary Learning
- arxiv url: http://arxiv.org/abs/2508.04161v1
- Date: Wed, 06 Aug 2025 07:38:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.595596
- Title: Audio-Assisted Face Video Restoration with Temporal and Identity Complementary Learning
- Title(参考訳): 時間的・アイデンティティ的補完学習による音声支援型顔映像再生
- Authors: Yuqin Cao, Yixuan Gao, Wei Sun, Xiaohong Liu, Yulun Zhang, Xiongkuo Min,
- Abstract要約: 各種のストリーミングビデオ歪みに対処するGAVN(General Audio-assisted Face Video Restoration Network)を提案する。
GAVNはまず、低解像度空間におけるフレーム間の時間的特徴をキャプチャし、フレームを粗く復元し、計算コストを節約する。
最後に、再構成モジュールは時間的特徴とアイデンティティ機能を統合し、高品質な顔ビデオを生成する。
- 参考スコア(独自算出の注目度): 56.62425904247682
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Face videos accompanied by audio have become integral to our daily lives, while they often suffer from complex degradations. Most face video restoration methods neglect the intrinsic correlations between the visual and audio features, especially in mouth regions. A few audio-aided face video restoration methods have been proposed, but they only focus on compression artifact removal. In this paper, we propose a General Audio-assisted face Video restoration Network (GAVN) to address various types of streaming video distortions via identity and temporal complementary learning. Specifically, GAVN first captures inter-frame temporal features in the low-resolution space to restore frames coarsely and save computational cost. Then, GAVN extracts intra-frame identity features in the high-resolution space with the assistance of audio signals and face landmarks to restore more facial details. Finally, the reconstruction module integrates temporal features and identity features to generate high-quality face videos. Experimental results demonstrate that GAVN outperforms the existing state-of-the-art methods on face video compression artifact removal, deblurring, and super-resolution. Codes will be released upon publication.
- Abstract(参考訳): 音声を伴う顔ビデオは私たちの日常生活に不可欠なものになっていますが、複雑な劣化に悩まされることも少なくありません。
ほとんどの顔画像復元法は、特に口領域において、視覚的特徴と音声的特徴の内在的相関を無視する。
音声支援による顔映像復元法がいくつか提案されているが, 圧縮アーチファクトの除去にのみ焦点が当てられている。
本稿では,GAVN(General Audio-assisted Face Video Restoration Network)を提案する。
特にGAVNは、フレーム間の時間的特徴を低解像度空間でキャプチャして、フレームを粗く復元し、計算コストを節約する。
そして、GAVNは、音声信号と顔のランドマークの助けを借りて、高解像度空間におけるフレーム内アイデンティティーの特徴を抽出し、より多くの顔の詳細を復元する。
最後に、再構成モジュールは時間的特徴とアイデンティティ機能を統合し、高品質な顔ビデオを生成する。
実験の結果,GAVNは顔画像圧縮アーチファクトの除去,デブロアリング,超高解像度化において,既存の最先端手法よりも優れていた。
コードは出版時に公開される。
関連論文リスト
- Show and Polish: Reference-Guided Identity Preservation in Face Video Restoration [9.481604837168762]
Face Video Restoration (FVR)は、劣化したバージョンから高品質な顔ビデオを取り戻すことを目的としている。
従来の方法は、劣化が深刻であるときに、細粒でアイデンティティ固有の特徴を保存するのに苦労する。
視覚的プロンプトとして高品質な参照顔画像を活用する新しい手法であるIP-FVRを導入する。
論文 参考訳(メタデータ) (2025-07-14T14:01:37Z) - DicFace: Dirichlet-Constrained Variational Codebook Learning for Temporally Coherent Video Face Restoration [24.004683996460685]
ビデオ顔の復元は、劣化した入力から顔の詳細を回復しながら、時間的一貫性を維持する上で重要な課題に直面します。
本稿では,Vector-Quantized Variational Autoencoders (VQ-VAEs) をビデオ復元フレームワークに拡張する手法を提案する。
論文 参考訳(メタデータ) (2025-06-16T10:54:28Z) - SVFR: A Unified Framework for Generalized Video Face Restoration [86.17060212058452]
顔復元(FR)は画像およびビデオ処理において重要な領域であり、劣化した入力から高品質な肖像画を再構成することに焦点を当てている。
本稿では,映像BFR,インペイント,カラー化タスクを統合した汎用映像顔復元タスクを提案する。
この研究は、ビデオFRにおける最先端技術を進め、一般化されたビデオ顔の復元のための新しいパラダイムを確立する。
論文 参考訳(メタデータ) (2025-01-02T12:51:20Z) - Large Motion Video Autoencoding with Cross-modal Video VAE [52.13379965800485]
ビデオ可変オートエンコーダ(VAE)は、ビデオ冗長性を低減し、効率的なビデオ生成を容易にするために不可欠である。
既存のビデオVAEは時間圧縮に対処し始めているが、しばしば再建性能が不十分である。
本稿では,高忠実度ビデオエンコーディングが可能な,新規で強力なビデオオートエンコーダを提案する。
論文 参考訳(メタデータ) (2024-12-23T18:58:24Z) - Analysis and Benchmarking of Extending Blind Face Image Restoration to Videos [99.42805906884499]
まず,実世界の低品質顔画像ベンチマーク(RFV-LQ)を導入し,画像に基づく顔復元アルゴリズムの評価を行った。
次に、失明顔画像復元アルゴリズムを劣化顔ビデオに拡張する際の利点と課題を網羅的に分析する。
分析では、主に顔成分の顕著なジッタとフレーム間のノイズシェープの2つの側面に分類する。
論文 参考訳(メタデータ) (2024-10-15T17:53:25Z) - Kalman-Inspired Feature Propagation for Video Face Super-Resolution [78.84881180336744]
時間前に安定した顔を維持するための新しい枠組みを導入する。
カルマンフィルタの原理は,従来の復元フレームからの情報を用いて,現在のフレームの復元過程をガイドし,調整することができる。
ビデオフレーム間で顔の細部を連続的にキャプチャする手法の有効性を実験により実証した。
論文 参考訳(メタデータ) (2024-08-09T17:57:12Z) - Beyond Alignment: Blind Video Face Restoration via Parsing-Guided Temporal-Coherent Transformer [21.323165895036354]
そこで本稿では,新しいパーシング誘導時間コヒーレントトランス (PGTFormer) を用いた最初のブラインドビデオ顔復元手法を提案する。
具体的には、時間空間ベクトル量子化オートエンコーダを高品質なビデオ顔データセット上で事前訓練し、表現的文脈に富む先行情報を抽出する。
この戦略はアーチファクトを減らし、顔の事前調整による累積誤差によるジッタを緩和する。
論文 参考訳(メタデータ) (2024-04-21T12:33:07Z) - Identity-Preserving Talking Face Generation with Landmark and Appearance
Priors [106.79923577700345]
既存の人物生成法は、現実的でリップ同期のビデオを生成するのに困難である。
本稿では,ランドマーク生成とランドマーク・ツー・ビデオレンダリングによる2段階のフレームワークを提案する。
提案手法は,既存の対人顔生成法よりも現実的で,リップシンクで,アイデンティティを保ったビデオを生成することができる。
論文 参考訳(メタデータ) (2023-05-15T01:31:32Z) - Neural Compression-Based Feature Learning for Video Restoration [29.021502115116736]
本稿では,映像の再生を支援するために,ノイズ・ロバストな特徴表現の学習を提案する。
ニューラル圧縮モジュールを設計し、ノイズをフィルタリングし、最も有用な情報をビデオ復元の機能として保持する。
論文 参考訳(メタデータ) (2022-03-17T09:59:26Z) - Multi-modality Deep Restoration of Extremely Compressed Face Videos [36.83490465562509]
我々は,積極的に圧縮された顔映像を復元するための多モードディープ畳み込みニューラルネットワーク手法を開発した。
主な革新は、複数のモダリティの既知の事前を組み込んだ新しいDCNNアーキテクチャである。
フェースビデオ上でのDCNN手法の優れた性能を実証するために, 実験的な証拠を多数提示した。
論文 参考訳(メタデータ) (2021-07-05T16:29:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。