論文の概要: VidFace: A Full-Transformer Solver for Video FaceHallucination with
Unaligned Tiny Snapshots
- arxiv url: http://arxiv.org/abs/2105.14954v1
- Date: Mon, 31 May 2021 13:40:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-01 17:08:23.324534
- Title: VidFace: A Full-Transformer Solver for Video FaceHallucination with
Unaligned Tiny Snapshots
- Title(参考訳): vidface - 未調整のスナップショットを持つビデオ顔幻覚のためのフルトランスフォーマーソルバ
- Authors: Yuan Gan, Yawei Luo, Xin Yu, Bang Zhang, Yi Yang
- Abstract要約: 複数のサムネイル間のフルレンジ時間構造と顔構造を利用するために、VidFaceと呼ばれる純粋なトランスフォーマーベースモデルを提案する。
また、パブリックなVoxceleb2ベンチマークから、大規模なビデオ顔幻覚データセットをキュレートする。
- 参考スコア(独自算出の注目度): 40.24311157634526
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we investigate the task of hallucinating an authentic
high-resolution (HR) human face from multiple low-resolution (LR) video
snapshots. We propose a pure transformer-based model, dubbed VidFace, to fully
exploit the full-range spatio-temporal information and facial structure cues
among multiple thumbnails. Specifically, VidFace handles multiple snapshots all
at once and harnesses the spatial and temporal information integrally to
explore face alignments across all the frames, thus avoiding accumulating
alignment errors. Moreover, we design a recurrent position embedding module to
equip our transformer with facial priors, which not only effectively
regularises the alignment mechanism but also supplants notorious pre-training.
Finally, we curate a new large-scale video face hallucination dataset from the
public Voxceleb2 benchmark, which challenges prior arts on tackling unaligned
and tiny face snapshots. To the best of our knowledge, we are the first attempt
to develop a unified transformer-based solver tailored for video-based face
hallucination. Extensive experiments on public video face benchmarks show that
the proposed method significantly outperforms the state of the arts.
- Abstract(参考訳): 本稿では,複数の低解像度(LR)ビデオスナップショットから高解像度(HR)人間の顔を幻覚させる作業について検討する。
複数のサムネイル間のフルレンジ時空間情報と顔構造をフル活用するために、VidFaceと呼ばれる純粋なトランスフォーマーベースモデルを提案する。
具体的には、vidfaceは複数のスナップショットを一度に処理し、空間的および時間的情報を統合的に活用して、すべてのフレームにまたがる顔アライメントを探索することで、アライメントエラーの蓄積を回避する。
さらに,アライメント機構を効果的に定式化するだけでなく,悪名高い事前学習に取って代わる,トランスフォーマーに顔面前野を装着するリカレント位置埋め込みモジュールを設計した。
最後に、公開voxceleb2ベンチマークから、新しい大規模なビデオ顔幻覚データセットをキュレーションします。
我々の知る限りでは、私たちはビデオベースの顔幻覚に適した変換器ベースの統一解法を開発する最初の試みである。
パブリックなビデオフェース・ベンチマークによる大規模な実験により,提案手法が芸術の状態を著しく上回ることを示した。
関連論文リスト
- GaussianHeads: End-to-End Learning of Drivable Gaussian Head Avatars from Coarse-to-fine Representations [54.94362657501809]
マルチビュー画像から高ダイナミックで変形可能な人間の頭部アバターをリアルタイムで生成する手法を提案する。
本手法のコアとなるのは,顔表情と頭部運動の複雑なダイナミクスを捉えることができる頭部モデルの階層的表現である。
我々は、この粗い顔アバターモデルを、エンドツーエンドのフレームワークで学習可能なパラメータとして頭部ポーズとともに訓練する。
論文 参考訳(メタデータ) (2024-09-18T13:05:43Z) - Kalman-Inspired Feature Propagation for Video Face Super-Resolution [78.84881180336744]
時間前に安定した顔を維持するための新しい枠組みを導入する。
カルマンフィルタの原理は,従来の復元フレームからの情報を用いて,現在のフレームの復元過程をガイドし,調整することができる。
ビデオフレーム間で顔の細部を連続的にキャプチャする手法の有効性を実験により実証した。
論文 参考訳(メタデータ) (2024-08-09T17:57:12Z) - VOODOO XP: Expressive One-Shot Head Reenactment for VR Telepresence [14.010324388059866]
VOODOO XPは、入力ドライバビデオと1枚の2Dポートレートから高表現力の表情を生成することができる、3D対応のワンショットヘッド再現法である。
本稿では,モノクラー映像設定と双方向通信のためのエンドツーエンドVRテレプレゼンスシステムについて述べる。
論文 参考訳(メタデータ) (2024-05-25T12:33:40Z) - Beyond Alignment: Blind Video Face Restoration via Parsing-Guided Temporal-Coherent Transformer [21.323165895036354]
そこで本稿では,新しいパーシング誘導時間コヒーレントトランス (PGTFormer) を用いた最初のブラインドビデオ顔復元手法を提案する。
具体的には、時間空間ベクトル量子化オートエンコーダを高品質なビデオ顔データセット上で事前訓練し、表現的文脈に富む先行情報を抽出する。
この戦略はアーチファクトを減らし、顔の事前調整による累積誤差によるジッタを緩和する。
論文 参考訳(メタデータ) (2024-04-21T12:33:07Z) - Image-to-Video Generation via 3D Facial Dynamics [78.01476554323179]
静止画像から様々な映像を生成するために多目的モデルであるFaceAnimeを提案する。
私たちのモデルは、顔ビデオや顔ビデオの予測など、さまざまなAR/VRやエンターテイメントアプリケーションに汎用的です。
論文 参考訳(メタデータ) (2021-05-31T02:30:11Z) - Face2Face: Real-time Face Capture and Reenactment of RGB Videos [66.38142459175191]
Face2Faceは、モノクラーターゲットビデオシーケンスのリアルタイムな顔再現のための新しいアプローチである。
我々は、高密度光度整合度測定を用いて、音源とターゲット映像の両方の表情を追跡する。
我々は、対応するビデオストリーム上に合成されたターゲット顔を再レンダリングする。
論文 参考訳(メタデータ) (2020-07-29T12:47:16Z) - Audio-driven Talking Face Video Generation with Learning-based
Personalized Head Pose [67.31838207805573]
本稿では、音源者の音声信号Aと対象者の短いビデオVを入力とするディープニューラルネットワークモデルを提案する。
我々は、パーソナライズされた頭部ポーズで合成された高品質な会話顔映像を出力する。
提案手法は,最先端の手法よりも,頭部運動効果を識別し,高品質な会話顔ビデオを生成する。
論文 参考訳(メタデータ) (2020-02-24T10:02:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。