論文の概要: VidFace: A Full-Transformer Solver for Video FaceHallucination with
Unaligned Tiny Snapshots
- arxiv url: http://arxiv.org/abs/2105.14954v1
- Date: Mon, 31 May 2021 13:40:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-01 17:08:23.324534
- Title: VidFace: A Full-Transformer Solver for Video FaceHallucination with
Unaligned Tiny Snapshots
- Title(参考訳): vidface - 未調整のスナップショットを持つビデオ顔幻覚のためのフルトランスフォーマーソルバ
- Authors: Yuan Gan, Yawei Luo, Xin Yu, Bang Zhang, Yi Yang
- Abstract要約: 複数のサムネイル間のフルレンジ時間構造と顔構造を利用するために、VidFaceと呼ばれる純粋なトランスフォーマーベースモデルを提案する。
また、パブリックなVoxceleb2ベンチマークから、大規模なビデオ顔幻覚データセットをキュレートする。
- 参考スコア(独自算出の注目度): 40.24311157634526
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we investigate the task of hallucinating an authentic
high-resolution (HR) human face from multiple low-resolution (LR) video
snapshots. We propose a pure transformer-based model, dubbed VidFace, to fully
exploit the full-range spatio-temporal information and facial structure cues
among multiple thumbnails. Specifically, VidFace handles multiple snapshots all
at once and harnesses the spatial and temporal information integrally to
explore face alignments across all the frames, thus avoiding accumulating
alignment errors. Moreover, we design a recurrent position embedding module to
equip our transformer with facial priors, which not only effectively
regularises the alignment mechanism but also supplants notorious pre-training.
Finally, we curate a new large-scale video face hallucination dataset from the
public Voxceleb2 benchmark, which challenges prior arts on tackling unaligned
and tiny face snapshots. To the best of our knowledge, we are the first attempt
to develop a unified transformer-based solver tailored for video-based face
hallucination. Extensive experiments on public video face benchmarks show that
the proposed method significantly outperforms the state of the arts.
- Abstract(参考訳): 本稿では,複数の低解像度(LR)ビデオスナップショットから高解像度(HR)人間の顔を幻覚させる作業について検討する。
複数のサムネイル間のフルレンジ時空間情報と顔構造をフル活用するために、VidFaceと呼ばれる純粋なトランスフォーマーベースモデルを提案する。
具体的には、vidfaceは複数のスナップショットを一度に処理し、空間的および時間的情報を統合的に活用して、すべてのフレームにまたがる顔アライメントを探索することで、アライメントエラーの蓄積を回避する。
さらに,アライメント機構を効果的に定式化するだけでなく,悪名高い事前学習に取って代わる,トランスフォーマーに顔面前野を装着するリカレント位置埋め込みモジュールを設計した。
最後に、公開voxceleb2ベンチマークから、新しい大規模なビデオ顔幻覚データセットをキュレーションします。
我々の知る限りでは、私たちはビデオベースの顔幻覚に適した変換器ベースの統一解法を開発する最初の試みである。
パブリックなビデオフェース・ベンチマークによる大規模な実験により,提案手法が芸術の状態を著しく上回ることを示した。
関連論文リスト
- Video2StyleGAN: Encoding Video in Latent Space for Manipulation [63.03250800510085]
本稿では,顔映像のセマンティックな操作のために,顔映像をStyleGANの潜在空間に符号化する新しいネットワークを提案する。
提案手法は,リアルタイム(66fps)の高速化を実現しつつ,既存の単一画像手法よりも大幅に優れる。
論文 参考訳(メタデータ) (2022-06-27T06:48:15Z) - FakeTransformer: Exposing Face Forgery From Spatial-Temporal
Representation Modeled By Facial Pixel Variations [8.194624568473126]
顔の偽造はあらゆるターゲットを攻撃できるため、個人のプライバシーと財産のセキュリティに新たな脅威をもたらす。
生理的信号の空間的コヒーレンスと時間的一貫性が生成された内容で破壊されるという事実に着想を得て,実ビデオと合成ビデオとを区別できる一貫性のないパターンを見つけ出そうとする。
論文 参考訳(メタデータ) (2021-11-15T08:44:52Z) - UniFaceGAN: A Unified Framework for Temporally Consistent Facial Video
Editing [78.26925404508994]
我々は,UniFaceGANと呼ばれる時間的に一貫した顔画像編集フレームワークを提案する。
本フレームワークは,顔交換と顔再現を同時に行うように設計されている。
現状の顔画像編集法と比較すると,本フレームワークはより写実的で時間的に滑らかな映像像を生成する。
論文 参考訳(メタデータ) (2021-08-12T10:35:22Z) - Image-to-Video Generation via 3D Facial Dynamics [78.01476554323179]
静止画像から様々な映像を生成するために多目的モデルであるFaceAnimeを提案する。
私たちのモデルは、顔ビデオや顔ビデオの予測など、さまざまなAR/VRやエンターテイメントアプリケーションに汎用的です。
論文 参考訳(メタデータ) (2021-05-31T02:30:11Z) - Face2Face: Real-time Face Capture and Reenactment of RGB Videos [66.38142459175191]
Face2Faceは、モノクラーターゲットビデオシーケンスのリアルタイムな顔再現のための新しいアプローチである。
我々は、高密度光度整合度測定を用いて、音源とターゲット映像の両方の表情を追跡する。
我々は、対応するビデオストリーム上に合成されたターゲット顔を再レンダリングする。
論文 参考訳(メタデータ) (2020-07-29T12:47:16Z) - APB2Face: Audio-guided face reenactment with auxiliary pose and blink
signals [15.89326520522585]
音声誘導型顔再現は、実際の人物に話しかける時と同じ顔の動きを維持しながら、音声情報を用いて写実的な顔を生成することを目的としている。
既存の方法では、鮮やかな顔画像を生成したり、低解像度の顔だけを再現できないため、アプリケーションの価値は制限される。
本稿では,Geometry Predictor と FaceReenactor モジュールからなる新しいディープニューラルネットワーク APB2Face を提案する。
論文 参考訳(メタデータ) (2020-04-30T03:44:35Z) - Audio-driven Talking Face Video Generation with Learning-based
Personalized Head Pose [67.31838207805573]
本稿では、音源者の音声信号Aと対象者の短いビデオVを入力とするディープニューラルネットワークモデルを提案する。
我々は、パーソナライズされた頭部ポーズで合成された高品質な会話顔映像を出力する。
提案手法は,最先端の手法よりも,頭部運動効果を識別し,高品質な会話顔ビデオを生成する。
論文 参考訳(メタデータ) (2020-02-24T10:02:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。