論文の概要: APB2Face: Audio-guided face reenactment with auxiliary pose and blink
signals
- arxiv url: http://arxiv.org/abs/2004.14569v1
- Date: Thu, 30 Apr 2020 03:44:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 03:50:40.704608
- Title: APB2Face: Audio-guided face reenactment with auxiliary pose and blink
signals
- Title(参考訳): APB2Face:補助ポーズと点滅信号によるオーディオ誘導顔再現
- Authors: Jiangning Zhang, Liang Liu, Zhucun Xue, Yong Liu
- Abstract要約: 音声誘導型顔再現は、実際の人物に話しかける時と同じ顔の動きを維持しながら、音声情報を用いて写実的な顔を生成することを目的としている。
既存の方法では、鮮やかな顔画像を生成したり、低解像度の顔だけを再現できないため、アプリケーションの価値は制限される。
本稿では,Geometry Predictor と FaceReenactor モジュールからなる新しいディープニューラルネットワーク APB2Face を提案する。
- 参考スコア(独自算出の注目度): 15.89326520522585
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio-guided face reenactment aims at generating photorealistic faces using
audio information while maintaining the same facial movement as when speaking
to a real person. However, existing methods can not generate vivid face images
or only reenact low-resolution faces, which limits the application value. To
solve those problems, we propose a novel deep neural network named APB2Face,
which consists of GeometryPredictor and FaceReenactor modules.
GeometryPredictor uses extra head pose and blink state signals as well as audio
to predict the latent landmark geometry information, while FaceReenactor inputs
the face landmark image to reenact the photorealistic face. A new dataset AnnVI
collected from YouTube is presented to support the approach, and experimental
results indicate the superiority of our method than state-of-the-arts, whether
in authenticity or controllability.
- Abstract(参考訳): 音声誘導型顔再現は、実際の人物に話しかける時と同じ顔の動きを維持しながら、音声情報を用いて写実的な顔を生成することを目的としている。
しかし、既存の手法では鮮明な顔画像を生成したり、低解像度な顔だけを再現することはできず、アプリケーション価値が制限される。
これらの問題を解決するために,GeometryPredictorとFaceReenactorモジュールからなる新しいディープニューラルネットワークAPB2Faceを提案する。
geometrypredictorは追加のヘッドポーズと点滅状態の信号とオーディオを使用して潜在ランドマークの幾何情報を予測し、facereenactorは顔ランドマークの画像を入力してフォトリアリスティックな顔を再再現する。
youtube から収集した新たなデータセット annvi が提案され,本手法の信頼性や制御性において,最先端技術よりも優れていることを示す実験結果が得られた。
関連論文リスト
- OSDFace: One-Step Diffusion Model for Face Restoration [72.5045389847792]
拡散モデルは、顔の修復において顕著な性能を示した。
顔復元のための新しいワンステップ拡散モデルOSDFaceを提案する。
その結果,OSDFaceは現状のSOTA(State-of-the-art)手法を視覚的品質と定量的指標の両方で上回っていることがわかった。
論文 参考訳(メタデータ) (2024-11-26T07:07:48Z) - Parametric Implicit Face Representation for Audio-Driven Facial
Reenactment [52.33618333954383]
本稿では,制御可能かつ高品質な発話ヘッドを生成可能な,新しい音声駆動型顔再現フレームワークを提案する。
具体的には、パラメトリックな暗示表現は、3次元顔モデルの解釈可能なパラメータで暗示表現をパラメータ化する。
提案手法は,話者の身元や話し方に忠実な従来手法よりも現実的な結果が得られる。
論文 参考訳(メタデータ) (2023-06-13T07:08:22Z) - Identity-Preserving Talking Face Generation with Landmark and Appearance
Priors [106.79923577700345]
既存の人物生成法は、現実的でリップ同期のビデオを生成するのに困難である。
本稿では,ランドマーク生成とランドマーク・ツー・ビデオレンダリングによる2段階のフレームワークを提案する。
提案手法は,既存の対人顔生成法よりも現実的で,リップシンクで,アイデンティティを保ったビデオを生成することができる。
論文 参考訳(メタデータ) (2023-05-15T01:31:32Z) - Graph-based Generative Face Anonymisation with Pose Preservation [49.18049578591058]
AnonyGANは、顔の匿名化のためのGANベースのソリューションである。
ソースアイデンティティに対応する視覚情報を、任意の単一のイメージとして提供される条件IDに置き換える。
論文 参考訳(メタデータ) (2021-12-10T12:58:17Z) - Learning Continuous Face Representation with Explicit Functions [20.5159277443333]
数学用語の有限和の形で人間の顔表現のための明示的モデル(EmFace)を提案する。
EmFaceは、顔画像の復元、デノイング、変換など、複数の顔画像処理タスクで合理的なパフォーマンスを実現している。
論文 参考訳(メタデータ) (2021-10-25T03:49:20Z) - Image-to-Video Generation via 3D Facial Dynamics [78.01476554323179]
静止画像から様々な映像を生成するために多目的モデルであるFaceAnimeを提案する。
私たちのモデルは、顔ビデオや顔ビデオの予測など、さまざまなAR/VRやエンターテイメントアプリケーションに汎用的です。
論文 参考訳(メタデータ) (2021-05-31T02:30:11Z) - One Shot Face Swapping on Megapixels [65.47443090320955]
本稿では,顔面スワッピング(略してMegaFS)における最初のメガピクセルレベル法を提案する。
本手法の成功に対する3つの新しい貢献は,顔の完全な表現,安定したトレーニング,限られたメモリ使用量である。
論文 参考訳(メタデータ) (2021-05-11T10:41:47Z) - APB2FaceV2: Real-Time Audio-Guided Multi-Face Reenactment [25.619906272417303]
本稿では,emphAPB2FaceV2という新しいemphReal-time emphAudio-guided emphMulti-face Reenactmentアプローチを提案する。
対応する基準面を持つ複数の人物間で異なる目標面を再現し、入力として音声信号を駆動することができる。
論文 参考訳(メタデータ) (2020-10-25T02:30:09Z) - FaR-GAN for One-Shot Face Reenactment [20.894596219099164]
本稿では,任意の音源の顔画像とターゲット表現のみを入力として用いた一発顔再現モデルFaR-GANを提案する。
提案手法は,音源の同一性,表情,頭部ポーズ,さらには画像背景についても仮定しない。
論文 参考訳(メタデータ) (2020-05-13T16:15:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。