論文の概要: HyperLips: Hyper Control Lips with High Resolution Decoder for Talking
Face Generation
- arxiv url: http://arxiv.org/abs/2310.05720v1
- Date: Tue, 10 Oct 2023 05:00:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 04:38:34.411587
- Title: HyperLips: Hyper Control Lips with High Resolution Decoder for Talking
Face Generation
- Title(参考訳): HyperLips:顔生成のための高解像度デコーダ付きハイパーコントロールリップ
- Authors: Yaosen Chen, Yu Yao, Zhiqiang Li, Wei Wang, Yanru Zhang, Han Yang,
Xuming Wen
- Abstract要約: HyperLipsは2段階のフレームワークで、唇を制御するハイパーネットワークと、高忠実度顔のレンダリングを行う高解像度デコーダで構成されている。
第1段階では,ハイパーネットワークを用いたベースフェイス生成ネットワークを構築し,音声による視覚的顔情報の符号化遅延コードを制御する。
第2段階では,高精細デコーダを用いて高品質な顔映像を得る。
- 参考スコア(独自算出の注目度): 21.55822398346139
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Talking face generation has a wide range of potential applications in the
field of virtual digital humans. However, rendering high-fidelity facial video
while ensuring lip synchronization is still a challenge for existing
audio-driven talking face generation approaches. To address this issue, we
propose HyperLips, a two-stage framework consisting of a hypernetwork for
controlling lips and a high-resolution decoder for rendering high-fidelity
faces. In the first stage, we construct a base face generation network that
uses the hypernetwork to control the encoding latent code of the visual face
information over audio. First, FaceEncoder is used to obtain latent code by
extracting features from the visual face information taken from the video
source containing the face frame.Then, HyperConv, which weighting parameters
are updated by HyperNet with the audio features as input, will modify the
latent code to synchronize the lip movement with the audio. Finally,
FaceDecoder will decode the modified and synchronized latent code into visual
face content. In the second stage, we obtain higher quality face videos through
a high-resolution decoder. To further improve the quality of face generation,
we trained a high-resolution decoder, HRDecoder, using face images and detected
sketches generated from the first stage as input.Extensive quantitative and
qualitative experiments show that our method outperforms state-of-the-art work
with more realistic, high-fidelity, and lip synchronization. Project page:
https://semchan.github.io/HyperLips/
- Abstract(参考訳): 対話型顔生成は、仮想デジタル人間の分野において、幅広い可能性を秘めている。
しかし、既存の音声駆動音声合成アプローチでは、高忠実度顔ビデオのレンダリングと唇同期の確保が依然として課題である。
この問題に対処するため,高精細な顔の描画を行うハイパーネットワークと高精細なデコーダからなる2段階フレームワークHyperLipsを提案する。
第1段階では,ハイパーネットワークを用いたベースフェイス生成ネットワークを構築し,音声による視覚的顔情報の符号化遅延コードを制御する。
まず、FaceEncoderを用いて、顔フレームを含むビデオソースから抽出した視覚的顔情報から特徴を抽出し、音声の特徴を入力としてHyperNetによって重み付けパラメータを更新するHyperConvは、潜時コードを変更して、唇の動きをオーディオと同期させる。
最後に、facedecoderは修正および同期された潜在コードをvisual face contentにデコードする。
第2段階では,高精細デコーダを用いて高品質な顔映像を得る。
顔画像を用いた高分解能デコーダHRDecoderを訓練し,第1ステージから生成されたスケッチを入力として検出した。
プロジェクトページ: https://semchan.github.io/HyperLips/
関連論文リスト
- MuseTalk: Real-Time High Quality Lip Synchronization with Latent Space Inpainting [12.852715177163608]
MuseTalkは、変分オートエンコーダによって符号化された潜時空間でリップシンクターゲットを生成する。
オンラインのフェース生成をサポートする。256x256で30 FPS以上で、起動遅延は無視できる。
論文 参考訳(メタデータ) (2024-10-14T03:22:26Z) - RealTalk: Real-time and Realistic Audio-driven Face Generation with 3D Facial Prior-guided Identity Alignment Network [48.95833484103569]
RealTalkは、音声から表現へのトランスフォーマーであり、高忠実な表現から顔へのフレームワークである。
第1成分として, 口唇運動に関連する個人性および個人内変動の特徴について考察した。
第2のコンポーネントでは、軽量な顔認証アライメント(FIA)モジュールを設計する。
この新しい設計により、高度で非効率な特徴アライメントモジュールに依存することなく、リアルタイムに細部を生成できる。
論文 参考訳(メタデータ) (2024-06-26T12:09:59Z) - Controllable Talking Face Generation by Implicit Facial Keypoints Editing [6.036277153327655]
本稿では,音声による表情の変形を制御するための音声合成手法であるControlTalkを提案する。
提案手法は,HDTFやMEADなど,広く使用されているベンチマークにおいて,最先端の性能よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-05T02:54:46Z) - SwapTalk: Audio-Driven Talking Face Generation with One-Shot Customization in Latent Space [13.59798532129008]
我々は,同じ潜在空間における顔交換と唇同期の両タスクを実現する,革新的な統一フレームワークSwapTalkを提案する。
生成した顔ビデオの時系列上でのアイデンティティ一貫性をより包括的に評価するための新しいアイデンティティ一貫性指標を提案する。
HDTF実験の結果,ビデオ品質,リップ同期精度,顔スワップの忠実度,アイデンティティの整合性など,既存の手法をはるかに上回っていることがわかった。
論文 参考訳(メタデータ) (2024-05-09T09:22:09Z) - GSmoothFace: Generalized Smooth Talking Face Generation via Fine Grained
3D Face Guidance [83.43852715997596]
GSmoothFaceは、粒度の細かい3次元顔モデルによってガイドされる、2段階の一般化された話し顔生成モデルである。
スピーカーのアイデンティティを保ちながらスムーズな唇の動きを合成することができる。
定量的および定性的な実験は、リアリズム、唇の同期、視覚的品質の観点から、我々の方法の優位性を確認する。
論文 参考訳(メタデータ) (2023-12-12T16:00:55Z) - Identity-Preserving Talking Face Generation with Landmark and Appearance
Priors [106.79923577700345]
既存の人物生成法は、現実的でリップ同期のビデオを生成するのに困難である。
本稿では,ランドマーク生成とランドマーク・ツー・ビデオレンダリングによる2段階のフレームワークを提案する。
提案手法は,既存の対人顔生成法よりも現実的で,リップシンクで,アイデンティティを保ったビデオを生成することができる。
論文 参考訳(メタデータ) (2023-05-15T01:31:32Z) - GeneFace++: Generalized and Stable Real-Time Audio-Driven 3D Talking
Face Generation [71.73912454164834]
音声-リップ同期の汎用化, 画質の向上, システム効率の向上が期待できる。
NeRFは、数分間のトレーニングビデオで高忠実で3D一貫性のある会話顔生成を実現することができるため、この分野で一般的な技術となっている。
そこで我々は,これらの課題に対処するためにGeneFace++を提案し,ピッチの輪郭を補助的特徴として利用し,顔の動き予測プロセスに時間的損失を導入する。
論文 参考訳(メタデータ) (2023-05-01T12:24:09Z) - Audio-Visual Face Reenactment [34.79242760137663]
本研究は,音声とビジュアルストリームを用いて,リアルな音声ヘッドビデオを生成する新しい手法を提案する。
学習可能なキーポイントを用いて発生する濃密な運動場を用いて、運転映像から頭部の動きを伝達することにより、音源画像のアニメーション化を行う。
我々は、音声を付加入力としてリップシンクの質を改善し、そのネットワークが口領域に到達するのを手助けする。
論文 参考訳(メタデータ) (2022-10-06T08:48:10Z) - DFA-NeRF: Personalized Talking Head Generation via Disentangled Face
Attributes Neural Rendering [69.9557427451339]
本稿では,高忠実度音声ヘッド生成のためのニューラルラジアンス場に基づくフレームワークを提案する。
具体的には、神経放射野は唇運動の特徴とパーソナライズされた属性を2つの不絡状態として捉えている。
本手法は最先端の手法よりもはるかに優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2022-01-03T18:23:38Z) - Pose-Controllable Talking Face Generation by Implicitly Modularized
Audio-Visual Representation [96.66010515343106]
ポーズ制御可能な発話顔を生成するためのクリーンで効果的なフレームワークを提案する。
我々は1枚の写真のみを識別基準として生の顔画像を操作する。
私達のモデルに極度な視野の堅牢性および話す表面前部化を含む複数の高度の機能があります。
論文 参考訳(メタデータ) (2021-04-22T15:10:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。