論文の概要: FONT: Flow-guided One-shot Talking Head Generation with Natural Head
Motions
- arxiv url: http://arxiv.org/abs/2303.17789v1
- Date: Fri, 31 Mar 2023 03:25:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-03 15:18:47.758271
- Title: FONT: Flow-guided One-shot Talking Head Generation with Natural Head
Motions
- Title(参考訳): FONT:自然運動を用いたフロー誘導ワンショットトーキングヘッドジェネレーション
- Authors: Jin Liu, Xi Wang, Xiaomeng Fu, Yesheng Chai, Cai Yu, Jiao Dai, Jizhong
Han
- Abstract要約: フロー誘導ワンショットモデルは生成した音声の頭上でのNaTuralヘッドの動きを達成する。
ヘッドポーズ予測モジュールは、ソース顔からヘッドポーズシーケンスを生成し、オーディオを駆動するように設計されている。
- 参考スコア(独自算出の注目度): 14.205344055665414
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One-shot talking head generation has received growing attention in recent
years, with various creative and practical applications. An ideal natural and
vivid generated talking head video should contain natural head pose changes.
However, it is challenging to map head pose sequences from driving audio since
there exists a natural gap between audio-visual modalities. In this work, we
propose a Flow-guided One-shot model that achieves NaTural head motions(FONT)
over generated talking heads. Specifically, the head pose prediction module is
designed to generate head pose sequences from the source face and driving
audio. We add the random sampling operation and the structural similarity
constraint to model the diversity in the one-to-many mapping between
audio-visual modality, thus predicting natural head poses. Then we develop a
keypoint predictor that produces unsupervised keypoints from the source face,
driving audio and pose sequences to describe the facial structure information.
Finally, a flow-guided occlusion-aware generator is employed to produce
photo-realistic talking head videos from the estimated keypoints and source
face. Extensive experimental results prove that FONT generates talking heads
with natural head poses and synchronized mouth shapes, outperforming other
compared methods.
- Abstract(参考訳): ワンショット音声ヘッドジェネレーションは近年注目され、様々な創造的、実用的な応用がなされている。
理想的な自然かつ鮮明な音声ヘッドビデオは、自然な頭部ポーズの変化を含むべきである。
しかし、音声・視覚的モダリティの間に自然なギャップがあるため、ヘッドポーズシーケンスを駆動音からマッピングすることは困難である。
本研究では,生成した音声の頭上でのNaTural Head Motions(FONT)を実現するフロー誘導ワンショットモデルを提案する。
具体的には、ヘッドポーズ予測モジュールは、ソースフェイスと駆動オーディオからヘッドポーズシーケンスを生成するように設計されている。
ランダムサンプリング操作と構造的類似性制約を加え,音声-視覚間の一対多マッピングの多様性をモデル化し,自然な頭部ポーズを予測する。
次に,音源から教師なしのキーポイントを生成し,音声とポーズのシーケンスを駆動し,顔構造情報を記述するキーポイント予測器を開発する。
最後に、フロー誘導オクルージョン対応ジェネレータを用いて、推定キーポイントとソースフェイスから写真リアルな音声ヘッドビデオを生成する。
広範な実験結果から、FONTは自然な頭部のポーズや口形状の同期による発話ヘッドを生成し、他の比較手法よりも優れていることが証明された。
関連論文リスト
- PoseTalk: Text-and-Audio-based Pose Control and Motion Refinement for One-Shot Talking Head Generation [17.158581488104186]
従来の音声駆動型音声ヘッド生成(THG)手法は、音声の駆動から頭部ポーズを生成する。
テキストプロンプトと音声に条件付の自由なポーズで、リップ同期音声ヘッドビデオを自由に生成できるTHGシステムである textbfPoseTalk を提案する。
論文 参考訳(メタデータ) (2024-09-04T12:30:25Z) - OSM-Net: One-to-Many One-shot Talking Head Generation with Spontaneous
Head Motions [14.220727407255966]
ワンショット音声ヘッド生成は、明示的な頭部運動参照を持たない。
我々は,自然な頭部動作を持つテキスト・ツー・マニア・ワンショット・トーキング・ヘッド・ジェネレーション・ネットワークであるOSM-Netを提案する。
論文 参考訳(メタデータ) (2023-09-28T03:51:54Z) - DisCoHead: Audio-and-Video-Driven Talking Head Generation by
Disentangled Control of Head Pose and Facial Expressions [21.064765388027727]
DisCoHeadは、ヘッドポーズと顔の表情を監督なしで切り離し、制御する新しい方法である。
DisCoHeadは、リアルな音声およびビデオ駆動音声ヘッドを生成し、最先端の手法より優れています。
論文 参考訳(メタデータ) (2023-03-14T08:22:18Z) - OPT: One-shot Pose-Controllable Talking Head Generation [14.205344055665414]
ワンショット音声ヘッド生成は任意の音声と1つの音源面に基づいてリップシンク音声ヘッドを生成する。
ワンショット・ポーズ制御型トーキング・ヘッド・ジェネレーション・ネットワーク(OPT)を提案する。
OPTは、アイデンティティミスマッチ問題のない高品質なポーズ制御可能な音声ヘッドを生成し、従来のSOTA法より優れていた。
論文 参考訳(メタデータ) (2023-02-16T10:26:52Z) - GeneFace: Generalized and High-Fidelity Audio-Driven 3D Talking Face
Synthesis [62.297513028116576]
GeneFace は、汎用的で高忠実な NeRF ベースの話し顔生成法である。
ヘッド・トルソ問題を解消するために,ヘッド・アウェア・トルソ・NeRFを提案する。
論文 参考訳(メタデータ) (2023-01-31T05:56:06Z) - Diffused Heads: Diffusion Models Beat GANs on Talking-Face Generation [54.68893964373141]
顔の生成は、これまで、追加の参照ビデオからのガイダンスなしで、頭の動きや自然な表情を作り出すのに苦労してきた。
拡散に基づく生成モデルの最近の発展は、より現実的で安定したデータ合成を可能にする。
本稿では,現実的な人間の頭部の映像を生成するために,1つのアイデンティティ画像と音声シーケンスのみを必要とする自己回帰拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-01-06T14:16:54Z) - DialogueNeRF: Towards Realistic Avatar Face-to-Face Conversation Video
Generation [54.84137342837465]
対面会話は毎日の会話の大部分を占める。
既存の手法のほとんどは、一人称音声音声生成に重点を置いている。
ニューラルレイディアンスフィールド(NeRF)に基づく新しい統合フレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-15T14:16:49Z) - DFA-NeRF: Personalized Talking Head Generation via Disentangled Face
Attributes Neural Rendering [69.9557427451339]
本稿では,高忠実度音声ヘッド生成のためのニューラルラジアンス場に基づくフレームワークを提案する。
具体的には、神経放射野は唇運動の特徴とパーソナライズされた属性を2つの不絡状態として捉えている。
本手法は最先端の手法よりもはるかに優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2022-01-03T18:23:38Z) - Audio2Head: Audio-driven One-shot Talking-head Generation with Natural
Head Motion [34.406907667904996]
単一の参照画像から写真リアルなトーキングヘッド映像を生成するための音声駆動型トーキングヘッド手法を提案する。
動き認識型リカレントニューラルネットワーク(RNN)を用いた剛性6次元頭部運動のモデル化により,まず頭部ポーズ予測器を設計する。
そこで我々は,入力音声,頭部ポーズ,参照画像から高密度な運動場を生成する運動場生成装置を開発した。
論文 参考訳(メタデータ) (2021-07-20T07:22:42Z) - Pose-Controllable Talking Face Generation by Implicitly Modularized
Audio-Visual Representation [96.66010515343106]
ポーズ制御可能な発話顔を生成するためのクリーンで効果的なフレームワークを提案する。
我々は1枚の写真のみを識別基準として生の顔画像を操作する。
私達のモデルに極度な視野の堅牢性および話す表面前部化を含む複数の高度の機能があります。
論文 参考訳(メタデータ) (2021-04-22T15:10:26Z) - Audio-driven Talking Face Video Generation with Learning-based
Personalized Head Pose [67.31838207805573]
本稿では、音源者の音声信号Aと対象者の短いビデオVを入力とするディープニューラルネットワークモデルを提案する。
我々は、パーソナライズされた頭部ポーズで合成された高品質な会話顔映像を出力する。
提案手法は,最先端の手法よりも,頭部運動効果を識別し,高品質な会話顔ビデオを生成する。
論文 参考訳(メタデータ) (2020-02-24T10:02:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。