論文の概要: OPT: One-shot Pose-Controllable Talking Head Generation
- arxiv url: http://arxiv.org/abs/2302.08197v1
- Date: Thu, 16 Feb 2023 10:26:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-17 14:16:32.277762
- Title: OPT: One-shot Pose-Controllable Talking Head Generation
- Title(参考訳): OPT:ワンショットで会話ができるヘッドジェネレーション
- Authors: Jin Liu, Xi Wang, Xiaomeng Fu, Yesheng Chai, Cai Yu, Jiao Dai, Jizhong
Han
- Abstract要約: ワンショット音声ヘッド生成は任意の音声と1つの音源面に基づいてリップシンク音声ヘッドを生成する。
ワンショット・ポーズ制御型トーキング・ヘッド・ジェネレーション・ネットワーク(OPT)を提案する。
OPTは、アイデンティティミスマッチ問題のない高品質なポーズ制御可能な音声ヘッドを生成し、従来のSOTA法より優れていた。
- 参考スコア(独自算出の注目度): 14.205344055665414
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One-shot talking head generation produces lip-sync talking heads based on
arbitrary audio and one source face. To guarantee the naturalness and realness,
recent methods propose to achieve free pose control instead of simply editing
mouth areas. However, existing methods do not preserve accurate identity of
source face when generating head motions. To solve the identity mismatch
problem and achieve high-quality free pose control, we present One-shot
Pose-controllable Talking head generation network (OPT). Specifically, the
Audio Feature Disentanglement Module separates content features from audios,
eliminating the influence of speaker-specific information contained in
arbitrary driving audios. Later, the mouth expression feature is extracted from
the content feature and source face, during which the landmark loss is designed
to enhance the accuracy of facial structure and identity preserving quality.
Finally, to achieve free pose control, controllable head pose features from
reference videos are fed into the Video Generator along with the expression
feature and source face to generate new talking heads. Extensive quantitative
and qualitative experimental results verify that OPT generates high-quality
pose-controllable talking heads with no identity mismatch problem,
outperforming previous SOTA methods.
- Abstract(参考訳): ワンショット音声ヘッド生成は任意の音声と1つの音源面に基づいてリップシンク音声ヘッドを生成する。
自然さと現実性を保証するため,近年の手法では,口領域を編集する代わりに自由ポーズ制御を実現する方法が提案されている。
しかし,既存の手法では頭部運動の発生時の音源面の正確な識別は保存されていない。
アイデンティティミスマッチを解消し,高品質なポーズ制御を実現するために,ワンショットポーズ制御型音声ヘッド生成ネットワーク(opt)を提案する。
具体的には、Audio Feature Disentanglement Moduleは、任意の駆動オーディオに含まれる話者固有の情報の影響を排除し、コンテンツ機能とオーディオを分離する。
その後、コンテンツ特徴およびソース面から口表情特徴を抽出し、ランドマークロスを設計して、顔の構造とアイデンティティ保存品質の精度を高める。
最後に、自由ポーズ制御を実現するために、参照ビデオからの制御可能な頭部ポーズ機能を映像生成装置に入力し、表情特徴とソースフェースと合わせて新たなトーキングヘッドを生成する。
広汎な定量的および定性的な実験結果から,OPTは同一性ミスマッチ問題のない高品質なポーズ制御可能な音声ヘッドを生成し,従来のSOTA法より優れていた。
関連論文リスト
- PoseTalk: Text-and-Audio-based Pose Control and Motion Refinement for One-Shot Talking Head Generation [17.158581488104186]
従来の音声駆動型音声ヘッド生成(THG)手法は、音声の駆動から頭部ポーズを生成する。
テキストプロンプトと音声に条件付の自由なポーズで、リップ同期音声ヘッドビデオを自由に生成できるTHGシステムである textbfPoseTalk を提案する。
論文 参考訳(メタデータ) (2024-09-04T12:30:25Z) - Controllable Talking Face Generation by Implicit Facial Keypoints Editing [6.036277153327655]
本稿では,音声による表情の変形を制御するための音声合成手法であるControlTalkを提案する。
提案手法は,HDTFやMEADなど,広く使用されているベンチマークにおいて,最先端の性能よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-05T02:54:46Z) - MFR-Net: Multi-faceted Responsive Listening Head Generation via
Denoising Diffusion Model [14.220727407255966]
応答型リスニングヘッド生成は,対面コミュニケーションのシナリオをモデル化することを目的とした重要な課題である。
我々は,textbfMulti-textbfFaceted textbfResponsive Listening Head Generation Network (MFR-Net)を提案する。
論文 参考訳(メタデータ) (2023-08-31T11:10:28Z) - Identity-Preserving Talking Face Generation with Landmark and Appearance
Priors [106.79923577700345]
既存の人物生成法は、現実的でリップ同期のビデオを生成するのに困難である。
本稿では,ランドマーク生成とランドマーク・ツー・ビデオレンダリングによる2段階のフレームワークを提案する。
提案手法は,既存の対人顔生成法よりも現実的で,リップシンクで,アイデンティティを保ったビデオを生成することができる。
論文 参考訳(メタデータ) (2023-05-15T01:31:32Z) - FONT: Flow-guided One-shot Talking Head Generation with Natural Head
Motions [14.205344055665414]
フロー誘導ワンショットモデルは生成した音声の頭上でのNaTuralヘッドの動きを達成する。
ヘッドポーズ予測モジュールは、ソース顔からヘッドポーズシーケンスを生成し、オーディオを駆動するように設計されている。
論文 参考訳(メタデータ) (2023-03-31T03:25:06Z) - GeneFace: Generalized and High-Fidelity Audio-Driven 3D Talking Face
Synthesis [62.297513028116576]
GeneFace は、汎用的で高忠実な NeRF ベースの話し顔生成法である。
ヘッド・トルソ問題を解消するために,ヘッド・アウェア・トルソ・NeRFを提案する。
論文 参考訳(メタデータ) (2023-01-31T05:56:06Z) - Masked Lip-Sync Prediction by Audio-Visual Contextual Exploitation in
Transformers [91.00397473678088]
従来の研究では、任意の目標の音声条件に対して、口唇同期音声を正確に生成する方法が検討されている。
本稿では,映像品質の正確なリップ同期を実現するAV-CAT(Audio-Visual Context-Aware Transformer)フレームワークを提案する。
我々のモデルは任意の被験者に対して高忠実度リップ同期結果を生成することができる。
論文 参考訳(メタデータ) (2022-12-09T16:32:46Z) - DFA-NeRF: Personalized Talking Head Generation via Disentangled Face
Attributes Neural Rendering [69.9557427451339]
本稿では,高忠実度音声ヘッド生成のためのニューラルラジアンス場に基づくフレームワークを提案する。
具体的には、神経放射野は唇運動の特徴とパーソナライズされた属性を2つの不絡状態として捉えている。
本手法は最先端の手法よりもはるかに優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2022-01-03T18:23:38Z) - Pose-Controllable Talking Face Generation by Implicitly Modularized
Audio-Visual Representation [96.66010515343106]
ポーズ制御可能な発話顔を生成するためのクリーンで効果的なフレームワークを提案する。
我々は1枚の写真のみを識別基準として生の顔画像を操作する。
私達のモデルに極度な視野の堅牢性および話す表面前部化を含む複数の高度の機能があります。
論文 参考訳(メタデータ) (2021-04-22T15:10:26Z) - HeadGAN: One-shot Neural Head Synthesis and Editing [70.30831163311296]
HeadGANは、3D顔表現を合成し、任意の参照画像の顔形状に適応するシステムです。
3D顔表現により、圧縮と再構築の効率的な方法、表現とポーズ編集のツールとしてさらに使用できるようになります。
論文 参考訳(メタデータ) (2020-12-15T12:51:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。