論文の概要: SyncTalk: The Devil is in the Synchronization for Talking Head Synthesis
- arxiv url: http://arxiv.org/abs/2311.17590v2
- Date: Sun, 28 Apr 2024 13:54:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-01 00:15:22.157295
- Title: SyncTalk: The Devil is in the Synchronization for Talking Head Synthesis
- Title(参考訳): SyncTalk: the Devil is in the Synchronization for Talking Head Synthesis
- Authors: Ziqiao Peng, Wentao Hu, Yue Shi, Xiangyu Zhu, Xiaomei Zhang, Hao Zhao, Jun He, Hongyan Liu, Zhaoxin Fan,
- Abstract要約: ライフライクな話しの頭は、主題のアイデンティティ、唇の動き、表情、頭ポーズを同期的に調整する必要がある。
従来のGAN(Generative Adversarial Networks)は、一貫した顔認証を維持するのに苦労している。
音声ヘッド合成における主観的同一性, 同期性, リアリズムを効果的に維持する。
- 参考スコア(独自算出の注目度): 24.565073576385913
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Achieving high synchronization in the synthesis of realistic, speech-driven talking head videos presents a significant challenge. Traditional Generative Adversarial Networks (GAN) struggle to maintain consistent facial identity, while Neural Radiance Fields (NeRF) methods, although they can address this issue, often produce mismatched lip movements, inadequate facial expressions, and unstable head poses. A lifelike talking head requires synchronized coordination of subject identity, lip movements, facial expressions, and head poses. The absence of these synchronizations is a fundamental flaw, leading to unrealistic and artificial outcomes. To address the critical issue of synchronization, identified as the "devil" in creating realistic talking heads, we introduce SyncTalk. This NeRF-based method effectively maintains subject identity, enhancing synchronization and realism in talking head synthesis. SyncTalk employs a Face-Sync Controller to align lip movements with speech and innovatively uses a 3D facial blendshape model to capture accurate facial expressions. Our Head-Sync Stabilizer optimizes head poses, achieving more natural head movements. The Portrait-Sync Generator restores hair details and blends the generated head with the torso for a seamless visual experience. Extensive experiments and user studies demonstrate that SyncTalk outperforms state-of-the-art methods in synchronization and realism. We recommend watching the supplementary video: https://ziqiaopeng.github.io/synctalk
- Abstract(参考訳): 現実的な音声駆動型音声ヘッドビデオの合成における高同期の実現は、重要な課題である。
従来のGAN(Generative Adversarial Networks)は、一貫性のある顔のアイデンティティを維持するのに苦労するが、Neural Radiance Fields(NeRF)メソッドはこの問題に対処できる。
ライフライクな話しの頭は、主題のアイデンティティ、唇の動き、表情、頭ポーズを同期的に調整する必要がある。
これらの同期が存在しないことは根本的な欠陥であり、非現実的で人工的な結果をもたらす。
実話の頭を作る際の「悪魔」と認識される同期の重大な問題に対処するため,SyncTalkを紹介した。
音声ヘッド合成における主観的同一性、同期性、リアリズムを効果的に維持する。
SyncTalkは、唇の動きを音声に合わせるためにFace-Sync Controllerを使用し、革新的に3D顔ブレンドシェープモデルを使用して正確な表情をキャプチャする。
私たちのヘッドシンク・スタビライザーは頭部の動きを最適化し、より自然な頭部の動きを実現します。
Portrait-Sync Generatorは髪の細部を復元し、生成した頭部と胴体をブレンドして、シームレスな視覚体験を提供する。
大規模な実験とユーザスタディにより、SyncTalkは同期およびリアリズムにおいて最先端の手法より優れていることが示された。
補足ビデオを見ることをお勧めします。 https://ziqiaopeng.github.io/synctalk
関連論文リスト
- ReSyncer: Rewiring Style-based Generator for Unified Audio-Visually Synced Facial Performer [87.32518573172631]
ReSyncerは運動と外観を統合トレーニングで融合する。
パーソナライズされたパーソナライズされた微調整、ビデオ駆動のリップシンク、話すスタイルの転送、顔交換までサポートしています。
論文 参考訳(メタデータ) (2024-08-06T16:31:45Z) - SwapTalk: Audio-Driven Talking Face Generation with One-Shot Customization in Latent Space [13.59798532129008]
我々は,同じ潜在空間における顔交換と唇同期の両タスクを実現する,革新的な統一フレームワークSwapTalkを提案する。
生成した顔ビデオの時系列上でのアイデンティティ一貫性をより包括的に評価するための新しいアイデンティティ一貫性指標を提案する。
HDTF実験の結果,ビデオ品質,リップ同期精度,顔スワップの忠実度,アイデンティティの整合性など,既存の手法をはるかに上回っていることがわかった。
論文 参考訳(メタデータ) (2024-05-09T09:22:09Z) - DREAM-Talk: Diffusion-based Realistic Emotional Audio-driven Method for
Single Image Talking Face Generation [75.90730434449874]
DREAM-Talkは2段階の拡散に基づく音声駆動フレームワークで,多彩な表現と正確な唇同期の同時生成に適したフレームワークである。
唇の動きと音声との強い相関を考慮し、音声特徴と感情スタイルを用いて、唇同期精度を向上して力学を洗練する。
定量的かつ質的にも、DREAM-Talkは表現性、リップシンクの精度、知覚品質の点で最先端の手法より優れている。
論文 参考訳(メタデータ) (2023-12-21T05:03:18Z) - GestSync: Determining who is speaking without a talking head [67.75387744442727]
本稿では,ジェスチャ・シンク (Gesture-Sync) を導入する。
Lip-Syncと比較して、Gesture-Syncは、声と体の動きの間にはるかに緩い関係があるため、はるかに難しい。
このモデルは自己教師付き学習だけで訓練でき、LSS3データセット上での性能を評価することができる。
論文 参考訳(メタデータ) (2023-10-08T22:48:30Z) - Speech2Lip: High-fidelity Speech to Lip Generation by Learning from a
Short Video [91.92782707888618]
本稿では,音声の知覚と音声の知覚を両立させるSpeech2Lip(Speech2Lip)という分解合成フレームワークを提案する。
提案手法は,数分間のビデオで学習し,視覚的品質と音声・視覚的同期の両面において最先端のパフォーマンスを達成可能であることを示す。
論文 参考訳(メタデータ) (2023-09-09T14:52:39Z) - Audio-driven Talking Face Generation with Stabilized Synchronization Loss [60.01529422759644]
トーキング・フェイスジェネレーションは、正確な唇の同期と高い視覚的品質でリアルなビデオを作成することを目的としている。
まずサイレント・リップ・ジェネレータを導入することでリップリーク問題に対処する。
実験の結果,我々のモデルは視覚的品質と唇の同期の両方において最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-18T15:50:04Z) - Talking-head Generation with Rhythmic Head Motion [46.6897675583319]
本稿では,ハイブリッド埋め込みモジュールと非線形合成モジュールを備えた3次元認識型生成ネットワークを提案する。
提案手法は, 自然な頭部運動を伴う制御可能, フォトリアリスティック, 時間的コヒーレントなトーキングヘッドビデオを実現する。
論文 参考訳(メタデータ) (2020-07-16T18:13:40Z) - Audio-driven Talking Face Video Generation with Learning-based
Personalized Head Pose [67.31838207805573]
本稿では、音源者の音声信号Aと対象者の短いビデオVを入力とするディープニューラルネットワークモデルを提案する。
我々は、パーソナライズされた頭部ポーズで合成された高品質な会話顔映像を出力する。
提案手法は,最先端の手法よりも,頭部運動効果を識別し,高品質な会話顔ビデオを生成する。
論文 参考訳(メタデータ) (2020-02-24T10:02:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。