論文の概要: SyncTalk++: High-Fidelity and Efficient Synchronized Talking Heads Synthesis Using Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2506.14742v1
- Date: Tue, 17 Jun 2025 17:22:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.593204
- Title: SyncTalk++: High-Fidelity and Efficient Synchronized Talking Heads Synthesis Using Gaussian Splatting
- Title(参考訳): SyncTalk++:ガウススメッティングを用いた高忠実かつ高効率な音声頭合成
- Authors: Ziqiao Peng, Wentao Hu, Junyuan Ma, Xiangyu Zhu, Xiaomei Zhang, Hao Zhao, Hui Tian, Jun He, Hongyan Liu, Zhaoxin Fan,
- Abstract要約: ライフライクな話しの頭は、主題のアイデンティティ、唇の動き、表情、頭ポーズを同期的に調整する必要がある。
そこで我々はSyncTalk++を導入し,現実的な発話ヘッド生成において,'devil'として認識される同期の重要な問題に対処する。
提案手法は、フレーム間の視覚的詳細性の一貫性と連続性を維持し、レンダリング速度と品質を大幅に改善し、毎秒101フレームを実現している。
- 参考スコア(独自算出の注目度): 25.523486023087916
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Achieving high synchronization in the synthesis of realistic, speech-driven talking head videos presents a significant challenge. A lifelike talking head requires synchronized coordination of subject identity, lip movements, facial expressions, and head poses. The absence of these synchronizations is a fundamental flaw, leading to unrealistic results. To address the critical issue of synchronization, identified as the ''devil'' in creating realistic talking heads, we introduce SyncTalk++, which features a Dynamic Portrait Renderer with Gaussian Splatting to ensure consistent subject identity preservation and a Face-Sync Controller that aligns lip movements with speech while innovatively using a 3D facial blendshape model to reconstruct accurate facial expressions. To ensure natural head movements, we propose a Head-Sync Stabilizer, which optimizes head poses for greater stability. Additionally, SyncTalk++ enhances robustness to out-of-distribution (OOD) audio by incorporating an Expression Generator and a Torso Restorer, which generate speech-matched facial expressions and seamless torso regions. Our approach maintains consistency and continuity in visual details across frames and significantly improves rendering speed and quality, achieving up to 101 frames per second. Extensive experiments and user studies demonstrate that SyncTalk++ outperforms state-of-the-art methods in synchronization and realism. We recommend watching the supplementary video: https://ziqiaopeng.github.io/synctalk++.
- Abstract(参考訳): 現実的な音声駆動型音声ヘッドビデオの合成における高同期の実現は、重要な課題である。
ライフライクな話しの頭は、主題のアイデンティティ、唇の動き、表情、頭ポーズを同期的に調整する必要がある。
これらの同期が存在しないことは根本的な欠陥であり、非現実的な結果をもたらす。
現実的な話し声を生成する上で「悪魔」として認識される同期の重大な問題に対処するため,ガウス・スプラッティングを用いたダイナミック・ポートレート・レンダラーを特徴とするSyncTalk++と,正確な表情を再現するために3次元顔ブレンドシェープモデルを用いて,唇の動きを音声と整合させるFace-Sync Controllerを導入する。
頭部の運動を確実にするために,頭部の姿勢を最適化し,安定性を高めるヘッドシンク安定化器を提案する。
さらにSyncTalk++は、表情にマッチした表情とシームレスな胴体領域を生成するExpression GeneratorとTorso Restorerを組み込むことで、アウト・オブ・ディストリビューション(OOD)オーディオに対する堅牢性を高める。
提案手法は、フレーム間の視覚的詳細性の一貫性と連続性を維持し、レンダリング速度と品質を大幅に改善し、毎秒101フレームを実現している。
大規模な実験とユーザスタディにより、SyncTalk++は同期およびリアリズムにおいて最先端のメソッドより優れていることが示されている。
補足ビデオをご覧ください。 https://ziqiaopeng.github.io/synctalk++。
関連論文リスト
- OmniSync: Towards Universal Lip Synchronization via Diffusion Transformers [13.623360048766603]
我々は,多様な視覚シナリオを対象とした共通唇同期フレームワークであるOmniSyncを紹介する。
提案手法では,Diffusion Transformerモデルを用いたマスクのないトレーニングパラダイムを導入し,マスクを明示せずに直接フレーム編集を行う。
AI生成ビデオにおけるリップシンクのための最初の評価スイートであるAICLipSync Benchmarkも確立した。
論文 参考訳(メタデータ) (2025-05-27T17:20:38Z) - AsynFusion: Towards Asynchronous Latent Consistency Models for Decoupled Whole-Body Audio-Driven Avatars [65.53676584955686]
全体オーディオ駆動型アバターポーズと表現生成は、生命に似たデジタル人間を作るための重要なタスクである。
本稿では,拡散変換器を応用し,結合表現とジェスチャ合成を実現する新しいフレームワークAsynFusionを提案する。
AsynFusionは、リアルタイムで同期された全身アニメーションを生成する際に最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-21T03:28:53Z) - SyncAnimation: A Real-Time End-to-End Framework for Audio-Driven Human Pose and Talking Head Animation [4.374174045576293]
我々は,音声駆動,安定,リアルタイムな発話アバター生成を実現する最初のNeRFベースの手法SyncAnimationを紹介する。
AudioPose SyncerとAudioEmotion Syncerを統合することで、SyncAnimationは高精度なポーズと表現生成を実現する。
High-Synchronization Human Rendererは頭部と上半身のシームレスな統合を保証し、オーディオ同期リップを実現する。
論文 参考訳(メタデータ) (2025-01-24T17:14:25Z) - ReSyncer: Rewiring Style-based Generator for Unified Audio-Visually Synced Facial Performer [87.32518573172631]
ReSyncerは運動と外観を統合トレーニングで融合する。
パーソナライズされたパーソナライズされた微調整、ビデオ駆動のリップシンク、話すスタイルの転送、顔交換までサポートしています。
論文 参考訳(メタデータ) (2024-08-06T16:31:45Z) - SyncTalk: The Devil is in the Synchronization for Talking Head Synthesis [24.565073576385913]
ライフライクな話しの頭は、主題のアイデンティティ、唇の動き、表情、頭ポーズを同期的に調整する必要がある。
従来のGAN(Generative Adversarial Networks)は、一貫した顔認証を維持するのに苦労している。
音声ヘッド合成における主観的同一性, 同期性, リアリズムを効果的に維持する。
論文 参考訳(メタデータ) (2023-11-29T12:35:34Z) - GestSync: Determining who is speaking without a talking head [67.75387744442727]
本稿では,ジェスチャ・シンク (Gesture-Sync) を導入する。
Lip-Syncと比較して、Gesture-Syncは、声と体の動きの間にはるかに緩い関係があるため、はるかに難しい。
このモデルは自己教師付き学習だけで訓練でき、LSS3データセット上での性能を評価することができる。
論文 参考訳(メタデータ) (2023-10-08T22:48:30Z) - Audio-driven Talking Face Generation with Stabilized Synchronization Loss [60.01529422759644]
トーキング・フェイスジェネレーションは、正確な唇の同期と高い視覚的品質でリアルなビデオを作成することを目的としている。
まずサイレント・リップ・ジェネレータを導入することでリップリーク問題に対処する。
実験の結果,我々のモデルは視覚的品質と唇の同期の両方において最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-18T15:50:04Z) - StyleSync: High-Fidelity Generalized and Personalized Lip Sync in
Style-based Generator [85.40502725367506]
高忠実度唇同期を実現する効果的なフレームワークであるStyleSyncを提案する。
具体的には、所定の顔の詳細を保存したマスク誘導空間情報符号化モジュールを設計する。
また,限られたフレームのみにスタイル空間とジェネレータの改良を導入することで,パーソナライズされたリップシンクを実現する。
論文 参考訳(メタデータ) (2023-05-09T13:38:13Z) - Pose-Controllable Talking Face Generation by Implicitly Modularized
Audio-Visual Representation [96.66010515343106]
ポーズ制御可能な発話顔を生成するためのクリーンで効果的なフレームワークを提案する。
我々は1枚の写真のみを識別基準として生の顔画像を操作する。
私達のモデルに極度な視野の堅牢性および話す表面前部化を含む複数の高度の機能があります。
論文 参考訳(メタデータ) (2021-04-22T15:10:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。