論文の概要: SyncAnimation: A Real-Time End-to-End Framework for Audio-Driven Human Pose and Talking Head Animation
- arxiv url: http://arxiv.org/abs/2501.14646v1
- Date: Fri, 24 Jan 2025 17:14:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-27 14:56:46.229991
- Title: SyncAnimation: A Real-Time End-to-End Framework for Audio-Driven Human Pose and Talking Head Animation
- Title(参考訳): SyncAnimation: 音声駆動型ヒューマンメッセージと対話型ヘッドアニメーションのためのリアルタイムエンドツーエンドフレームワーク
- Authors: Yujian Liu, Shidang Xu, Jing Guo, Dingbin Wang, Zairan Wang, Xianfeng Tan, Xiaoli Liu,
- Abstract要約: 我々は,音声駆動,安定,リアルタイムな発話アバター生成を実現する最初のNeRFベースの手法SyncAnimationを紹介する。
AudioPose SyncerとAudioEmotion Syncerを統合することで、SyncAnimationは高精度なポーズと表現生成を実現する。
High-Synchronization Human Rendererは頭部と上半身のシームレスな統合を保証し、オーディオ同期リップを実現する。
- 参考スコア(独自算出の注目度): 4.374174045576293
- License:
- Abstract: Generating talking avatar driven by audio remains a significant challenge. Existing methods typically require high computational costs and often lack sufficient facial detail and realism, making them unsuitable for applications that demand high real-time performance and visual quality. Additionally, while some methods can synchronize lip movement, they still face issues with consistency between facial expressions and upper body movement, particularly during silent periods. In this paper, we introduce SyncAnimation, the first NeRF-based method that achieves audio-driven, stable, and real-time generation of speaking avatar by combining generalized audio-to-pose matching and audio-to-expression synchronization. By integrating AudioPose Syncer and AudioEmotion Syncer, SyncAnimation achieves high-precision poses and expression generation, progressively producing audio-synchronized upper body, head, and lip shapes. Furthermore, the High-Synchronization Human Renderer ensures seamless integration of the head and upper body, and achieves audio-sync lip. The project page can be found at https://syncanimation.github.io
- Abstract(参考訳): 音声によって駆動される会話アバターの生成は、依然として大きな課題である。
既存の手法は通常、高い計算コストを必要とし、しばしば十分な顔の詳細とリアリズムを欠いているため、高いリアルタイム性能と視覚的品質を必要とするアプリケーションには適さない。
さらに、一部の方法は唇の動きを同期させることができるが、顔の表情と上半身の動きの整合性、特にサイレント期間中に問題に直面している。
本稿では,音声合成と音声合成を組み合わせ,音声駆動型,安定型,リアルタイムな音声アバター生成を実現する最初のNeRF方式であるSyncAnimationを紹介する。
AudioPose SyncerとAudioEmotion Syncerを統合することで、SyncAnimationは高精度なポーズと表現生成を実現し、オーディオ同期された上半身、頭、唇の形状を徐々に生成する。
さらに、Human Rendererは頭部と上半身のシームレスな統合を保証し、オーディオ同期リップを実現する。
プロジェクトのページはhttps://syncanimation.github.ioで見ることができる。
関連論文リスト
- EmoTalkingGaussian: Continuous Emotion-conditioned Talking Head Synthesis [4.895009594051343]
3Dガウススプラッティングに基づく音声ヘッドは,高忠実度画像をリアルタイムの推論速度でレンダリングする能力に注目されている。
そこで我々は, 唇型感情顔生成装置を提案し, エモガウスモデルの訓練に利用した。
我々はEmoGaussianを公開ビデオで実験し、画像品質の点で最先端技術よりも優れた結果を得た。
論文 参考訳(メタデータ) (2025-02-02T04:01:54Z) - EMO2: End-Effector Guided Audio-Driven Avatar Video Generation [17.816939983301474]
本稿では,表現力の高い表情と手の動きを同時に生成できる新しい音声駆動音声ヘッド手法を提案する。
第1段階では、音声信号と手の動きの強い相関を利用して、音声入力から直接手振りを生成する。
第2段階では、拡散モデルを用いてビデオフレームを合成し、第1段階で生成されたポーズを取り入れ、現実的な表情と身体の動きを生成する。
論文 参考訳(メタデータ) (2025-01-18T07:51:29Z) - ReSyncer: Rewiring Style-based Generator for Unified Audio-Visually Synced Facial Performer [87.32518573172631]
ReSyncerは運動と外観を統合トレーニングで融合する。
パーソナライズされたパーソナライズされた微調整、ビデオ駆動のリップシンク、話すスタイルの転送、顔交換までサポートしています。
論文 参考訳(メタデータ) (2024-08-06T16:31:45Z) - LinguaLinker: Audio-Driven Portraits Animation with Implicit Facial Control Enhancement [8.973545189395953]
本研究では,拡散に基づく手法による視覚的に魅力的な時間同期アニメーションの作成に焦点をあてる。
我々は音声の特徴を別々に処理し、画像の出自に関わらず、口、目、頭の動きを暗黙的に制御する対応する制御ゲートを導出する。
アニメーションポートレートの忠実さ,リップシンクの正確さ,および本手法により達成された適切な動作変化の大幅な改善により,任意の言語でポートレートをアニメーションするための汎用ツールとなった。
論文 参考訳(メタデータ) (2024-07-26T08:30:06Z) - DREAM-Talk: Diffusion-based Realistic Emotional Audio-driven Method for
Single Image Talking Face Generation [75.90730434449874]
DREAM-Talkは2段階の拡散に基づく音声駆動フレームワークで,多彩な表現と正確な唇同期の同時生成に適したフレームワークである。
唇の動きと音声との強い相関を考慮し、音声特徴と感情スタイルを用いて、唇同期精度を向上して力学を洗練する。
定量的かつ質的にも、DREAM-Talkは表現性、リップシンクの精度、知覚品質の点で最先端の手法より優れている。
論文 参考訳(メタデータ) (2023-12-21T05:03:18Z) - SyncTalk: The Devil is in the Synchronization for Talking Head Synthesis [24.565073576385913]
ライフライクな話しの頭は、主題のアイデンティティ、唇の動き、表情、頭ポーズを同期的に調整する必要がある。
従来のGAN(Generative Adversarial Networks)は、一貫した顔認証を維持するのに苦労している。
音声ヘッド合成における主観的同一性, 同期性, リアリズムを効果的に維持する。
論文 参考訳(メタデータ) (2023-11-29T12:35:34Z) - GestSync: Determining who is speaking without a talking head [67.75387744442727]
本稿では,ジェスチャ・シンク (Gesture-Sync) を導入する。
Lip-Syncと比較して、Gesture-Syncは、声と体の動きの間にはるかに緩い関係があるため、はるかに難しい。
このモデルは自己教師付き学習だけで訓練でき、LSS3データセット上での性能を評価することができる。
論文 参考訳(メタデータ) (2023-10-08T22:48:30Z) - Audio-driven Talking Face Generation with Stabilized Synchronization Loss [60.01529422759644]
トーキング・フェイスジェネレーションは、正確な唇の同期と高い視覚的品質でリアルなビデオを作成することを目的としている。
まずサイレント・リップ・ジェネレータを導入することでリップリーク問題に対処する。
実験の結果,我々のモデルは視覚的品質と唇の同期の両方において最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-18T15:50:04Z) - SPACEx: Speech-driven Portrait Animation with Controllable Expression [31.99644011371433]
本研究では、音声と1つの画像を用いて、リアルな頭部ポーズで表現力のある映像を生成するSPACExを提案する。
顔のランドマークの制御性と、事前訓練された顔生成装置の高品質な合成能力を組み合わせた多段階的なアプローチを用いる。
論文 参考訳(メタデータ) (2022-11-17T18:59:56Z) - MeshTalk: 3D Face Animation from Speech using Cross-Modality
Disentanglement [142.9900055577252]
本研究では,顔全体の映像合成を高度に実現するための汎用的な音声駆動顔アニメーション手法を提案する。
このアプローチは、目のまばたきやまばたきなど、音声信号とは無関係な顔の一部のアニメーションを再現すると同時に、高精度な唇の動きを保証します。
論文 参考訳(メタデータ) (2021-04-16T17:05:40Z) - Audio- and Gaze-driven Facial Animation of Codec Avatars [149.0094713268313]
音声および/またはアイトラッキングを用いて,コーデックアバターをリアルタイムにアニメーション化するための最初のアプローチについて述べる。
私たちのゴールは、重要な社会的シグナルを示す個人間の表現力のある会話を表示することです。
論文 参考訳(メタデータ) (2020-08-11T22:28:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。