論文の概要: DiffusionTalker: Efficient and Compact Speech-Driven 3D Talking Head via Personalizer-Guided Distillation
- arxiv url: http://arxiv.org/abs/2503.18159v1
- Date: Sun, 23 Mar 2025 17:55:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:37:34.075250
- Title: DiffusionTalker: Efficient and Compact Speech-Driven 3D Talking Head via Personalizer-Guided Distillation
- Title(参考訳): DiffusionTalker:パーソナライザー誘導蒸留による効率よくコンパクトな音声駆動型3Dトーキングヘッド
- Authors: Peng Chen, Xiaobao Wei, Ming Lu, Hui Chen, Feng Tian,
- Abstract要約: リアルタイム音声駆動の3D顔アニメーションは、アカデミックや業界では魅力的だ。
近年のアプローチでは、音声駆動型3D顔アニメーションの非決定論的事実を考えるようになった。
パーソナライザー誘導蒸留による限界に対応するためにDiffusionTalkerを提案する。
- 参考スコア(独自算出の注目度): 14.420981606586237
- License:
- Abstract: Real-time speech-driven 3D facial animation has been attractive in academia and industry. Traditional methods mainly focus on learning a deterministic mapping from speech to animation. Recent approaches start to consider the nondeterministic fact of speech-driven 3D face animation and employ the diffusion model for the task. Existing diffusion-based methods can improve the diversity of facial animation. However, personalized speaking styles conveying accurate lip language is still lacking, besides, efficiency and compactness still need to be improved. In this work, we propose DiffusionTalker to address the above limitations via personalizer-guided distillation. In terms of personalization, we introduce a contrastive personalizer that learns identity and emotion embeddings to capture speaking styles from audio. We further propose a personalizer enhancer during distillation to enhance the influence of embeddings on facial animation. For efficiency, we use iterative distillation to reduce the steps required for animation generation and achieve more than 8x speedup in inference. To achieve compactness, we distill the large teacher model into a smaller student model, reducing our model's storage by 86.4\% while minimizing performance loss. After distillation, users can derive their identity and emotion embeddings from audio to quickly create personalized animations that reflect specific speaking styles. Extensive experiments are conducted to demonstrate that our method outperforms state-of-the-art methods. The code will be released at: https://github.com/ChenVoid/DiffusionTalker.
- Abstract(参考訳): リアルタイム音声駆動の3D顔アニメーションは、アカデミックや業界では魅力的だ。
従来の手法は主に、音声からアニメーションへの決定論的マッピングの学習に重点を置いている。
近年のアプローチでは、音声駆動型3次元顔アニメーションの非決定論的事実を考察し、その課題に拡散モデルを適用している。
既存の拡散に基づく手法は、顔アニメーションの多様性を向上させることができる。
しかし、正確な唇言語を伝達するパーソナライズされた話し方はまだ欠けており、効率とコンパクト性も改善する必要がある。
本研究では, パーソナライザー誘導蒸留によるDiffusionTalkerを提案する。
パーソナライゼーションの面では、個人性や感情の埋め込みを学習し、音声から話し言葉のスタイルをキャプチャするコントラストパーソナライザを導入する。
さらに, 蒸留中のパーソナライザーエンハンサーを提案し, 顔のアニメーションに対する埋め込みの影響を高める。
効率向上のために,アニメーション生成に必要なステップを減らし,推論において8倍以上の高速化を実現するために反復蒸留を用いる。
小型化を実現するため,大規模な教師モデルをより小さな学生モデルに蒸留し,性能損失を最小限に抑えながら,モデルの記憶力を86.4\%削減する。
蒸留後、ユーザーは自身のアイデンティティと感情の埋め込みをオーディオから導き出し、特定の話し方を反映したパーソナライズされたアニメーションを素早く作成することができる。
本手法が最先端の手法より優れていることを示すため,大規模な実験を行った。
コードは、https://github.com/ChenVoid/DiffusionTalker.comでリリースされる。
関連論文リスト
- MimicTalk: Mimicking a personalized and expressive 3D talking face in minutes [74.82911268630463]
トーキングフェース生成(TFG)は、ターゲットアイデンティティーの顔をアニメーション化し、リアルなトーキングビデオを作成することを目的としている。
MimicTalkは、個人別TFGの効率性と堅牢性を改善するために、NeRFベースの個人非依存のジェネリックモデルから豊富な知識を活用する。
私たちのMimicTalkは、ビデオの品質、効率、表現性に関して、これまでのベースラインを超えていることが実験によって示されています。
論文 参考訳(メタデータ) (2024-10-09T10:12:37Z) - Enhancing Speech-Driven 3D Facial Animation with Audio-Visual Guidance from Lip Reading Expert [13.60808166889775]
口唇の動きを正確に生成するための音声駆動型3次元顔アニメーション法を提案する。
この損失は、音声駆動の3D顔アニメーターを訓練し、音声書き起こしと整合した可塑性な唇の動きを生成するためのガイダンスを提供する。
提案手法の有効性を広範に検証し, 唇同期性能と唇可読性性能を顕著に改善した。
論文 参考訳(メタデータ) (2024-07-01T07:39:28Z) - 3DiFACE: Diffusion-based Speech-driven 3D Facial Animation and Editing [22.30870274645442]
3DiFACEは、音声による顔のアニメーションと編集をパーソナライズする新しい方法である。
提案手法は,既存の最先端技術より優れ,忠実度と多様性が向上した音声駆動型アニメーションを実現する。
論文 参考訳(メタデータ) (2023-12-01T19:01:05Z) - DiffusionTalker: Personalization and Acceleration for Speech-Driven 3D
Face Diffuser [12.576421368393113]
スピーチ駆動の3D顔アニメーションは、アカデミックや業界で魅力的なタスクだ。
近年のアプローチでは、音声駆動型3次元顔アニメーションの非決定論的事実を考察し、その課題に拡散モデルを適用している。
本研究では,DiffusionTalkerを提案する。DiffusionTalkerは,3次元顔アニメーションと知識蒸留を個人化して3次元アニメーション生成を高速化する,コントラスト学習を利用する拡散型手法である。
論文 参考訳(メタデータ) (2023-11-28T07:13:20Z) - AdaMesh: Personalized Facial Expressions and Head Poses for Adaptive Speech-Driven 3D Facial Animation [49.4220768835379]
AdaMeshは、適応的な音声駆動の顔アニメーションアプローチである。
約10秒間の参照ビデオから、パーソナライズされた話し方を学ぶ。
鮮やかな表情と頭部のポーズを生成する。
論文 参考訳(メタデータ) (2023-10-11T06:56:08Z) - Speech2Lip: High-fidelity Speech to Lip Generation by Learning from a
Short Video [91.92782707888618]
本稿では,音声の知覚と音声の知覚を両立させるSpeech2Lip(Speech2Lip)という分解合成フレームワークを提案する。
提案手法は,数分間のビデオで学習し,視覚的品質と音声・視覚的同期の両面において最先端のパフォーマンスを達成可能であることを示す。
論文 参考訳(メタデータ) (2023-09-09T14:52:39Z) - Emotional Speech-Driven Animation with Content-Emotion Disentanglement [51.34635009347183]
本研究では,感情表現の明示的な制御を可能にしつつ,音声からリップシンクを維持する3次元音声アバターを生成するEMOTEを提案する。
EmOTEは、同じデータでトレーニングされた最先端の方法よりも、リップシンクで音声駆動の顔アニメーションを生成する。
論文 参考訳(メタデータ) (2023-06-15T09:31:31Z) - FaceXHuBERT: Text-less Speech-driven E(X)pressive 3D Facial Animation
Synthesis Using Self-Supervised Speech Representation Learning [0.0]
FaceXHuBERTは、テキストレス音声駆動の3D顔アニメーション生成方法である。
背景雑音に対して非常に頑丈で、様々な状況で録音された音声を処理できる。
アニメーションの写実性に関しては78%の精度で優れた結果が得られる。
論文 参考訳(メタデータ) (2023-03-09T17:05:19Z) - Imitator: Personalized Speech-driven 3D Facial Animation [63.57811510502906]
State-of-the-artメソッドは、ターゲットアクターの顔トポロジを変形させ、ターゲットアクターのアイデンティティ固有の話し方や顔の慣用性を考慮せずに入力オーディオを同期させる。
本稿では,音声による表情合成手法であるImitatorについて述べる。
提案手法は,ターゲットアクターの発話スタイルを保ちながら,入力音声から時間的コヒーレントな表情を生成する。
論文 参考訳(メタデータ) (2022-12-30T19:00:02Z) - MeshTalk: 3D Face Animation from Speech using Cross-Modality
Disentanglement [142.9900055577252]
本研究では,顔全体の映像合成を高度に実現するための汎用的な音声駆動顔アニメーション手法を提案する。
このアプローチは、目のまばたきやまばたきなど、音声信号とは無関係な顔の一部のアニメーションを再現すると同時に、高精度な唇の動きを保証します。
論文 参考訳(メタデータ) (2021-04-16T17:05:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。