論文の概要: Playmate: Flexible Control of Portrait Animation via 3D-Implicit Space Guided Diffusion
- arxiv url: http://arxiv.org/abs/2502.07203v3
- Date: Thu, 22 May 2025 14:57:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 14:49:21.5319
- Title: Playmate: Flexible Control of Portrait Animation via 3D-Implicit Space Guided Diffusion
- Title(参考訳): Playmate: 3D-Implicit Space Guided Diffusionによるポートレートアニメーションの柔軟な制御
- Authors: Xingpei Ma, Jiaran Cai, Yuansheng Guan, Shenneng Huang, Qiang Zhang, Shunsi Zhang,
- Abstract要約: そこで我々は,より生き生きとした表情と話し声を生成するために,新しい2段階学習フレームワークPlaymateを提案する。
最初の段階では、より正確な属性の切り離しを容易にするために、細かな設計のモーションデカップリングモジュールとともに、非結合な3次元表現を導入する。
第2段階では、感情制御情報を潜在空間にエンコードする感情制御モジュールを導入し、感情のきめ細かい制御を可能にし、所望の感情で会話ビデオを生成する能力を実現する。
- 参考スコア(独自算出の注目度): 6.677873152109559
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent diffusion-based talking face generation models have demonstrated impressive potential in synthesizing videos that accurately match a speech audio clip with a given reference identity. However, existing approaches still encounter significant challenges due to uncontrollable factors, such as inaccurate lip-sync, inappropriate head posture and the lack of fine-grained control over facial expressions. In order to introduce more face-guided conditions beyond speech audio clips, a novel two-stage training framework Playmate is proposed to generate more lifelike facial expressions and talking faces. In the first stage, we introduce a decoupled implicit 3D representation along with a meticulously designed motion-decoupled module to facilitate more accurate attribute disentanglement and generate expressive talking videos directly from audio cues. Then, in the second stage, we introduce an emotion-control module to encode emotion control information into the latent space, enabling fine-grained control over emotions and thereby achieving the ability to generate talking videos with desired emotion. Extensive experiments demonstrate that Playmate not only outperforms existing state-of-the-art methods in terms of video quality, but also exhibits strong competitiveness in lip synchronization while offering improved flexibility in controlling emotion and head pose. The code will be available at https://github.com/Playmate111/Playmate.
- Abstract(参考訳): 近年の拡散型話し顔生成モデルは、音声音声クリップと所定の参照IDとを正確に一致させるビデオの合成において、印象的な可能性を示している。
しかし、既存のアプローチは、不正確なリップシンク、不適切な頭部姿勢、表情のきめ細かい制御の欠如など、制御不能な要因によって依然として重大な課題に直面している。
音声音声クリップ以上の顔誘導条件を導入するために、より生き生きとした表情や話し顔を生成するための新しい2段階トレーニングフレームワークPlaymateが提案されている。
最初の段階では、より正確な属性の切り離しを容易にし、オーディオキューから直接表現力のある音声ビデオを生成するために、細心の注意を払って設計されたモーションデカップリングモジュールとともに、非結合な3D表現を導入する。
そして,第2段階では,感情制御情報を潜在空間にエンコードする感情制御モジュールを導入し,感情のきめ細かい制御を可能にし,所望の感情で会話ビデオを生成する能力を実現する。
大規模な実験では、Playmateは既存の最先端の手法をビデオ品質で上回るだけでなく、リップ同期において強い競争力を示しながら、感情や頭部のポーズを制御する柔軟性の向上も示している。
コードはhttps://github.com/Playmate111/Playmate.comから入手できる。
関連論文リスト
- EmoDiffusion: Enhancing Emotional 3D Facial Animation with Latent Diffusion Models [66.67979602235015]
エモディフュージョン(EmoDiffusion)は、音声中の様々な感情をアンタングルしてリッチな3次元の表情を生成する新しいアプローチである。
iPhone上のLiveLinkFaceを使ってアニメーション専門家の指導の下で表情をキャプチャする。
論文 参考訳(メタデータ) (2025-03-14T02:54:22Z) - EMOdiffhead: Continuously Emotional Control in Talking Head Generation via Diffusion [5.954758598327494]
EMOdiffhead(エモディフヘッド)は、感情的なトーキングヘッドビデオ生成のための新しい方法である。
感情のカテゴリや強度のきめ細かい制御を可能にする。
他の感情像アニメーション法と比較して、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-09-11T13:23:22Z) - DEEPTalk: Dynamic Emotion Embedding for Probabilistic Speech-Driven 3D Face Animation [14.07086606183356]
音声駆動の3D顔アニメーションは、幅広い応用によって多くの注目を集めている。
現在の方法では、音声を通して伝達されるニュアンスな感情のアンダートーンを捉えることができず、単調な顔の動きを生成する。
音声入力から直接多様で感情的に豊かな表情を生成する新しいアプローチであるDEEPTalkを紹介する。
論文 参考訳(メタデータ) (2024-08-12T08:56:49Z) - EmoFace: Audio-driven Emotional 3D Face Animation [3.573880705052592]
EmoFaceは、鮮やかな感情的ダイナミクスを備えた顔アニメーションを作成するための、新しいオーディオ駆動の方法論である。
提案手法では,複数の感情で表情を生成でき,ランダムだが自然な点滅や眼球運動を生成できる。
提案手法は、ビデオゲームでプレイ不可能なキャラクターの対話アニメーションを作成し、バーチャルリアリティ環境でアバターを駆動するのに有効である。
論文 参考訳(メタデータ) (2024-07-17T11:32:16Z) - SPEAK: Speech-Driven Pose and Emotion-Adjustable Talking Head Generation [13.459396544300137]
本稿では,一般のトーキング・フェイス・ジェネレーションと区別する新しいワンショットトーキング・ヘッド・ジェネレーション・フレームワーク(SPEAK)を提案する。
顔の特徴を3つの潜在空間に分離するIRFD(Inter-Reconstructed Feature Disentanglement)モジュールを導入する。
次に、音声コンテンツと顔の潜時符号を1つの潜時空間に修正する顔編集モジュールを設計する。
論文 参考訳(メタデータ) (2024-05-12T11:41:44Z) - DREAM-Talk: Diffusion-based Realistic Emotional Audio-driven Method for
Single Image Talking Face Generation [75.90730434449874]
DREAM-Talkは2段階の拡散に基づく音声駆動フレームワークで,多彩な表現と正確な唇同期の同時生成に適したフレームワークである。
唇の動きと音声との強い相関を考慮し、音声特徴と感情スタイルを用いて、唇同期精度を向上して力学を洗練する。
定量的かつ質的にも、DREAM-Talkは表現性、リップシンクの精度、知覚品質の点で最先端の手法より優れている。
論文 参考訳(メタデータ) (2023-12-21T05:03:18Z) - Speech2Lip: High-fidelity Speech to Lip Generation by Learning from a
Short Video [91.92782707888618]
本稿では,音声の知覚と音声の知覚を両立させるSpeech2Lip(Speech2Lip)という分解合成フレームワークを提案する。
提案手法は,数分間のビデオで学習し,視覚的品質と音声・視覚的同期の両面において最先端のパフォーマンスを達成可能であることを示す。
論文 参考訳(メタデータ) (2023-09-09T14:52:39Z) - Emotional Speech-Driven Animation with Content-Emotion Disentanglement [51.34635009347183]
本研究では,感情表現の明示的な制御を可能にしつつ,音声からリップシンクを維持する3次元音声アバターを生成するEMOTEを提案する。
EmOTEは、同じデータでトレーニングされた最先端の方法よりも、リップシンクで音声駆動の顔アニメーションを生成する。
論文 参考訳(メタデータ) (2023-06-15T09:31:31Z) - Learning to Dub Movies via Hierarchical Prosody Models [167.6465354313349]
テキスト、ビデオクリップ、レファレンスオーディオが与えられたとき、映画ダビング(Visual Voice clone V2C)タスクは、所望の話者音声を参照としてビデオに提示された話者の感情にマッチした音声を生成することを目的としている。
本稿では,これらの問題に階層的韻律モデルを用いて対処する新しい映画ダビングアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-12-08T03:29:04Z) - Pose-Controllable Talking Face Generation by Implicitly Modularized
Audio-Visual Representation [96.66010515343106]
ポーズ制御可能な発話顔を生成するためのクリーンで効果的なフレームワークを提案する。
我々は1枚の写真のみを識別基準として生の顔画像を操作する。
私達のモデルに極度な視野の堅牢性および話す表面前部化を含む複数の高度の機能があります。
論文 参考訳(メタデータ) (2021-04-22T15:10:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。