論文の概要: Diverse Code Query Learning for Speech-Driven Facial Animation
- arxiv url: http://arxiv.org/abs/2409.19143v1
- Date: Fri, 27 Sep 2024 21:15:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 04:21:02.489908
- Title: Diverse Code Query Learning for Speech-Driven Facial Animation
- Title(参考訳): 音声駆動型顔アニメーションのための多言語コードクエリ学習
- Authors: Chunzhi Gu, Shigeru Kuriyama, Katsuya Hotta,
- Abstract要約: 音声駆動型顔アニメーションは、所定の音声信号に従って唇同期3D音声を合成することを目的としている。
我々は,同一の音声信号に条件付された複数のサンプルを予測し,多様な顔のアニメーションに対処するために,サンプルの多様性を明示的に促すことを提案する。
- 参考スコア(独自算出の注目度): 2.1779479916071067
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Speech-driven facial animation aims to synthesize lip-synchronized 3D talking faces following the given speech signal. Prior methods to this task mostly focus on pursuing realism with deterministic systems, yet characterizing the potentially stochastic nature of facial motions has been to date rarely studied. While generative modeling approaches can easily handle the one-to-many mapping by repeatedly drawing samples, ensuring a diverse mode coverage of plausible facial motions on small-scale datasets remains challenging and less explored. In this paper, we propose predicting multiple samples conditioned on the same audio signal and then explicitly encouraging sample diversity to address diverse facial animation synthesis. Our core insight is to guide our model to explore the expressive facial latent space with a diversity-promoting loss such that the desired latent codes for diversification can be ideally identified. To this end, building upon the rich facial prior learned with vector-quantized variational auto-encoding mechanism, our model temporally queries multiple stochastic codes which can be flexibly decoded into a diverse yet plausible set of speech-faithful facial motions. To further allow for control over different facial parts during generation, the proposed model is designed to predict different facial portions of interest in a sequential manner, and compose them to eventually form full-face motions. Our paradigm realizes both diverse and controllable facial animation synthesis in a unified formulation. We experimentally demonstrate that our method yields state-of-the-art performance both quantitatively and qualitatively, especially regarding sample diversity.
- Abstract(参考訳): 音声駆動型顔アニメーションは、所定の音声信号に従って唇同期3D音声を合成することを目的としている。
このタスクの以前の方法は、主に決定論的なシステムで現実主義を追求することに焦点を当てていたが、顔の動きの確率的な性質を特徴付けることは、これまでほとんど研究されていない。
生成的モデリングアプローチは、サンプルを繰り返し描画することで、ワン・ツー・マンマッピングを容易に処理できるが、小規模データセット上での可視的な顔の動きの多彩なカバレッジを保証することは困難であり、探索は少ない。
本稿では,同じ音声信号に条件付けされた複数のサンプルを予測し,多様な顔アニメーション合成に対処するために,サンプルの多様性を明示的に促進する手法を提案する。
我々の中核的な洞察は、表現力のある顔の潜伏空間を多様化のための潜伏符号を理想的に識別できるように、多様性を動機づける損失で探索することである。
この目的のために,ベクトル量子化変分自動符号化機構を用いて事前学習した豊富な顔に基づいて,我々のモデルは,柔軟に復号化できる複数の確率的符号を,多種多様な音声合成可能な顔動作に時間的に問合せする。
さらに、生成中の異なる顔部位の制御を可能にするため、提案モデルは、異なる顔部位を連続的に予測し、最終的に完全な顔の動きを形成するよう構成する。
我々のパラダイムは、統一的な定式化において、多様かつ制御可能な顔アニメーション合成を実現する。
実験により,本手法は,特に試料の多様性に関して,定量的かつ定性的に,最先端性能が得られることを示した。
関連論文リスト
- High-fidelity and Lip-synced Talking Face Synthesis via Landmark-based Diffusion Model [89.29655924125461]
本稿では,発話顔生成のためのランドマークに基づく新しい拡散モデルを提案する。
まず、音声から唇と顎の目印運動への不明瞭さの少ないマッピングを確立する。
そこで我々はTalkFormerと呼ばれる革新的な条件付けモジュールを導入し、合成された動きをランドマークで表現された動きと整合させる。
論文 参考訳(メタデータ) (2024-08-10T02:58:28Z) - Speech2UnifiedExpressions: Synchronous Synthesis of Co-Speech Affective Face and Body Expressions from Affordable Inputs [67.27840327499625]
本稿では,デジタル文字の表情と上半身ジェスチャーを同時に合成するマルチモーダル学習手法を提案する。
提案手法は, 映像データから直接推定される, まばらな顔のランドマークと上体関節から学習し, もっともらしい感情的性格運動を生成する。
論文 参考訳(メタデータ) (2024-06-26T04:53:11Z) - Hallo: Hierarchical Audio-Driven Visual Synthesis for Portrait Image Animation [29.87407471246318]
この研究は、顔の動きを同期させ、視覚的に魅力的で時間的に一貫したアニメーションを作成する複雑さを掘り下げている。
我々の革新的なアプローチは、エンドツーエンドの拡散パラダイムを採用し、階層的な音声駆動視覚合成モジュールを導入しています。
提案した階層型音声駆動視覚合成は、表現の適応的な制御と多様性のポーズを提供し、異なるアイデンティティに合わせてより効果的なパーソナライゼーションを可能にする。
論文 参考訳(メタデータ) (2024-06-13T04:33:20Z) - FaceChain-ImagineID: Freely Crafting High-Fidelity Diverse Talking Faces from Disentangled Audio [45.71036380866305]
我々は、音声を聴く人々の過程を抽象化し、意味のある手がかりを抽出し、単一の音声から動的に音声に一貫性のある発話顔を生成する。
ひとつはアイデンティティ、コンテンツ、感情をエンタングルドオーディオから効果的に切り離すことであり、もう一つは動画内多様性とビデオ間の一貫性を維持することである。
本稿では,3つのトレーニング可能なアダプタと凍結遅延拡散モデルとのフレキシブルな統合を含む,制御可能なコヒーレントフレーム生成を提案する。
論文 参考訳(メタデータ) (2024-03-04T09:59:48Z) - From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations [107.88375243135579]
音声を聴くと、顔、体、手を含む個人に対して、ジェスチャー動作の可能性を複数出力する。
ジェスチャーにおいて重要なニュアンスを表現できる高光写実性アバターを用いて生成した動きを可視化する。
実験により,本モデルが適切な多様なジェスチャーを生成することを示し,拡散法とVQ法の両方に優れることがわかった。
論文 参考訳(メタデータ) (2024-01-03T18:55:16Z) - Probabilistic Speech-Driven 3D Facial Motion Synthesis: New Benchmarks,
Methods, and Applications [20.842799581850617]
音声信号から3次元顔形状を推定する作業について検討する。
既存の作業は主に決定論的であり、限られた話者を持つ小さなデータセット上で、音声信号から3D顔メッシュへの1対1のマッピングを学ぶことに集中している。
論文 参考訳(メタデータ) (2023-11-30T01:14:43Z) - Multimodal Face Synthesis from Visual Attributes [85.87796260802223]
本稿では,マルチモーダル顔画像を保存するIDを同時に合成する新たな生成対向ネットワークを提案する。
実画像と偽画像の区別を行う識別装置にマルチモーダルストレッチインモジュールを導入。
論文 参考訳(メタデータ) (2021-04-09T13:47:23Z) - Diverse Semantic Image Synthesis via Probability Distribution Modeling [103.88931623488088]
新規な多様な意味的画像合成フレームワークを提案する。
本手法は最先端手法と比較して優れた多様性と同等の品質を実現することができる。
論文 参考訳(メタデータ) (2021-03-11T18:59:25Z) - InterFaceGAN: Interpreting the Disentangled Face Representation Learned
by GANs [73.27299786083424]
我々は、最先端のGANモデルによって学習された不整合顔表現を解釈するInterFaceGANというフレームワークを提案する。
まず、GANは潜在空間の線型部分空間で様々な意味学を学ぶ。
次に、異なる意味論間の相関関係について詳細な研究を行い、部分空間射影を通してそれらをよりよく解離させる。
論文 参考訳(メタデータ) (2020-05-18T18:01:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。