論文の概要: Meta-Learning Empowered Meta-Face: Personalized Speaking Style Adaptation for Audio-Driven 3D Talking Face Animation
- arxiv url: http://arxiv.org/abs/2408.09357v1
- Date: Sun, 18 Aug 2024 04:42:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-20 21:09:49.047953
- Title: Meta-Learning Empowered Meta-Face: Personalized Speaking Style Adaptation for Audio-Driven 3D Talking Face Animation
- Title(参考訳): Meta-Learning Empowered Meta-Face:Personalized Speech Style Adaptation for Audio-Driven 3D Talking Face Animation (英語)
- Authors: Xukun Zhou, Fengxin Li, Ziqiao Peng, Kejian Wu, Jun He, Biao Qin, Zhaoxin Fan, Hongyan Liu,
- Abstract要約: 本稿では,発話スタイル適応のための新しい手法であるMetaFaceを紹介する。
基本音声スタイル適応のためのRobust Meta Initialization Stage (RMIS)、観測された音声スタイルと観測されていない音声スタイル間の接続を鍛えるDynamic Relation Mining Neural Process (NDRM)、モデル最適化の効率を高めるための低ランク行列メモリ削減アプローチからなる。
- 参考スコア(独自算出の注目度): 9.67450435520651
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio-driven 3D face animation is increasingly vital in live streaming and augmented reality applications. While remarkable progress has been observed, most existing approaches are designed for specific individuals with predefined speaking styles, thus neglecting the adaptability to varied speaking styles. To address this limitation, this paper introduces MetaFace, a novel methodology meticulously crafted for speaking style adaptation. Grounded in the novel concept of meta-learning, MetaFace is composed of several key components: the Robust Meta Initialization Stage (RMIS) for fundamental speaking style adaptation, the Dynamic Relation Mining Neural Process (DRMN) for forging connections between observed and unobserved speaking styles, and the Low-rank Matrix Memory Reduction Approach to enhance the efficiency of model optimization as well as learning style details. Leveraging these novel designs, MetaFace not only significantly outperforms robust existing baselines but also establishes a new state-of-the-art, as substantiated by our experimental results.
- Abstract(参考訳): オーディオ駆動の3D顔アニメーションは、ライブストリーミングや拡張現実アプリケーションでますます重要になっている。
顕著な進歩が見られたが、既存のアプローチのほとんどは、事前に定義された話し方を持つ特定の個人向けに設計されており、それによって様々な話し方への適応性を無視している。
この制限に対処するため,本研究ではMetaFaceを紹介した。
MetaFaceはメタラーニングという新しい概念に基づいており、基本的な話し方適応のためのRobust Meta Initialization Stage (RMIS)、観察された話し方と観測されていない話し方の接続を鍛えるDynamic Relation Mining Neural Process (DRMN)、学習スタイルの詳細だけでなくモデル最適化の効率を高めるための低ランクマトリックスメモリリダクション・アプローチ (Low-rank Matrix Memory Reduction Approach) といった重要なコンポーネントで構成されている。
これらの新しいデザインを活用することで、MetaFaceはロバストな既存のベースラインを著しく上回るだけでなく、実験結果によって裏付けられた新しい最先端技術を確立します。
関連論文リスト
- MimicTalk: Mimicking a personalized and expressive 3D talking face in minutes [74.82911268630463]
トーキングフェース生成(TFG)は、ターゲットアイデンティティーの顔をアニメーション化し、リアルなトーキングビデオを作成することを目的としている。
MimicTalkは、個人別TFGの効率性と堅牢性を改善するために、NeRFベースの個人非依存のジェネリックモデルから豊富な知識を活用する。
私たちのMimicTalkは、ビデオの品質、効率、表現性に関して、これまでのベースラインを超えていることが実験によって示されています。
論文 参考訳(メタデータ) (2024-10-09T10:12:37Z) - KMTalk: Speech-Driven 3D Facial Animation with Key Motion Embedding [19.15471840100407]
キーモーション埋め込みを用いた音声系列から3次元顔の動きを合成する新しい手法を提案する。
本手法は,言語に基づくキーモーション獲得とモーダル間動作完了の2つのモジュールを通じて,言語的およびデータ駆動の先行情報を統合する。
後者は、キーモーションを音声機能によって案内される3D音声のフルシーケンスに拡張し、時間的コヒーレンスとオーディオ-視覚的整合性を改善する。
論文 参考訳(メタデータ) (2024-09-02T09:41:24Z) - High-fidelity and Lip-synced Talking Face Synthesis via Landmark-based Diffusion Model [89.29655924125461]
本稿では,発話顔生成のためのランドマークに基づく新しい拡散モデルを提案する。
まず、音声から唇と顎の目印運動への不明瞭さの少ないマッピングを確立する。
そこで我々はTalkFormerと呼ばれる革新的な条件付けモジュールを導入し、合成された動きをランドマークで表現された動きと整合させる。
論文 参考訳(メタデータ) (2024-08-10T02:58:28Z) - Mimic: Speaking Style Disentanglement for Speech-Driven 3D Facial
Animation [41.489700112318864]
音声駆動型3D顔アニメーションは、音声と正確に同期し、独特の話し方にマッチする鮮やかな顔アニメーションを合成することを目的としている。
本稿では,任意の発話スタイルの符号化を可能にする,革新的な発話スタイルのアンタングル化手法を提案する。
また,顔の動きから話し方や内容の絡み合った表現を学習する「textbfMimic」という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-18T01:49:42Z) - GSmoothFace: Generalized Smooth Talking Face Generation via Fine Grained
3D Face Guidance [83.43852715997596]
GSmoothFaceは、粒度の細かい3次元顔モデルによってガイドされる、2段階の一般化された話し顔生成モデルである。
スピーカーのアイデンティティを保ちながらスムーズな唇の動きを合成することができる。
定量的および定性的な実験は、リアリズム、唇の同期、視覚的品質の観点から、我々の方法の優位性を確認する。
論文 参考訳(メタデータ) (2023-12-12T16:00:55Z) - Expedited Training of Visual Conditioned Language Generation via
Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。
提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文 参考訳(メタデータ) (2023-10-05T03:40:06Z) - Semantic Face Compression for Metaverse: A Compact 3D Descriptor Based
Approach [15.838410034900138]
我々は仮想アバター顔のための新しいメタバース通信パラダイムを構想し、コンパクトな3次元顔記述子を用いたセマンティック顔圧縮を開発する。
提案手法は,機械解析に基づくデジタルヒューマンコミュニケーションなど,多数の応用が期待できる。
論文 参考訳(メタデータ) (2023-09-24T13:39:50Z) - ZS-MSTM: Zero-Shot Style Transfer for Gesture Animation driven by Text
and Speech using Adversarial Disentanglement of Multimodal Style Encoding [3.609538870261841]
韻律的特徴とテキストによって駆動されるジェスチャーを、異なる話者のスタイルで合成する機械学習手法を提案する。
本モデルでは,PATSデータベースからのマルチモーダルデータを用いたゼロショットマルチモーダル方式の転送を行う。
論文 参考訳(メタデータ) (2023-05-22T10:10:35Z) - Imitator: Personalized Speech-driven 3D Facial Animation [63.57811510502906]
State-of-the-artメソッドは、ターゲットアクターの顔トポロジを変形させ、ターゲットアクターのアイデンティティ固有の話し方や顔の慣用性を考慮せずに入力オーディオを同期させる。
本稿では,音声による表情合成手法であるImitatorについて述べる。
提案手法は,ターゲットアクターの発話スタイルを保ちながら,入力音声から時間的コヒーレントな表情を生成する。
論文 参考訳(メタデータ) (2022-12-30T19:00:02Z) - Towards Multi-Scale Style Control for Expressive Speech Synthesis [60.08928435252417]
提案手法では,マルチスケール参照エンコーダを用いて,対象音声のグローバルな発話レベルと局所的な準音素レベルの特徴を抽出する。
訓練期間中、マルチスケールスタイルモデルは、エンドツーエンドで音声合成モデルと共同で訓練することができる。
論文 参考訳(メタデータ) (2021-04-08T05:50:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。