論文の概要: Meta-Learning Empowered Meta-Face: Personalized Speaking Style Adaptation for Audio-Driven 3D Talking Face Animation
- arxiv url: http://arxiv.org/abs/2408.09357v1
- Date: Sun, 18 Aug 2024 04:42:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-20 21:09:49.047953
- Title: Meta-Learning Empowered Meta-Face: Personalized Speaking Style Adaptation for Audio-Driven 3D Talking Face Animation
- Title(参考訳): Meta-Learning Empowered Meta-Face:Personalized Speech Style Adaptation for Audio-Driven 3D Talking Face Animation (英語)
- Authors: Xukun Zhou, Fengxin Li, Ziqiao Peng, Kejian Wu, Jun He, Biao Qin, Zhaoxin Fan, Hongyan Liu,
- Abstract要約: 本稿では,発話スタイル適応のための新しい手法であるMetaFaceを紹介する。
基本音声スタイル適応のためのRobust Meta Initialization Stage (RMIS)、観測された音声スタイルと観測されていない音声スタイル間の接続を鍛えるDynamic Relation Mining Neural Process (NDRM)、モデル最適化の効率を高めるための低ランク行列メモリ削減アプローチからなる。
- 参考スコア(独自算出の注目度): 9.67450435520651
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio-driven 3D face animation is increasingly vital in live streaming and augmented reality applications. While remarkable progress has been observed, most existing approaches are designed for specific individuals with predefined speaking styles, thus neglecting the adaptability to varied speaking styles. To address this limitation, this paper introduces MetaFace, a novel methodology meticulously crafted for speaking style adaptation. Grounded in the novel concept of meta-learning, MetaFace is composed of several key components: the Robust Meta Initialization Stage (RMIS) for fundamental speaking style adaptation, the Dynamic Relation Mining Neural Process (DRMN) for forging connections between observed and unobserved speaking styles, and the Low-rank Matrix Memory Reduction Approach to enhance the efficiency of model optimization as well as learning style details. Leveraging these novel designs, MetaFace not only significantly outperforms robust existing baselines but also establishes a new state-of-the-art, as substantiated by our experimental results.
- Abstract(参考訳): オーディオ駆動の3D顔アニメーションは、ライブストリーミングや拡張現実アプリケーションでますます重要になっている。
顕著な進歩が見られたが、既存のアプローチのほとんどは、事前に定義された話し方を持つ特定の個人向けに設計されており、それによって様々な話し方への適応性を無視している。
この制限に対処するため,本研究ではMetaFaceを紹介した。
MetaFaceはメタラーニングという新しい概念に基づいており、基本的な話し方適応のためのRobust Meta Initialization Stage (RMIS)、観察された話し方と観測されていない話し方の接続を鍛えるDynamic Relation Mining Neural Process (DRMN)、学習スタイルの詳細だけでなくモデル最適化の効率を高めるための低ランクマトリックスメモリリダクション・アプローチ (Low-rank Matrix Memory Reduction Approach) といった重要なコンポーネントで構成されている。
これらの新しいデザインを活用することで、MetaFaceはロバストな既存のベースラインを著しく上回るだけでなく、実験結果によって裏付けられた新しい最先端技術を確立します。
関連論文リスト
- RealTalk: Real-time and Realistic Audio-driven Face Generation with 3D Facial Prior-guided Identity Alignment Network [48.95833484103569]
RealTalkは、音声から表現へのトランスフォーマーであり、高忠実な表現から顔へのフレームワークである。
第1成分として, 口唇運動に関連する個人性および個人内変動の特徴について考察した。
第2のコンポーネントでは、軽量な顔認証アライメント(FIA)モジュールを設計する。
この新しい設計により、高度で非効率な特徴アライメントモジュールに依存することなく、リアルタイムに細部を生成できる。
論文 参考訳(メタデータ) (2024-06-26T12:09:59Z) - SAiD: Speech-driven Blendshape Facial Animation with Diffusion [6.4271091365094515]
大規模なビジュアルオーディオデータセットが不足しているため、音声駆動の3D顔アニメーションは困難である。
拡散モデル (SAiD) を用いた音声駆動型3次元顔アニメーションを提案する。
論文 参考訳(メタデータ) (2023-12-25T04:40:32Z) - Mimic: Speaking Style Disentanglement for Speech-Driven 3D Facial
Animation [41.489700112318864]
音声駆動型3D顔アニメーションは、音声と正確に同期し、独特の話し方にマッチする鮮やかな顔アニメーションを合成することを目的としている。
本稿では,任意の発話スタイルの符号化を可能にする,革新的な発話スタイルのアンタングル化手法を提案する。
また,顔の動きから話し方や内容の絡み合った表現を学習する「textbfMimic」という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-18T01:49:42Z) - GSmoothFace: Generalized Smooth Talking Face Generation via Fine Grained
3D Face Guidance [83.43852715997596]
GSmoothFaceは、粒度の細かい3次元顔モデルによってガイドされる、2段階の一般化された話し顔生成モデルである。
スピーカーのアイデンティティを保ちながらスムーズな唇の動きを合成することができる。
定量的および定性的な実験は、リアリズム、唇の同期、視覚的品質の観点から、我々の方法の優位性を確認する。
論文 参考訳(メタデータ) (2023-12-12T16:00:55Z) - Expedited Training of Visual Conditioned Language Generation via
Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。
提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文 参考訳(メタデータ) (2023-10-05T03:40:06Z) - DiffPoseTalk: Speech-Driven Stylistic 3D Facial Animation and Head Pose Generation via Diffusion Models [24.401443462720135]
本稿では,拡散モデルとスタイルエンコーダを組み合わせた生成フレームワークであるDiffPoseTalkを提案する。
特に、私たちのスタイルには、頭部ポーズの生成が含まれており、それによってユーザの知覚が向上する。
高品質な映像データセットから再構成された3DMMパラメータをモデルに学習することで,3D音声データ不足に対処する。
論文 参考訳(メタデータ) (2023-09-30T17:01:18Z) - Semantic Face Compression for Metaverse: A Compact 3D Descriptor Based
Approach [15.838410034900138]
我々は仮想アバター顔のための新しいメタバース通信パラダイムを構想し、コンパクトな3次元顔記述子を用いたセマンティック顔圧縮を開発する。
提案手法は,機械解析に基づくデジタルヒューマンコミュニケーションなど,多数の応用が期待できる。
論文 参考訳(メタデータ) (2023-09-24T13:39:50Z) - ZS-MSTM: Zero-Shot Style Transfer for Gesture Animation driven by Text
and Speech using Adversarial Disentanglement of Multimodal Style Encoding [3.609538870261841]
韻律的特徴とテキストによって駆動されるジェスチャーを、異なる話者のスタイルで合成する機械学習手法を提案する。
本モデルでは,PATSデータベースからのマルチモーダルデータを用いたゼロショットマルチモーダル方式の転送を行う。
論文 参考訳(メタデータ) (2023-05-22T10:10:35Z) - Pose-Controllable 3D Facial Animation Synthesis using Hierarchical
Audio-Vertex Attention [52.63080543011595]
階層型音声頂点アテンションを利用してポーズ制御可能な3次元顔アニメーション合成法を提案する。
提案手法により,よりリアルな表情と頭部姿勢運動が得られる。
論文 参考訳(メタデータ) (2023-02-24T09:36:31Z) - Imitator: Personalized Speech-driven 3D Facial Animation [63.57811510502906]
State-of-the-artメソッドは、ターゲットアクターの顔トポロジを変形させ、ターゲットアクターのアイデンティティ固有の話し方や顔の慣用性を考慮せずに入力オーディオを同期させる。
本稿では,音声による表情合成手法であるImitatorについて述べる。
提案手法は,ターゲットアクターの発話スタイルを保ちながら,入力音声から時間的コヒーレントな表情を生成する。
論文 参考訳(メタデータ) (2022-12-30T19:00:02Z) - Towards Multi-Scale Style Control for Expressive Speech Synthesis [60.08928435252417]
提案手法では,マルチスケール参照エンコーダを用いて,対象音声のグローバルな発話レベルと局所的な準音素レベルの特徴を抽出する。
訓練期間中、マルチスケールスタイルモデルは、エンドツーエンドで音声合成モデルと共同で訓練することができる。
論文 参考訳(メタデータ) (2021-04-08T05:50:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。