論文の概要: AdaMesh: Personalized Facial Expressions and Head Poses for Adaptive Speech-Driven 3D Facial Animation
- arxiv url: http://arxiv.org/abs/2310.07236v3
- Date: Thu, 20 Jun 2024 03:01:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-22 06:27:34.497939
- Title: AdaMesh: Personalized Facial Expressions and Head Poses for Adaptive Speech-Driven 3D Facial Animation
- Title(参考訳): AdaMesh: 適応型音声駆動型顔アニメーションのための個人化顔表情と頭部電位
- Authors: Liyang Chen, Weihong Bao, Shun Lei, Boshi Tang, Zhiyong Wu, Shiyin Kang, Haozhi Huang, Helen Meng,
- Abstract要約: AdaMeshは、適応的な音声駆動の顔アニメーションアプローチである。
約10秒間の参照ビデオから、パーソナライズされた話し方を学ぶ。
鮮やかな表情と頭部のポーズを生成する。
- 参考スコア(独自算出の注目度): 49.4220768835379
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech-driven 3D facial animation aims at generating facial movements that are synchronized with the driving speech, which has been widely explored recently. Existing works mostly neglect the person-specific talking style in generation, including facial expression and head pose styles. Several works intend to capture the personalities by fine-tuning modules. However, limited training data leads to the lack of vividness. In this work, we propose AdaMesh, a novel adaptive speech-driven facial animation approach, which learns the personalized talking style from a reference video of about 10 seconds and generates vivid facial expressions and head poses. Specifically, we propose mixture-of-low-rank adaptation (MoLoRA) to fine-tune the expression adapter, which efficiently captures the facial expression style. For the personalized pose style, we propose a pose adapter by building a discrete pose prior and retrieving the appropriate style embedding with a semantic-aware pose style matrix without fine-tuning. Extensive experimental results show that our approach outperforms state-of-the-art methods, preserves the talking style in the reference video, and generates vivid facial animation. The supplementary video and code will be available at https://adamesh.github.io.
- Abstract(参考訳): 音声駆動型3D顔アニメーションは、近年広く研究されている運転音声と同期した顔の動きを生成することを目的としている。
既存の作品は、顔の表情や頭ポーズスタイルなど、世代ごとの話し方を無視している。
いくつかの作品は、微調整モジュールによって個人性を捉えることを意図している。
しかし、トレーニングデータの制限は、鮮明さの欠如につながります。
本研究では,約10秒の参照ビデオからパーソナライズされた発話スタイルを学習し,鮮明な表情と頭部ポーズを生成する,適応型音声駆動型顔アニメーション手法であるAdaMeshを提案する。
具体的には,表情適応器を微調整するためのMoLoRA(mixed-of-low-rank adaptation)を提案する。
パーソナライズされたポーズスタイルに対しては、個別のポーズを事前に構築し、微調整なしでセマンティックなポーズスタイルマトリックスに埋め込まれた適切なスタイルを検索することで、ポーズアダプタを提案する。
広範にわたる実験結果から,本手法は最先端の手法より優れ,参照ビデオにおける発話スタイルを保ち,鮮やかな顔のアニメーションを生成することがわかった。
追加のビデオとコードはhttps://adamesh.github.io.comで入手できる。
関連論文リスト
- MimicTalk: Mimicking a personalized and expressive 3D talking face in minutes [74.82911268630463]
トーキングフェース生成(TFG)は、ターゲットアイデンティティーの顔をアニメーション化し、リアルなトーキングビデオを作成することを目的としている。
MimicTalkは、個人別TFGの効率性と堅牢性を改善するために、NeRFベースの個人非依存のジェネリックモデルから豊富な知識を活用する。
私たちのMimicTalkは、ビデオの品質、効率、表現性に関して、これまでのベースラインを超えていることが実験によって示されています。
論文 参考訳(メタデータ) (2024-10-09T10:12:37Z) - Mimic: Speaking Style Disentanglement for Speech-Driven 3D Facial
Animation [41.489700112318864]
音声駆動型3D顔アニメーションは、音声と正確に同期し、独特の話し方にマッチする鮮やかな顔アニメーションを合成することを目的としている。
本稿では,任意の発話スタイルの符号化を可能にする,革新的な発話スタイルのアンタングル化手法を提案する。
また,顔の動きから話し方や内容の絡み合った表現を学習する「textbfMimic」という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-18T01:49:42Z) - Breathing Life into Faces: Speech-driven 3D Facial Animation with
Natural Head Pose and Detailed Shape [19.431264557873117]
VividTalkerは、音声による3D顔アニメーションを促進するために設計された新しいフレームワークである。
顔のアニメーションを頭ポーズと口の動きに明確に切り離し、別々にエンコードする。
我々は,詳細な形状を持つ新しい3次元データセットを構築し,音声内容に合わせて顔の詳細を合成することを学ぶ。
論文 参考訳(メタデータ) (2023-10-31T07:47:19Z) - Personalized Speech-driven Expressive 3D Facial Animation Synthesis with
Style Control [1.8540152959438578]
現実的な顔アニメーションシステムは、自然性や妥当性の高次化を実現するために、アイデンティティ固有の話し方や顔の慣用性を考慮すべきである。
音声駆動型表情表現3次元顔画像合成フレームワークを提案する(スタイルと呼ばれる)。
我々のフレームワークはエンドツーエンドで訓練されており、3つの主要コンポーネントを持つ非自己回帰エンコーダデコーダアーキテクチャを備えている。
論文 参考訳(メタデータ) (2023-10-25T21:22:28Z) - DF-3DFace: One-to-Many Speech Synchronized 3D Face Animation with
Diffusion [68.85904927374165]
拡散駆動型音声から3次元の顔メッシュ合成であるDF-3DFaceを提案する。
拡散に基づく音声と3次元顔の複雑な一対多関係をキャプチャする。
最先端の手法よりもリアルな顔アニメーションを同時に実現します。
論文 参考訳(メタデータ) (2023-08-23T04:14:55Z) - VAST: Vivify Your Talking Avatar via Zero-Shot Expressive Facial Style
Transfer [38.294607144065566]
本稿では、中立な光リアルアバターを再生するための教師なし変動型転送モデル(VAST)を提案する。
本モデルは,映像のプロンプトから表情表現を抽出するスタイルエンコーダと,正確な音声関連動作をモデル化するハイブリッド表情デコーダの3つの重要な構成要素から構成される。
顔のスタイル学習に欠かせない設計で、任意のビデオプロンプトから表現スタイルを柔軟に捉え、ゼロショットでパーソナライズされた画像に転送することができる。
論文 参考訳(メタデータ) (2023-08-09T09:38:14Z) - Imitator: Personalized Speech-driven 3D Facial Animation [63.57811510502906]
State-of-the-artメソッドは、ターゲットアクターの顔トポロジを変形させ、ターゲットアクターのアイデンティティ固有の話し方や顔の慣用性を考慮せずに入力オーディオを同期させる。
本稿では,音声による表情合成手法であるImitatorについて述べる。
提案手法は,ターゲットアクターの発話スタイルを保ちながら,入力音声から時間的コヒーレントな表情を生成する。
論文 参考訳(メタデータ) (2022-12-30T19:00:02Z) - MeshTalk: 3D Face Animation from Speech using Cross-Modality
Disentanglement [142.9900055577252]
本研究では,顔全体の映像合成を高度に実現するための汎用的な音声駆動顔アニメーション手法を提案する。
このアプローチは、目のまばたきやまばたきなど、音声信号とは無関係な顔の一部のアニメーションを再現すると同時に、高精度な唇の動きを保証します。
論文 参考訳(メタデータ) (2021-04-16T17:05:40Z) - Audio-driven Talking Face Video Generation with Learning-based
Personalized Head Pose [67.31838207805573]
本稿では、音源者の音声信号Aと対象者の短いビデオVを入力とするディープニューラルネットワークモデルを提案する。
我々は、パーソナライズされた頭部ポーズで合成された高品質な会話顔映像を出力する。
提案手法は,最先端の手法よりも,頭部運動効果を識別し,高品質な会話顔ビデオを生成する。
論文 参考訳(メタデータ) (2020-02-24T10:02:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。