論文の概要: Imitator: Personalized Speech-driven 3D Facial Animation
- arxiv url: http://arxiv.org/abs/2301.00023v1
- Date: Fri, 30 Dec 2022 19:00:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 15:04:24.173313
- Title: Imitator: Personalized Speech-driven 3D Facial Animation
- Title(参考訳): imitator:パーソナライズされた音声駆動3d顔アニメーション
- Authors: Balamurugan Thambiraja, Ikhsanul Habibie, Sadegh Aliakbarian, Darren
Cosker, Christian Theobalt, Justus Thies
- Abstract要約: State-of-the-artメソッドは、ターゲットアクターの顔トポロジを変形させ、ターゲットアクターのアイデンティティ固有の話し方や顔の慣用性を考慮せずに入力オーディオを同期させる。
本稿では,音声による表情合成手法であるImitatorについて述べる。
提案手法は,ターゲットアクターの発話スタイルを保ちながら,入力音声から時間的コヒーレントな表情を生成する。
- 参考スコア(独自算出の注目度): 63.57811510502906
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech-driven 3D facial animation has been widely explored, with applications
in gaming, character animation, virtual reality, and telepresence systems.
State-of-the-art methods deform the face topology of the target actor to sync
the input audio without considering the identity-specific speaking style and
facial idiosyncrasies of the target actor, thus, resulting in unrealistic and
inaccurate lip movements. To address this, we present Imitator, a speech-driven
facial expression synthesis method, which learns identity-specific details from
a short input video and produces novel facial expressions matching the
identity-specific speaking style and facial idiosyncrasies of the target actor.
Specifically, we train a style-agnostic transformer on a large facial
expression dataset which we use as a prior for audio-driven facial expressions.
Based on this prior, we optimize for identity-specific speaking style based on
a short reference video. To train the prior, we introduce a novel loss function
based on detected bilabial consonants to ensure plausible lip closures and
consequently improve the realism of the generated expressions. Through detailed
experiments and a user study, we show that our approach produces temporally
coherent facial expressions from input audio while preserving the speaking
style of the target actors.
- Abstract(参考訳): 音声駆動の3d顔アニメーションは、ゲーム、キャラクターアニメーション、仮想現実、テレプレゼンスシステムなどで広く研究されている。
State-of-the-artメソッドは、ターゲットアクターの顔トポロジーを変形させ、ターゲットアクターの個人固有の話し方や顔の慣用性を考慮して入力オーディオを同期させる。
そこで本研究では,短い入力映像から身元特定の詳細を学習し,対象俳優の身元特定発話スタイルと顔特徴に合致した新たな表情表現を生成する,音声駆動表情合成手法であるイミテータを提案する。
具体的には,音声駆動式に先立って使用する大規模な表情データセット上で,スタイル非依存トランスフォーマーをトレーニングする。
この先程に基づいて、短い参照ビデオに基づいて、識別特化音声スタイルを最適化する。
先行訓練のために,検出されたバイラビアル子音に基づく新たな損失関数を導入し,口唇閉鎖を確実にし,生成した表現のリアリズムを改善する。
提案手法は,詳細な実験とユーザスタディを通じて,ターゲットアクターの発話スタイルを保ちながら,入力音声から時間的コヒーレントな表情を生成することを示す。
関連論文リスト
- MimicTalk: Mimicking a personalized and expressive 3D talking face in minutes [74.82911268630463]
トーキングフェース生成(TFG)は、ターゲットアイデンティティーの顔をアニメーション化し、リアルなトーキングビデオを作成することを目的としている。
MimicTalkは、個人別TFGの効率性と堅牢性を改善するために、NeRFベースの個人非依存のジェネリックモデルから豊富な知識を活用する。
私たちのMimicTalkは、ビデオの品質、効率、表現性に関して、これまでのベースラインを超えていることが実験によって示されています。
論文 参考訳(メタデータ) (2024-10-09T10:12:37Z) - Mimic: Speaking Style Disentanglement for Speech-Driven 3D Facial
Animation [41.489700112318864]
音声駆動型3D顔アニメーションは、音声と正確に同期し、独特の話し方にマッチする鮮やかな顔アニメーションを合成することを目的としている。
本稿では,任意の発話スタイルの符号化を可能にする,革新的な発話スタイルのアンタングル化手法を提案する。
また,顔の動きから話し方や内容の絡み合った表現を学習する「textbfMimic」という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-18T01:49:42Z) - Personalized Speech-driven Expressive 3D Facial Animation Synthesis with
Style Control [1.8540152959438578]
現実的な顔アニメーションシステムは、自然性や妥当性の高次化を実現するために、アイデンティティ固有の話し方や顔の慣用性を考慮すべきである。
音声駆動型表情表現3次元顔画像合成フレームワークを提案する(スタイルと呼ばれる)。
我々のフレームワークはエンドツーエンドで訓練されており、3つの主要コンポーネントを持つ非自己回帰エンコーダデコーダアーキテクチャを備えている。
論文 参考訳(メタデータ) (2023-10-25T21:22:28Z) - AdaMesh: Personalized Facial Expressions and Head Poses for Adaptive Speech-Driven 3D Facial Animation [49.4220768835379]
AdaMeshは、適応的な音声駆動の顔アニメーションアプローチである。
約10秒間の参照ビデオから、パーソナライズされた話し方を学ぶ。
鮮やかな表情と頭部のポーズを生成する。
論文 参考訳(メタデータ) (2023-10-11T06:56:08Z) - Identity-Preserving Talking Face Generation with Landmark and Appearance
Priors [106.79923577700345]
既存の人物生成法は、現実的でリップ同期のビデオを生成するのに困難である。
本稿では,ランドマーク生成とランドマーク・ツー・ビデオレンダリングによる2段階のフレームワークを提案する。
提案手法は,既存の対人顔生成法よりも現実的で,リップシンクで,アイデンティティを保ったビデオを生成することができる。
論文 参考訳(メタデータ) (2023-05-15T01:31:32Z) - Audio-Driven Talking Face Generation with Diverse yet Realistic Facial
Animations [61.65012981435094]
DIRFAは、異なるが現実的な顔のアニメーションを同一の駆動音声から生成できる新しい方法である。
同一音声に対して妥当な顔のアニメーションの変動に対応するため,トランスフォーマーに基づく確率的マッピングネットワークを設計する。
DIRFAは現実的な顔のアニメーションを効果的に生成できることを示す。
論文 参考訳(メタデータ) (2023-04-18T12:36:15Z) - FaceXHuBERT: Text-less Speech-driven E(X)pressive 3D Facial Animation
Synthesis Using Self-Supervised Speech Representation Learning [0.0]
FaceXHuBERTは、テキストレス音声駆動の3D顔アニメーション生成方法である。
背景雑音に対して非常に頑丈で、様々な状況で録音された音声を処理できる。
アニメーションの写実性に関しては78%の精度で優れた結果が得られる。
論文 参考訳(メタデータ) (2023-03-09T17:05:19Z) - MeshTalk: 3D Face Animation from Speech using Cross-Modality
Disentanglement [142.9900055577252]
本研究では,顔全体の映像合成を高度に実現するための汎用的な音声駆動顔アニメーション手法を提案する。
このアプローチは、目のまばたきやまばたきなど、音声信号とは無関係な顔の一部のアニメーションを再現すると同時に、高精度な唇の動きを保証します。
論文 参考訳(メタデータ) (2021-04-16T17:05:40Z) - Identity-Preserving Realistic Talking Face Generation [4.848016645393023]
音声から現実的な顔のアニメーションを識別する手法を提案する。
教師なし学習を用いて顔のランドマークに点眼する。
また、LSGANを用いて、人物特有の顔のランドマークから顔のテクスチャを生成する。
論文 参考訳(メタデータ) (2020-05-25T18:08:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。