論文の概要: Mimic: Speaking Style Disentanglement for Speech-Driven 3D Facial
Animation
- arxiv url: http://arxiv.org/abs/2312.10877v1
- Date: Mon, 18 Dec 2023 01:49:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 14:12:00.892326
- Title: Mimic: Speaking Style Disentanglement for Speech-Driven 3D Facial
Animation
- Title(参考訳): Mimic:音声駆動型3次元顔アニメーションのための発話スタイルのアンタングル
- Authors: Hui Fu, Zeqing Wang, Ke Gong, Keze Wang, Tianshui Chen, Haojie Li,
Haifeng Zeng, Wenxiong Kang
- Abstract要約: 音声駆動型3D顔アニメーションは、音声と正確に同期し、独特の話し方にマッチする鮮やかな顔アニメーションを合成することを目的としている。
本稿では,任意の発話スタイルの符号化を可能にする,革新的な発話スタイルのアンタングル化手法を提案する。
また,顔の動きから話し方や内容の絡み合った表現を学習する「textbfMimic」という新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 41.489700112318864
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech-driven 3D facial animation aims to synthesize vivid facial animations
that accurately synchronize with speech and match the unique speaking style.
However, existing works primarily focus on achieving precise lip
synchronization while neglecting to model the subject-specific speaking style,
often resulting in unrealistic facial animations. To the best of our knowledge,
this work makes the first attempt to explore the coupled information between
the speaking style and the semantic content in facial motions. Specifically, we
introduce an innovative speaking style disentanglement method, which enables
arbitrary-subject speaking style encoding and leads to a more realistic
synthesis of speech-driven facial animations. Subsequently, we propose a novel
framework called \textbf{Mimic} to learn disentangled representations of the
speaking style and content from facial motions by building two latent spaces
for style and content, respectively. Moreover, to facilitate disentangled
representation learning, we introduce four well-designed constraints: an
auxiliary style classifier, an auxiliary inverse classifier, a content
contrastive loss, and a pair of latent cycle losses, which can effectively
contribute to the construction of the identity-related style space and
semantic-related content space. Extensive qualitative and quantitative
experiments conducted on three publicly available datasets demonstrate that our
approach outperforms state-of-the-art methods and is capable of capturing
diverse speaking styles for speech-driven 3D facial animation. The source code
and supplementary video are publicly available at:
https://zeqing-wang.github.io/Mimic/
- Abstract(参考訳): 音声駆動3d顔アニメーションは、発話と正確に同期し、ユニークな話し方とマッチする、鮮明な顔アニメーションを合成することを目的としている。
しかし、既存の作品は、主観的な発話スタイルをモデル化することを無視しながら、正確な唇の同期を達成することに集中しており、しばしば非現実的な顔のアニメーションをもたらす。
我々の知る限り、この研究は、顔の動きにおける話し方と意味的内容の結合した情報を探究する最初の試みである。
具体的には,任意の主観的な発話スタイルを符号化し,より現実的な発話駆動型表情アニメーションの合成を可能にする,革新的な発話スタイル異角化手法を提案する。
次に,2つの潜伏空間を組むことにより,発話スタイルと発話内容の不連続表現を顔の動きから学習するための新しい枠組みである \textbf{mimic} を提案する。
さらに,不整合表現学習を容易にするために,補助的スタイル分類器,補助的逆分類器,内容のコントラスト損失,一対の遅延サイクル損失という,よく設計された4つの制約を導入し,アイデンティティ関連スタイル空間と意味関連コンテンツ空間の構築に効果的に寄与する。
3つの公開データセットに対して行われた広範囲な質的および定量的実験により、我々のアプローチは最先端の手法よりも優れており、音声駆動型3D顔アニメーションの多様な発話スタイルを捉えることができることを示した。
ソースコードと補足ビデオは、https://zeqing-wang.github.io/Mimic/で公開されている。
関連論文リスト
- MimicTalk: Mimicking a personalized and expressive 3D talking face in minutes [74.82911268630463]
トーキングフェース生成(TFG)は、ターゲットアイデンティティーの顔をアニメーション化し、リアルなトーキングビデオを作成することを目的としている。
MimicTalkは、個人別TFGの効率性と堅牢性を改善するために、NeRFベースの個人非依存のジェネリックモデルから豊富な知識を活用する。
私たちのMimicTalkは、ビデオの品質、効率、表現性に関して、これまでのベースラインを超えていることが実験によって示されています。
論文 参考訳(メタデータ) (2024-10-09T10:12:37Z) - 3DiFACE: Diffusion-based Speech-driven 3D Facial Animation and Editing [22.30870274645442]
3DiFACEは、音声による顔のアニメーションと編集をパーソナライズする新しい方法である。
提案手法は,既存の最先端技術より優れ,忠実度と多様性が向上した音声駆動型アニメーションを実現する。
論文 参考訳(メタデータ) (2023-12-01T19:01:05Z) - Personalized Speech-driven Expressive 3D Facial Animation Synthesis with
Style Control [1.8540152959438578]
現実的な顔アニメーションシステムは、自然性や妥当性の高次化を実現するために、アイデンティティ固有の話し方や顔の慣用性を考慮すべきである。
音声駆動型表情表現3次元顔画像合成フレームワークを提案する(スタイルと呼ばれる)。
我々のフレームワークはエンドツーエンドで訓練されており、3つの主要コンポーネントを持つ非自己回帰エンコーダデコーダアーキテクチャを備えている。
論文 参考訳(メタデータ) (2023-10-25T21:22:28Z) - AdaMesh: Personalized Facial Expressions and Head Poses for Adaptive Speech-Driven 3D Facial Animation [49.4220768835379]
AdaMeshは、適応的な音声駆動の顔アニメーションアプローチである。
約10秒間の参照ビデオから、パーソナライズされた話し方を学ぶ。
鮮やかな表情と頭部のポーズを生成する。
論文 参考訳(メタデータ) (2023-10-11T06:56:08Z) - DF-3DFace: One-to-Many Speech Synchronized 3D Face Animation with
Diffusion [68.85904927374165]
拡散駆動型音声から3次元の顔メッシュ合成であるDF-3DFaceを提案する。
拡散に基づく音声と3次元顔の複雑な一対多関係をキャプチャする。
最先端の手法よりもリアルな顔アニメーションを同時に実現します。
論文 参考訳(メタデータ) (2023-08-23T04:14:55Z) - FaceXHuBERT: Text-less Speech-driven E(X)pressive 3D Facial Animation
Synthesis Using Self-Supervised Speech Representation Learning [0.0]
FaceXHuBERTは、テキストレス音声駆動の3D顔アニメーション生成方法である。
背景雑音に対して非常に頑丈で、様々な状況で録音された音声を処理できる。
アニメーションの写実性に関しては78%の精度で優れた結果が得られる。
論文 参考訳(メタデータ) (2023-03-09T17:05:19Z) - Imitator: Personalized Speech-driven 3D Facial Animation [63.57811510502906]
State-of-the-artメソッドは、ターゲットアクターの顔トポロジを変形させ、ターゲットアクターのアイデンティティ固有の話し方や顔の慣用性を考慮せずに入力オーディオを同期させる。
本稿では,音声による表情合成手法であるImitatorについて述べる。
提案手法は,ターゲットアクターの発話スタイルを保ちながら,入力音声から時間的コヒーレントな表情を生成する。
論文 参考訳(メタデータ) (2022-12-30T19:00:02Z) - Joint Audio-Text Model for Expressive Speech-Driven 3D Facial Animation [46.8780140220063]
本稿では,表情駆動型3次元顔画像の文脈情報を取得するための共同音声テキストモデルを提案する。
我々の仮説は、音声と強く相関しない上面表現のバリエーションを曖昧にすることができるというものである。
音声と音声の同期を保ちながら現実的な表情を合成できることを示す。
論文 参考訳(メタデータ) (2021-12-04T01:37:22Z) - MeshTalk: 3D Face Animation from Speech using Cross-Modality
Disentanglement [142.9900055577252]
本研究では,顔全体の映像合成を高度に実現するための汎用的な音声駆動顔アニメーション手法を提案する。
このアプローチは、目のまばたきやまばたきなど、音声信号とは無関係な顔の一部のアニメーションを再現すると同時に、高精度な唇の動きを保証します。
論文 参考訳(メタデータ) (2021-04-16T17:05:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。