論文の概要: MemoryTalker: Personalized Speech-Driven 3D Facial Animation via Audio-Guided Stylization
- arxiv url: http://arxiv.org/abs/2507.20562v1
- Date: Mon, 28 Jul 2025 06:47:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:57.891224
- Title: MemoryTalker: Personalized Speech-Driven 3D Facial Animation via Audio-Guided Stylization
- Title(参考訳): MemoryTalker:オーディオガイドによるパーソナライズされた音声駆動型3D顔アニメーション
- Authors: Hyung Kyu Kim, Sangmin Lee, Hak Gu Kim,
- Abstract要約: 音声駆動型3D顔アニメーションは、話者の話し方に合わせて、与えられた音声から現実的な顔の動きシーケンスを合成することを目的としている。
以前の作業では、スピーカーのクラスラベルや推論時に追加の3D顔メッシュなど、事前の作業が必要になることが多い。
本稿では,音声入力のみで発話スタイルを反映することで,現実的で正確な3次元顔の動き合成を可能にするMemoryTalkerを提案する。
- 参考スコア(独自算出の注目度): 12.143710013809322
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech-driven 3D facial animation aims to synthesize realistic facial motion sequences from given audio, matching the speaker's speaking style. However, previous works often require priors such as class labels of a speaker or additional 3D facial meshes at inference, which makes them fail to reflect the speaking style and limits their practical use. To address these issues, we propose MemoryTalker which enables realistic and accurate 3D facial motion synthesis by reflecting speaking style only with audio input to maximize usability in applications. Our framework consists of two training stages: 1-stage is storing and retrieving general motion (i.e., Memorizing), and 2-stage is to perform the personalized facial motion synthesis (i.e., Animating) with the motion memory stylized by the audio-driven speaking style feature. In this second stage, our model learns about which facial motion types should be emphasized for a particular piece of audio. As a result, our MemoryTalker can generate a reliable personalized facial animation without additional prior information. With quantitative and qualitative evaluations, as well as user study, we show the effectiveness of our model and its performance enhancement for personalized facial animation over state-of-the-art methods.
- Abstract(参考訳): 音声駆動型3D顔アニメーションは、話者の話し方に合わせて、与えられた音声から現実的な顔の動きシーケンスを合成することを目的としている。
しかし、以前の作品では、話者のクラスラベルや推論時に追加の3D顔メッシュなど、事前に必要とされていたため、発話スタイルの反映に失敗し、実用的な使用を制限することが多かった。
これらの課題に対処するために,アプリケーションにおけるユーザビリティを最大化するために,音声入力のみを反映して,現実的で正確な3次元顔の動き合成を可能にするMemoryTalkerを提案する。
本フレームワークは2つの訓練段階から構成される。1段階は一般動作(記憶)の保存と検索であり、2段階は音声駆動型音声スタイル特徴によってスタイル化された動作メモリを用いて、パーソナライズされた顔の動き合成(アニメーション)を行う。
この第2段階において,本モデルは特定の音声に対してどのような顔の動きが強調されるべきかを学習する。
その結果,我々のMemoryTalkerは,事前情報を付加することなく,信頼性の高いパーソナライズされた顔アニメーションを生成できることがわかった。
定量的および定性的な評価とユーザスタディにより、我々のモデルの有効性と、その性能向上が、最先端の手法に対するパーソナライズされた顔のアニメーションに与える影響を示す。
関連論文リスト
- MimicTalk: Mimicking a personalized and expressive 3D talking face in minutes [74.82911268630463]
トーキングフェース生成(TFG)は、ターゲットアイデンティティーの顔をアニメーション化し、リアルなトーキングビデオを作成することを目的としている。
MimicTalkは、個人別TFGの効率性と堅牢性を改善するために、NeRFベースの個人非依存のジェネリックモデルから豊富な知識を活用する。
私たちのMimicTalkは、ビデオの品質、効率、表現性に関して、これまでのベースラインを超えていることが実験によって示されています。
論文 参考訳(メタデータ) (2024-10-09T10:12:37Z) - Mimic: Speaking Style Disentanglement for Speech-Driven 3D Facial
Animation [41.489700112318864]
音声駆動型3D顔アニメーションは、音声と正確に同期し、独特の話し方にマッチする鮮やかな顔アニメーションを合成することを目的としている。
本稿では,任意の発話スタイルの符号化を可能にする,革新的な発話スタイルのアンタングル化手法を提案する。
また,顔の動きから話し方や内容の絡み合った表現を学習する「textbfMimic」という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-18T01:49:42Z) - 3DiFACE: Diffusion-based Speech-driven 3D Facial Animation and Editing [22.30870274645442]
3DiFACEは、音声による顔のアニメーションと編集をパーソナライズする新しい方法である。
提案手法は,既存の最先端技術より優れ,忠実度と多様性が向上した音声駆動型アニメーションを実現する。
論文 参考訳(メタデータ) (2023-12-01T19:01:05Z) - Personalized Speech-driven Expressive 3D Facial Animation Synthesis with
Style Control [1.8540152959438578]
現実的な顔アニメーションシステムは、自然性や妥当性の高次化を実現するために、アイデンティティ固有の話し方や顔の慣用性を考慮すべきである。
音声駆動型表情表現3次元顔画像合成フレームワークを提案する(スタイルと呼ばれる)。
我々のフレームワークはエンドツーエンドで訓練されており、3つの主要コンポーネントを持つ非自己回帰エンコーダデコーダアーキテクチャを備えている。
論文 参考訳(メタデータ) (2023-10-25T21:22:28Z) - AdaMesh: Personalized Facial Expressions and Head Poses for Adaptive Speech-Driven 3D Facial Animation [49.4220768835379]
AdaMeshは、適応的な音声駆動の顔アニメーションアプローチである。
約10秒間の参照ビデオから、パーソナライズされた話し方を学ぶ。
鮮やかな表情と頭部のポーズを生成する。
論文 参考訳(メタデータ) (2023-10-11T06:56:08Z) - FaceXHuBERT: Text-less Speech-driven E(X)pressive 3D Facial Animation
Synthesis Using Self-Supervised Speech Representation Learning [0.0]
FaceXHuBERTは、テキストレス音声駆動の3D顔アニメーション生成方法である。
背景雑音に対して非常に頑丈で、様々な状況で録音された音声を処理できる。
アニメーションの写実性に関しては78%の精度で優れた結果が得られる。
論文 参考訳(メタデータ) (2023-03-09T17:05:19Z) - Imitator: Personalized Speech-driven 3D Facial Animation [63.57811510502906]
State-of-the-artメソッドは、ターゲットアクターの顔トポロジを変形させ、ターゲットアクターのアイデンティティ固有の話し方や顔の慣用性を考慮せずに入力オーディオを同期させる。
本稿では,音声による表情合成手法であるImitatorについて述べる。
提案手法は,ターゲットアクターの発話スタイルを保ちながら,入力音声から時間的コヒーレントな表情を生成する。
論文 参考訳(メタデータ) (2022-12-30T19:00:02Z) - MeshTalk: 3D Face Animation from Speech using Cross-Modality
Disentanglement [142.9900055577252]
本研究では,顔全体の映像合成を高度に実現するための汎用的な音声駆動顔アニメーション手法を提案する。
このアプローチは、目のまばたきやまばたきなど、音声信号とは無関係な顔の一部のアニメーションを再現すると同時に、高精度な唇の動きを保証します。
論文 参考訳(メタデータ) (2021-04-16T17:05:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。