Fugu-MT 論文翻訳(概要): Personalized Speech-driven Expressive 3D Facial Animation Synthesis with Style Control

論文の概要: Personalized Speech-driven Expressive 3D Facial Animation Synthesis with Style Control

arxiv url: http://arxiv.org/abs/2310.17011v1
Date: Wed, 25 Oct 2023 21:22:28 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-27 23:15:09.063753
Title: Personalized Speech-driven Expressive 3D Facial Animation Synthesis with Style Control
Title（参考訳）: スタイル制御によるパーソナライズされた音声駆動表現型3d顔アニメーション合成
Authors: Elif Bozkurt
Abstract要約: 現実的な顔アニメーションシステムは、自然性や妥当性の高次化を実現するために、アイデンティティ固有の話し方や顔の慣用性を考慮すべきである。音声駆動型表情表現3次元顔画像合成フレームワークを提案する(スタイルと呼ばれる)。我々のフレームワークはエンドツーエンドで訓練されており、3つの主要コンポーネントを持つ非自己回帰エンコーダデコーダアーキテクチャを備えている。
参考スコア（独自算出の注目度）: 1.8540152959438578
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Different people have different facial expressions while speaking emotionally. A realistic facial animation system should consider such identity-specific speaking styles and facial idiosyncrasies to achieve high-degree of naturalness and plausibility. Existing approaches to personalized speech-driven 3D facial animation either use one-hot identity labels or rely-on person specific models which limit their scalability. We present a personalized speech-driven expressive 3D facial animation synthesis framework that models identity specific facial motion as latent representations (called as styles), and synthesizes novel animations given a speech input with the target style for various emotion categories. Our framework is trained in an end-to-end fashion and has a non-autoregressive encoder-decoder architecture with three main components: expression encoder, speech encoder and expression decoder. Since, expressive facial motion includes both identity-specific style and speech-related content information; expression encoder first disentangles facial motion sequences into style and content representations, respectively. Then, both of the speech encoder and the expression decoders input the extracted style information to update transformer layer weights during training phase. Our speech encoder also extracts speech phoneme label and duration information to achieve better synchrony within the non-autoregressive synthesis mechanism more effectively. Through detailed experiments, we demonstrate that our approach produces temporally coherent facial expressions from input speech while preserving the speaking styles of the target identities.
Abstract（参考訳）: 異なる人は感情的に話しながら異なる表情をしています。現実的な顔アニメーションシステムは、自然性や妥当性の高次化を実現するために、アイデンティティ固有の話し方や顔の慣用性を考慮すべきである。パーソナライズされた音声駆動の3D顔アニメーションに対する既存のアプローチは、1ホットのアイデンティティラベルを使用するか、スケーラビリティを制限する人固有のモデルに依存している。本稿では,個人性のある顔の動きを潜在表現(スタイルと呼ばれる)としてモデル化し,様々な感情カテゴリのターゲットスタイルで音声入力された新しいアニメーションを合成する。我々のフレームワークはエンドツーエンドで訓練されており、式エンコーダ、音声エンコーダ、式デコーダの3つの主要コンポーネントを持つ非自己回帰エンコーダ・デコーダアーキテクチャを備えている。表情エンコーダは、まず、顔の動きシーケンスをそれぞれスタイルとコンテンツ表現に分解する。そして、抽出したスタイル情報を音声エンコーダと式デコーダの両方が入力し、トレーニングフェーズ中にトランスフォーマ層重みを更新する。音声エンコーダは、音声の音素ラベルや持続時間情報を抽出し、非自己回帰合成機構のより効率的な同期を実現する。詳細な実験により,本手法は対象者の発話スタイルを保ちながら,入力音声から時間的コヒーレントな表情を生成することを示した。

関連論文リスト

MemoryTalker: Personalized Speech-Driven 3D Facial Animation via Audio-Guided Stylization [12.143710013809322]
音声駆動型3D顔アニメーションは、話者の話し方に合わせて、与えられた音声から現実的な顔の動きシーケンスを合成することを目的としている。以前の作業では、スピーカーのクラスラベルや推論時に追加の3D顔メッシュなど、事前の作業が必要になることが多い。本稿では,音声入力のみで発話スタイルを反映することで,現実的で正確な3次元顔の動き合成を可能にするMemoryTalkerを提案する。
論文参考訳（メタデータ） (2025-07-28T06:47:59Z)
EmoDiffusion: Enhancing Emotional 3D Facial Animation with Latent Diffusion Models [66.67979602235015]
エモディフュージョン(EmoDiffusion)は、音声中の様々な感情をアンタングルしてリッチな3次元の表情を生成する新しいアプローチである。 iPhone上のLiveLinkFaceを使ってアニメーション専門家の指導の下で表情をキャプチャする。
論文参考訳（メタデータ） (2025-03-14T02:54:22Z)
GaussianSpeech: Audio-Driven Gaussian Avatars [76.10163891172192]
本稿では,3次元頭部アバターの高忠実度アニメーションシーケンスを音声音声から合成する手法であるGaussianSpeechを紹介する。本稿では,表情に依存した色を生成するコンパクトで効率的な3DGSベースのアバター表現を提案する。
論文参考訳（メタデータ） (2024-11-27T18:54:08Z)
MimicTalk: Mimicking a personalized and expressive 3D talking face in minutes [74.82911268630463]
トーキングフェース生成(TFG)は、ターゲットアイデンティティーの顔をアニメーション化し、リアルなトーキングビデオを作成することを目的としている。 MimicTalkは、個人別TFGの効率性と堅牢性を改善するために、NeRFベースの個人非依存のジェネリックモデルから豊富な知識を活用する。私たちのMimicTalkは、ビデオの品質、効率、表現性に関して、これまでのベースラインを超えていることが実験によって示されています。
論文参考訳（メタデータ） (2024-10-09T10:12:37Z)
Speech2UnifiedExpressions: Synchronous Synthesis of Co-Speech Affective Face and Body Expressions from Affordable Inputs [67.27840327499625]
本稿では,デジタル文字の表情と上半身ジェスチャーを同時に合成するマルチモーダル学習手法を提案する。提案手法は, 映像データから直接推定される, まばらな顔のランドマークと上体関節から学習し, もっともらしい感情的性格運動を生成する。
論文参考訳（メタデータ） (2024-06-26T04:53:11Z)
AniTalker: Animate Vivid and Diverse Talking Faces through Identity-Decoupled Facial Motion Encoding [24.486705010561067]
AniTalkerは、1つのポートレートから、生き生きとした話し顔を生成するために設計されたフレームワークである。 AniTalkerは、微妙な表情や頭の動きを含む、幅広い顔のダイナミクスを効果的にキャプチャする。
論文参考訳（メタデータ） (2024-05-06T02:32:41Z)
Mimic: Speaking Style Disentanglement for Speech-Driven 3D Facial Animation [41.489700112318864]
音声駆動型3D顔アニメーションは、音声と正確に同期し、独特の話し方にマッチする鮮やかな顔アニメーションを合成することを目的としている。本稿では,任意の発話スタイルの符号化を可能にする,革新的な発話スタイルのアンタングル化手法を提案する。また,顔の動きから話し方や内容の絡み合った表現を学習する「textbfMimic」という新しいフレームワークを提案する。
論文参考訳（メタデータ） (2023-12-18T01:49:42Z)
AdaMesh: Personalized Facial Expressions and Head Poses for Adaptive Speech-Driven 3D Facial Animation [49.4220768835379]
AdaMeshは、適応的な音声駆動の顔アニメーションアプローチである。約10秒間の参照ビデオから、パーソナライズされた話し方を学ぶ。鮮やかな表情と頭部のポーズを生成する。
論文参考訳（メタデータ） (2023-10-11T06:56:08Z)
DF-3DFace: One-to-Many Speech Synchronized 3D Face Animation with Diffusion [68.85904927374165]
拡散駆動型音声から3次元の顔メッシュ合成であるDF-3DFaceを提案する。拡散に基づく音声と3次元顔の複雑な一対多関係をキャプチャする。最先端の手法よりもリアルな顔アニメーションを同時に実現します。
論文参考訳（メタデータ） (2023-08-23T04:14:55Z)
FaceXHuBERT: Text-less Speech-driven E(X)pressive 3D Facial Animation Synthesis Using Self-Supervised Speech Representation Learning [0.0]
FaceXHuBERTは、テキストレス音声駆動の3D顔アニメーション生成方法である。背景雑音に対して非常に頑丈で、様々な状況で録音された音声を処理できる。アニメーションの写実性に関しては78%の精度で優れた結果が得られる。
論文参考訳（メタデータ） (2023-03-09T17:05:19Z)
Imitator: Personalized Speech-driven 3D Facial Animation [63.57811510502906]
State-of-the-artメソッドは、ターゲットアクターの顔トポロジを変形させ、ターゲットアクターのアイデンティティ固有の話し方や顔の慣用性を考慮せずに入力オーディオを同期させる。本稿では,音声による表情合成手法であるImitatorについて述べる。提案手法は,ターゲットアクターの発話スタイルを保ちながら,入力音声から時間的コヒーレントな表情を生成する。
論文参考訳（メタデータ） (2022-12-30T19:00:02Z)
Write-a-speaker: Text-based Emotional and Rhythmic Talking-head Generation [28.157431757281692]
本研究では,高忠実度表情と頭部動作を合成するテキストベーストーキングヘッドビデオ生成フレームワークを提案する。本フレームワークは,話者に依存しないステージと話者固有のステージから構成される。本アルゴリズムは,様々な表情や頭部の動きを含む高品質なフォトリアリスティックなトーキングヘッドビデオを実現する。
論文参考訳（メタデータ） (2021-04-16T09:44:12Z)
Audio- and Gaze-driven Facial Animation of Codec Avatars [149.0094713268313]
音声および/またはアイトラッキングを用いて,コーデックアバターをリアルタイムにアニメーション化するための最初のアプローチについて述べる。私たちのゴールは、重要な社会的シグナルを示す個人間の表現力のある会話を表示することです。
論文参考訳（メタデータ） (2020-08-11T22:28:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。