Fugu-MT 論文翻訳(概要): EmoFace: Emotion-Content Disentangled Speech-Driven 3D Talking Face with Mesh Attention

論文の概要: EmoFace: Emotion-Content Disentangled Speech-Driven 3D Talking Face with Mesh Attention

arxiv url: http://arxiv.org/abs/2408.11518v1
Date: Wed, 21 Aug 2024 10:51:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-22 17:27:26.604363
Title: EmoFace: Emotion-Content Disentangled Speech-Driven 3D Talking Face with Mesh Attention
Title（参考訳）: EmoFace: メッシュアテンション付き感情コンテンツ分散音声駆動型3Dトーキング
Authors: Yihong Lin, Liang Peng, Jianqiao Hu, Xiandong Li, Wenxiong Kang, Songju Lei, Xianjia Wu, Huang Xu,
Abstract要約: 感情と表情の相関を効果的に捉えるために,EmoFaceと呼ばれる新しいモデルを提案する。 EmoFaceでは、時間と空間におけるメッシュ間の潜在的な機能依存関係の学習を支援する、新しいMesh Attentionメカニズムを採用している。また,教師の強制力と3次元顔アニメーションタスクのスケジュールサンプリングを組み合わせた効果的な自己成長学習手法を,私たちの知る限り初めて採用した。
参考スコア（独自算出の注目度）: 25.09349792539704
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The creation of increasingly vivid 3D virtual digital humans has become a hot topic in recent years. Currently, most speech-driven work focuses on training models to learn the relationship between phonemes and visemes to achieve more realistic lips. However, they fail to capture the correlations between emotions and facial expressions effectively. To solve this problem, we propose a new model, termed EmoFace. EmoFace employs a novel Mesh Attention mechanism, which helps to learn potential feature dependencies between mesh vertices in time and space. We also adopt, for the first time to our knowledge, an effective self-growing training scheme that combines teacher-forcing and scheduled sampling in a 3D face animation task. Additionally, since EmoFace is an autoregressive model, there is no requirement that the first frame of the training data must be a silent frame, which greatly reduces the data limitations and contributes to solve the current dilemma of insufficient datasets. Comprehensive quantitative and qualitative evaluations on our proposed high-quality reconstructed 3D emotional facial animation dataset, 3D-RAVDESS ($5.0343\times 10^{-5}$mm for LVE and $1.0196\times 10^{-5}$mm for EVE), and publicly available dataset VOCASET ($2.8669\times 10^{-5}$mm for LVE and $0.4664\times 10^{-5}$mm for EVE), demonstrate that our algorithm achieves state-of-the-art performance.
Abstract（参考訳）: 近年、ますます鮮明な3Dバーチャル・デジタル・ヒューマンの創造がホットな話題となっている。現在、ほとんどの音声駆動の作業は、よりリアルな唇を達成するために、音素とビセムの関係を学ぶためのトレーニングモデルに焦点を当てている。しかし、感情と表情の相関を効果的に捉えられなかった。この問題を解決するために,EmoFaceと呼ばれる新しいモデルを提案する。 EmoFaceは、メッシュ頂点間の潜在的な機能依存を時間と空間で学習するのに役立つ、新しいMesh Attentionメカニズムを採用している。また,教師の強制力と3次元顔アニメーションタスクのスケジュールサンプリングを組み合わせた効果的な自己成長学習手法を,私たちの知る限り初めて採用した。さらに、EmoFaceは自己回帰モデルであるため、トレーニングデータの第一フレームがサイレントフレームでなければならないという要件はない。 3D-RAVDESS (5.0343\times 10^{-5}$mm for LVE and $1.0196\times 10^{-5}$mm for EVE) および一般用データセットVOCASET (2.8669\times 10^{-5}$mm for LVE and $0.4664\times 10^{-5}$mm for EVE) に関する総合的・質的な評価を行い、我々のアルゴリズムが最先端のパフォーマンスを達成することを示した。

関連論文リスト

MEDTalk: Multimodal Controlled 3D Facial Animation with Dynamic Emotions by Disentangled Embedding [48.54455964043634]
MEDTalkは、きめ細かなダイナミックな会話ヘッド生成のための新しいフレームワークである。音声と音声のテキストを統合し、フレームワイドの強度変化を予測し、静的な感情特徴を動的に調整し、リアルな感情表現を生成する。生成した結果は、産業生産パイプラインに便利に統合できます。
論文参考訳（メタデータ） (2025-07-08T15:14:27Z)
VisualSpeaker: Visually-Guided 3D Avatar Lip Synthesis [70.76837748695841]
視覚音声認識によって教師される写真リアルな微分可能レンダリングを用いてギャップを埋める新しい手法であるVisualSpeakerを提案する。我々の貢献は、訓練中に訓練済みの視覚自動音声認識モデルを通して3Dガウス・スプティング・アバターレンダリングを通過させることによって得られる、知覚的な唇読影損失である。 MEADデータセットの評価は、VisualSpeakerが標準のLip Vertex Errorメトリックを56.1%改善し、生成されたアニメーションの知覚的品質を向上し、メッシュ駆動アニメーションの制御性を維持していることを示している。
論文参考訳（メタデータ） (2025-07-08T15:04:17Z)
EmoDiffusion: Enhancing Emotional 3D Facial Animation with Latent Diffusion Models [66.67979602235015]
エモディフュージョン(EmoDiffusion)は、音声中の様々な感情をアンタングルしてリッチな3次元の表情を生成する新しいアプローチである。 iPhone上のLiveLinkFaceを使ってアニメーション専門家の指導の下で表情をキャプチャする。
論文参考訳（メタデータ） (2025-03-14T02:54:22Z)
MMHead: Towards Fine-grained Multi-modal 3D Facial Animation [68.04052669266174]
大規模なマルチモーダル3次元顔アニメーションデータセットMMHeadを構築した。 MMHeadは、49時間の3D顔の動きシーケンス、音声、リッチな階層的なテキストアノテーションで構成されている。 MMHeadデータセットに基づいて,テキストによる3次元対話ヘッドアニメーションとテキストから3次元の顔の動き生成という,2つの新しいタスクのベンチマークを構築した。
論文参考訳（メタデータ） (2024-10-10T09:37:01Z)
MimicTalk: Mimicking a personalized and expressive 3D talking face in minutes [74.82911268630463]
トーキングフェース生成(TFG)は、ターゲットアイデンティティーの顔をアニメーション化し、リアルなトーキングビデオを作成することを目的としている。 MimicTalkは、個人別TFGの効率性と堅牢性を改善するために、NeRFベースの個人非依存のジェネリックモデルから豊富な知識を活用する。私たちのMimicTalkは、ビデオの品質、効率、表現性に関して、これまでのベースラインを超えていることが実験によって示されています。
論文参考訳（メタデータ） (2024-10-09T10:12:37Z)
Emo3D: Metric and Benchmarking Dataset for 3D Facial Expression Generation from Emotion Description [3.52270271101496]
Emo3Dは、人間の感情の幅広い範囲にまたがる広範な「テキスト画像表現データセット」である。我々は多種多様なテキスト記述を生成し、感情表現の幅広い範囲を捉えやすくする。エモ3D」はアニメーションデザイン、バーチャルリアリティ、感情的な人間とコンピュータのインタラクションに優れた応用がある。
論文参考訳（メタデータ） (2024-10-02T21:31:24Z)
DEEPTalk: Dynamic Emotion Embedding for Probabilistic Speech-Driven 3D Face Animation [14.07086606183356]
音声駆動の3D顔アニメーションは、幅広い応用によって多くの注目を集めている。現在の方法では、音声を通して伝達されるニュアンスな感情のアンダートーンを捉えることができず、単調な顔の動きを生成する。音声入力から直接多様で感情的に豊かな表情を生成する新しいアプローチであるDEEPTalkを紹介する。
論文参考訳（メタデータ） (2024-08-12T08:56:49Z)
EmoTalk3D: High-Fidelity Free-View Synthesis of Emotional 3D Talking Head [30.138347111341748]
本稿では,3次元音声頭部を制御可能な感情で合成する新しい手法を提案する。本モデルでは,生成した音声の感情を制御可能とし,広視野で表現することができる。実験により,高忠実度・感情制御可能な3次元音声頭部の創出におけるアプローチの有効性を実証した。
論文参考訳（メタデータ） (2024-08-01T05:46:57Z)
AnimateMe: 4D Facial Expressions via Diffusion Models [72.63383191654357]
拡散モデルの最近の進歩により、2次元アニメーションにおける生成モデルの能力が向上した。グラフニューラルネットワーク(GNN)は,メッシュ空間上で直接拡散過程を定式化し,新しい手法で拡散モデルを記述する。これにより、メッシュ拡散モデルによる顔の変形の発生が容易になる。
論文参考訳（メタデータ） (2024-03-25T21:40:44Z)
EmoVOCA: Speech-Driven Emotional 3D Talking Heads [12.161006152509653]
EmoVOCAと呼ばれる合成データセットを作成するための革新的なデータ駆動手法を提案する。次に,3次元顔,音声ファイル,感情ラベル,強度値を入力として受け入れる感情的3次元音声ヘッドジェネレータを設計,訓練し,顔の表情特性で音声同期唇の動きをアニメーション化することを学ぶ。
論文参考訳（メタデータ） (2024-03-19T16:33:26Z)
VRMM: A Volumetric Relightable Morphable Head Model [55.21098471673929]
本稿では,3次元顔モデリングに先立って,新しい容積・パラメトリック顔モデルであるVRMMを紹介する。我々のフレームワークは、アイデンティティ、表現、照明の潜在空間を、低次元の表現に効率的に切り離し、エンコードする。我々は,アバター生成,顔の再構成,アニメーションなどの様々な応用を通じて,VRMMの汎用性と有効性を示す。
論文参考訳（メタデータ） (2024-02-06T15:55:46Z)
A Generative Framework for Self-Supervised Facial Representation Learning [18.094262972295702]
自己教師付き表現学習は、ペア化されたデータセットに頼ることなく、強力な一般化能力に注目されるようになった。自己監督型顔表現学習は、顔のアイデンティティ、表情、ポーズや光といった外部要因の結合により未解決のままである。自己教師型顔表現のための新しい生成フレームワークであるLatentFaceを提案する。
論文参考訳（メタデータ） (2023-09-15T09:34:05Z)
SketchMetaFace: A Learning-based Sketching Interface for High-fidelity 3D Character Face Modeling [69.28254439393298]
SketchMetaFaceは、アマチュアユーザーを対象に、高忠実度3D顔を数分でモデリングするスケッチシステムである。我々は"Implicit and Depth Guided Mesh Modeling"(IDGMM)と呼ばれる新しい学習ベース手法を開発した。メッシュ、暗黙、深度表現の利点を融合させ、高い効率で高品質な結果を達成する。
論文参考訳（メタデータ） (2023-07-03T07:41:07Z)
Emotional Speech-Driven Animation with Content-Emotion Disentanglement [51.34635009347183]
本研究では,感情表現の明示的な制御を可能にしつつ,音声からリップシンクを維持する3次元音声アバターを生成するEMOTEを提案する。 EmOTEは、同じデータでトレーニングされた最先端の方法よりも、リップシンクで音声駆動の顔アニメーションを生成する。
論文参考訳（メタデータ） (2023-06-15T09:31:31Z)
EmoTalk: Speech-Driven Emotional Disentanglement for 3D Face Animation [28.964917860664492]
音声駆動型3D顔アニメーションは、音声の内容と感情にマッチする現実的な表情を生成することを目的としている。本稿では,3次元表情を豊かに表現するために,音声のさまざまな感情をアンタングルするエンド・ツー・エンドニューラルネットワークを提案する。我々のアプローチは最先端の手法より優れ、より多様な顔の動きを示す。
論文参考訳（メタデータ） (2023-03-20T13:22:04Z)
EMOCA: Emotion Driven Monocular Face Capture and Animation [59.15004328155593]
本稿では,学習中の感情の深層的一貫性を損なうことによって,再構成された3次元表現が入力画像に表現された表現と一致することを確実にする。 In-the-wild emotion recognitionのタスクでは、人間の行動を分析する上での3D幾何の価値を強調しながら、最も優れた画像ベースの手法と同等に幾何学的アプローチを実践しています。
論文参考訳（メタデータ） (2022-04-24T15:58:35Z)
3D-TalkEmo: Learning to Synthesize 3D Emotional Talking Head [13.305263646852087]
3D-TalkEmoは、様々な感情を持つ3Dトークヘッドアニメーションを生成するディープニューラルネットワークです。私たちはまた、オーディオとビデオの同期、豊富なコーパス、異なる人のさまざまな感情状態を含む大きな3dデータセットも作成します。
論文参考訳（メタデータ） (2021-04-25T02:48:19Z)
Audio- and Gaze-driven Facial Animation of Codec Avatars [149.0094713268313]
音声および/またはアイトラッキングを用いて,コーデックアバターをリアルタイムにアニメーション化するための最初のアプローチについて述べる。私たちのゴールは、重要な社会的シグナルを示す個人間の表現力のある会話を表示することです。
論文参考訳（メタデータ） (2020-08-11T22:28:48Z)
Audio-driven Talking Face Video Generation with Learning-based Personalized Head Pose [67.31838207805573]
本稿では、音源者の音声信号Aと対象者の短いビデオVを入力とするディープニューラルネットワークモデルを提案する。我々は、パーソナライズされた頭部ポーズで合成された高品質な会話顔映像を出力する。提案手法は,最先端の手法よりも,頭部運動効果を識別し,高品質な会話顔ビデオを生成する。
論文参考訳（メタデータ） (2020-02-24T10:02:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。