論文の概要: Joint Audio-Text Model for Expressive Speech-Driven 3D Facial Animation
- arxiv url: http://arxiv.org/abs/2112.02214v2
- Date: Tue, 7 Dec 2021 12:58:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-08 11:49:23.717625
- Title: Joint Audio-Text Model for Expressive Speech-Driven 3D Facial Animation
- Title(参考訳): 表現型音声駆動3次元顔アニメーションのための音声テキスト統合モデル
- Authors: Yingruo Fan, Zhaojiang Lin, Jun Saito, Wenping Wang, Taku Komura
- Abstract要約: 本稿では,表情駆動型3次元顔画像の文脈情報を取得するための共同音声テキストモデルを提案する。
我々の仮説は、音声と強く相関しない上面表現のバリエーションを曖昧にすることができるというものである。
音声と音声の同期を保ちながら現実的な表情を合成できることを示す。
- 参考スコア(独自算出の注目度): 46.8780140220063
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Speech-driven 3D facial animation with accurate lip synchronization has been
widely studied. However, synthesizing realistic motions for the entire face
during speech has rarely been explored. In this work, we present a joint
audio-text model to capture the contextual information for expressive
speech-driven 3D facial animation. The existing datasets are collected to cover
as many different phonemes as possible instead of sentences, thus limiting the
capability of the audio-based model to learn more diverse contexts. To address
this, we propose to leverage the contextual text embeddings extracted from the
powerful pre-trained language model that has learned rich contextual
representations from large-scale text data. Our hypothesis is that the text
features can disambiguate the variations in upper face expressions, which are
not strongly correlated with the audio. In contrast to prior approaches which
learn phoneme-level features from the text, we investigate the high-level
contextual text features for speech-driven 3D facial animation. We show that
the combined acoustic and textual modalities can synthesize realistic facial
expressions while maintaining audio-lip synchronization. We conduct the
quantitative and qualitative evaluations as well as the perceptual user study.
The results demonstrate the superior performance of our model against existing
state-of-the-art approaches.
- Abstract(参考訳): 正確な唇同期による音声駆動型3次元顔アニメーションが広く研究されている。
しかし、発話中の顔全体のリアルな動きの合成は、ほとんど研究されていない。
本稿では,表現力のある3次元顔アニメーションの文脈情報を取り込むための音声テキスト統合モデルを提案する。
既存のデータセットは、文の代わりにできるだけ多くの異なる音素をカバーするために収集されるため、より多様な文脈を学習するオーディオベースモデルの能力は制限される。
そこで本研究では,大規模テキストデータから豊富な文脈表現を学習した強力な事前学習言語モデルから抽出した文脈テキスト埋め込みの活用を提案する。
私たちの仮説は、テキスト機能は、音声と強く相関しない上面表現のバリエーションを曖昧にすることができるというものです。
テキストから音素レベル特徴を学習する先行手法とは対照的に,音声駆動3次元顔アニメーションにおける高レベル文脈テキスト特徴について検討する。
音声と音声の同期を保ちながら現実的な表情を合成できることを示す。
我々は,定量的,質的な評価と知覚的ユーザスタディを実施している。
その結果,既存の最先端手法と比較して,モデルの性能が優れていることが示された。
関連論文リスト
- AVI-Talking: Learning Audio-Visual Instructions for Expressive 3D
Talking Face Generation [28.71632683090641]
本稿では,表情生成のための音声・視覚指導システムを提案する。
人間の音声から直接顔の動きを学習する代わりに、私たちの2段階の戦略はLLMが最初に音声情報を解釈することを含む。
この2段階のプロセスは、LLMの組み込みと組み合わせて、モデルの解釈可能性を高め、ユーザーに命令を理解する柔軟性を提供する。
論文 参考訳(メタデータ) (2024-02-25T15:51:05Z) - Mimic: Speaking Style Disentanglement for Speech-Driven 3D Facial
Animation [41.489700112318864]
音声駆動型3D顔アニメーションは、音声と正確に同期し、独特の話し方にマッチする鮮やかな顔アニメーションを合成することを目的としている。
本稿では,任意の発話スタイルの符号化を可能にする,革新的な発話スタイルのアンタングル化手法を提案する。
また,顔の動きから話し方や内容の絡み合った表現を学習する「textbfMimic」という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-18T01:49:42Z) - Neural Text to Articulate Talk: Deep Text to Audiovisual Speech
Synthesis achieving both Auditory and Photo-realism [26.180371869137257]
会話顔生成における最先端技術は、主にリップシンキングに焦点を当て、音声クリップに条件付けされている。
NEUral Text to ARticulate Talk (NEUTART) は、音声視覚機能空間を用いた音声合成システムである。
モデルは、人間のような調音と、よく同期されたオーディオヴィジュアルストリームを備えた、フォトリアリスティックなトーキングフェイスビデオを生成する。
論文 参考訳(メタデータ) (2023-12-11T18:41:55Z) - Text-driven Talking Face Synthesis by Reprogramming Audio-driven Models [64.14812728562596]
本稿では,事前学習した音声駆動音声合成モデルをテキスト駆動で動作させる手法を提案する。
提供されたテキスト文を記述した顔ビデオを簡単に生成できる。
論文 参考訳(メタデータ) (2023-06-28T08:22:53Z) - Visual-Aware Text-to-Speech [101.89332968344102]
テキスト入力と対面コミュニケーションにおけるリスナーの視覚的フィードバックの両方で条件付き音声を合成する新しい視覚認識型音声合成(VA-TTS)タスクを提案する。
音声合成のための音素言語情報とリスナー視覚信号を融合するベースラインモデルを提案する。
論文 参考訳(メタデータ) (2023-06-21T05:11:39Z) - FaceXHuBERT: Text-less Speech-driven E(X)pressive 3D Facial Animation
Synthesis Using Self-Supervised Speech Representation Learning [0.0]
FaceXHuBERTは、テキストレス音声駆動の3D顔アニメーション生成方法である。
背景雑音に対して非常に頑丈で、様々な状況で録音された音声を処理できる。
アニメーションの写実性に関しては78%の精度で優れた結果が得られる。
論文 参考訳(メタデータ) (2023-03-09T17:05:19Z) - Pose-Controllable 3D Facial Animation Synthesis using Hierarchical
Audio-Vertex Attention [52.63080543011595]
階層型音声頂点アテンションを利用してポーズ制御可能な3次元顔アニメーション合成法を提案する。
提案手法により,よりリアルな表情と頭部姿勢運動が得られる。
論文 参考訳(メタデータ) (2023-02-24T09:36:31Z) - MeshTalk: 3D Face Animation from Speech using Cross-Modality
Disentanglement [142.9900055577252]
本研究では,顔全体の映像合成を高度に実現するための汎用的な音声駆動顔アニメーション手法を提案する。
このアプローチは、目のまばたきやまばたきなど、音声信号とは無関係な顔の一部のアニメーションを再現すると同時に、高精度な唇の動きを保証します。
論文 参考訳(メタデータ) (2021-04-16T17:05:40Z) - Write-a-speaker: Text-based Emotional and Rhythmic Talking-head
Generation [28.157431757281692]
本研究では,高忠実度表情と頭部動作を合成するテキストベーストーキングヘッドビデオ生成フレームワークを提案する。
本フレームワークは,話者に依存しないステージと話者固有のステージから構成される。
本アルゴリズムは,様々な表情や頭部の動きを含む高品質なフォトリアリスティックなトーキングヘッドビデオを実現する。
論文 参考訳(メタデータ) (2021-04-16T09:44:12Z) - Learning Speech-driven 3D Conversational Gestures from Video [106.15628979352738]
同期3D対話体と手のジェスチャーの両方を自動的に共同合成する最初のアプローチを提案します。
本アルゴリズムは,表情と手のジェスチャーの固有相関を利用したcnnアーキテクチャを用いる。
われわれはまた、33時間以上の注釈付きボディ、手、顔データからなる大きなコーパスを作成する新しい方法にも貢献する。
論文 参考訳(メタデータ) (2021-02-13T01:05:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。