論文の概要: Write-a-speaker: Text-based Emotional and Rhythmic Talking-head
Generation
- arxiv url: http://arxiv.org/abs/2104.07995v1
- Date: Fri, 16 Apr 2021 09:44:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-19 14:21:21.658054
- Title: Write-a-speaker: Text-based Emotional and Rhythmic Talking-head
Generation
- Title(参考訳): write-a-speaker: テキストに基づく感情的・リズミカルな話し頭生成
- Authors: Lilin Cheng, Suzhe Wang, Zhimeng Zhang, Yu Ding, Yixing Zheng, Xin Yu,
Changjie Fan
- Abstract要約: 本研究では,高忠実度表情と頭部動作を合成するテキストベーストーキングヘッドビデオ生成フレームワークを提案する。
本フレームワークは,話者に依存しないステージと話者固有のステージから構成される。
本アルゴリズムは,様々な表情や頭部の動きを含む高品質なフォトリアリスティックなトーキングヘッドビデオを実現する。
- 参考スコア(独自算出の注目度): 28.157431757281692
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this paper, we propose a novel text-based talking-head video generation
framework that synthesizes high-fidelity facial expressions and head motions in
accordance with contextual sentiments as well as speech rhythm and pauses. To
be specific, our framework consists of a speaker-independent stage and a
speaker-specific stage. In the speaker-independent stage, we design three
parallel networks to generate animation parameters of the mouth, upper face,
and head from texts, separately. In the speaker-specific stage, we present a 3D
face model guided attention network to synthesize videos tailored for different
individuals. It takes the animation parameters as input and exploits an
attention mask to manipulate facial expression changes for the input
individuals. Furthermore, to better establish authentic correspondences between
visual motions (i.e., facial expression changes and head movements) and audios,
we leverage a high-accuracy motion capture dataset instead of relying on long
videos of specific individuals. After attaining the visual and audio
correspondences, we can effectively train our network in an end-to-end fashion.
Extensive experiments on qualitative and quantitative results demonstrate that
our algorithm achieves high-quality photo-realistic talking-head videos
including various facial expressions and head motions according to speech
rhythms and outperforms the state-of-the-art.
- Abstract(参考訳): 本稿では,感情や音声のリズムやポーズに応じて,高忠実な表情や頭部の動きを合成する,テキストベースの音声ヘッドビデオ生成フレームワークを提案する。
具体的には、話者に依存しないステージと話者固有のステージから構成される。
話者非依存の段階では,テキストから口,上面,頭部のアニメーションパラメータを生成する3つの並列ネットワークを個別に設計する。
話者特定段階において,異なる個人向けに調整された映像を合成するための3次元顔モデル誘導アテンションネットワークを提案する。
アニメーションパラメータを入力として、アテンションマスクを利用して入力された個人に対する表情変化を操作する。
さらに,視覚動作(表情変化や頭部の動きなど)と音声との真正な対応をよりよく確立するために,特定の人物のロングビデオに頼るのではなく,高精度なモーションキャプチャデータセットを活用する。
視覚および音声対応を達成した後、エンドツーエンドでネットワークを効果的にトレーニングすることができます。
質的および定量的な結果に対する広範囲な実験により,本アルゴリズムは音声のリズムに応じて表情や頭部の動きを含む高品質な写真リアリスティック・トーキング・ビデオを実現し,その性能に優れることを示した。
関連論文リスト
- Speech2UnifiedExpressions: Synchronous Synthesis of Co-Speech Affective Face and Body Expressions from Affordable Inputs [67.27840327499625]
本稿では,デジタル文字の表情と上半身ジェスチャーを同時に合成するマルチモーダル学習手法を提案する。
提案手法は, 映像データから直接推定される, まばらな顔のランドマークと上体関節から学習し, もっともらしい感情的性格運動を生成する。
論文 参考訳(メタデータ) (2024-06-26T04:53:11Z) - AVI-Talking: Learning Audio-Visual Instructions for Expressive 3D
Talking Face Generation [28.71632683090641]
本稿では,表情生成のための音声・視覚指導システムを提案する。
人間の音声から直接顔の動きを学習する代わりに、私たちの2段階の戦略はLLMが最初に音声情報を解釈することを含む。
この2段階のプロセスは、LLMの組み込みと組み合わせて、モデルの解釈可能性を高め、ユーザーに命令を理解する柔軟性を提供する。
論文 参考訳(メタデータ) (2024-02-25T15:51:05Z) - Neural Text to Articulate Talk: Deep Text to Audiovisual Speech
Synthesis achieving both Auditory and Photo-realism [26.180371869137257]
会話顔生成における最先端技術は、主にリップシンキングに焦点を当て、音声クリップに条件付けされている。
NEUral Text to ARticulate Talk (NEUTART) は、音声視覚機能空間を用いた音声合成システムである。
モデルは、人間のような調音と、よく同期されたオーディオヴィジュアルストリームを備えた、フォトリアリスティックなトーキングフェイスビデオを生成する。
論文 参考訳(メタデータ) (2023-12-11T18:41:55Z) - Personalized Speech-driven Expressive 3D Facial Animation Synthesis with
Style Control [1.8540152959438578]
現実的な顔アニメーションシステムは、自然性や妥当性の高次化を実現するために、アイデンティティ固有の話し方や顔の慣用性を考慮すべきである。
音声駆動型表情表現3次元顔画像合成フレームワークを提案する(スタイルと呼ばれる)。
我々のフレームワークはエンドツーエンドで訓練されており、3つの主要コンポーネントを持つ非自己回帰エンコーダデコーダアーキテクチャを備えている。
論文 参考訳(メタデータ) (2023-10-25T21:22:28Z) - Visual-Aware Text-to-Speech [101.89332968344102]
テキスト入力と対面コミュニケーションにおけるリスナーの視覚的フィードバックの両方で条件付き音声を合成する新しい視覚認識型音声合成(VA-TTS)タスクを提案する。
音声合成のための音素言語情報とリスナー視覚信号を融合するベースラインモデルを提案する。
論文 参考訳(メタデータ) (2023-06-21T05:11:39Z) - Imitator: Personalized Speech-driven 3D Facial Animation [63.57811510502906]
State-of-the-artメソッドは、ターゲットアクターの顔トポロジを変形させ、ターゲットアクターのアイデンティティ固有の話し方や顔の慣用性を考慮せずに入力オーディオを同期させる。
本稿では,音声による表情合成手法であるImitatorについて述べる。
提案手法は,ターゲットアクターの発話スタイルを保ちながら,入力音声から時間的コヒーレントな表情を生成する。
論文 参考訳(メタデータ) (2022-12-30T19:00:02Z) - Learning to Dub Movies via Hierarchical Prosody Models [167.6465354313349]
テキスト、ビデオクリップ、レファレンスオーディオが与えられたとき、映画ダビング(Visual Voice clone V2C)タスクは、所望の話者音声を参照としてビデオに提示された話者の感情にマッチした音声を生成することを目的としている。
本稿では,これらの問題に階層的韻律モデルを用いて対処する新しい映画ダビングアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-12-08T03:29:04Z) - Joint Audio-Text Model for Expressive Speech-Driven 3D Facial Animation [46.8780140220063]
本稿では,表情駆動型3次元顔画像の文脈情報を取得するための共同音声テキストモデルを提案する。
我々の仮説は、音声と強く相関しない上面表現のバリエーションを曖昧にすることができるというものである。
音声と音声の同期を保ちながら現実的な表情を合成できることを示す。
論文 参考訳(メタデータ) (2021-12-04T01:37:22Z) - MakeItTalk: Speaker-Aware Talking-Head Animation [49.77977246535329]
本稿では,音声を入力として1つの顔画像から表現力のある音声音声を生成する手法を提案する。
この中間表現に基づいて,本手法は全音声頭部の映像を全動作域で合成することができる。
論文 参考訳(メタデータ) (2020-04-27T17:56:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。