論文の概要: Residual-guided Personalized Speech Synthesis based on Face Image
- arxiv url: http://arxiv.org/abs/2204.01672v1
- Date: Fri, 1 Apr 2022 15:27:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-08 06:39:38.512225
- Title: Residual-guided Personalized Speech Synthesis based on Face Image
- Title(参考訳): 顔画像に基づく残差誘導型パーソナライズ音声合成
- Authors: Jianrong Wang, Zixuan Wang, Xiaosheng Hu, Xuewei Li, Qiang Fang, Li
Liu
- Abstract要約: 先行研究は、自身の音声音声からなる大規模なデータセット上でモデルをトレーニングすることで、パーソナライズされた音声特徴を導出する。
本研究では,人間の顔からパーソナライズされた音声特徴を革新的に抽出し,ニューラルボコーダを用いてパーソナライズされた音声を合成する。
- 参考スコア(独自算出の注目度): 14.690030837311376
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Previous works derive personalized speech features by training the model on a
large dataset composed of his/her audio sounds. It was reported that face
information has a strong link with the speech sound. Thus in this work, we
innovatively extract personalized speech features from human faces to
synthesize personalized speech using neural vocoder. A Face-based Residual
Personalized Speech Synthesis Model (FR-PSS) containing a speech encoder, a
speech synthesizer and a face encoder is designed for PSS. In this model, by
designing two speech priors, a residual-guided strategy is introduced to guide
the face feature to approach the true speech feature in the training. Moreover,
considering the error of feature's absolute values and their directional bias,
we formulate a novel tri-item loss function for face encoder. Experimental
results show that the speech synthesized by our model is comparable to the
personalized speech synthesized by training a large amount of audio data in
previous works.
- Abstract(参考訳): 以前の作品は、自身の音声からなる大きなデータセット上でモデルをトレーニングすることで、パーソナライズされた音声特徴を導出している。
顔情報と音声が強く関連していることが報告された。
そこで本研究では,ニューラルボコーダを用いて,人間の顔からパーソナライズされた音声特徴を抽出し,パーソナライズされた音声を合成する。
PSS用に、音声エンコーダ、音声シンセサイザ、顔エンコーダを含む顔ベース残留個人化音声合成モデル(FR-PSS)を設計する。
本モデルでは,2つの音声先行設計を行うことにより,学習中の真の音声特徴に近づく顔特徴を導くための残差誘導戦略を導入する。
さらに,特徴の絶対値の誤差と方向バイアスを考慮し,顔エンコーダのための新しい三項目損失関数を定式化する。
実験の結果,本モデルが合成した音声は,先行研究における大量の音声データを訓練して合成したパーソナライズされた音声に匹敵することがわかった。
関連論文リスト
- Speech2UnifiedExpressions: Synchronous Synthesis of Co-Speech Affective Face and Body Expressions from Affordable Inputs [67.27840327499625]
本稿では,デジタル文字の表情と上半身ジェスチャーを同時に合成するマルチモーダル学習手法を提案する。
提案手法は, 映像データから直接推定される, まばらな顔のランドマークと上体関節から学習し, もっともらしい感情的性格運動を生成する。
論文 参考訳(メタデータ) (2024-06-26T04:53:11Z) - GSmoothFace: Generalized Smooth Talking Face Generation via Fine Grained
3D Face Guidance [83.43852715997596]
GSmoothFaceは、粒度の細かい3次元顔モデルによってガイドされる、2段階の一般化された話し顔生成モデルである。
スピーカーのアイデンティティを保ちながらスムーズな唇の動きを合成することができる。
定量的および定性的な実験は、リアリズム、唇の同期、視覚的品質の観点から、我々の方法の優位性を確認する。
論文 参考訳(メタデータ) (2023-12-12T16:00:55Z) - Face-StyleSpeech: Improved Face-to-Voice latent mapping for Natural
Zero-shot Speech Synthesis from a Face Image [42.23406025068276]
顔画像に条件付けされた自然な音声を生成するゼロショットテキスト音声合成モデルであるFace-StyleSpeechを提案する。
実験の結果,Face-StyleSpeechはベースラインよりも自然な音声を生成することがわかった。
論文 参考訳(メタデータ) (2023-09-25T13:46:00Z) - Speech2Lip: High-fidelity Speech to Lip Generation by Learning from a
Short Video [91.92782707888618]
本稿では,音声の知覚と音声の知覚を両立させるSpeech2Lip(Speech2Lip)という分解合成フレームワークを提案する。
提案手法は,数分間のビデオで学習し,視覚的品質と音声・視覚的同期の両面において最先端のパフォーマンスを達成可能であることを示す。
論文 参考訳(メタデータ) (2023-09-09T14:52:39Z) - Text-driven Talking Face Synthesis by Reprogramming Audio-driven Models [64.14812728562596]
本稿では,事前学習した音声駆動音声合成モデルをテキスト駆動で動作させる手法を提案する。
提供されたテキスト文を記述した顔ビデオを簡単に生成できる。
論文 参考訳(メタデータ) (2023-06-28T08:22:53Z) - Zero-shot personalized lip-to-speech synthesis with face image based
voice control [41.17483247506426]
顔画像から対応する音声を予測するLip-to-Speech(Lip2Speech)合成は、様々なモデルや訓練戦略で大きく進歩している。
顔画像が話者の身元を制御するゼロショットパーソナライズされたLip2Speech合成法を提案する。
論文 参考訳(メタデータ) (2023-05-09T02:37:29Z) - VisageSynTalk: Unseen Speaker Video-to-Speech Synthesis via
Speech-Visage Feature Selection [32.65865343643458]
近年の研究では、サイレント・トーキング・フェイス・ビデオから音声を合成する際の印象的な性能が示されている。
本稿では、音声コンテンツと話者識別を、入力ビデオの視覚的特徴から分離する音声視覚選択モジュールを提案する。
提案する枠組みは、未確認被写体の無声音声映像が付与された場合でも、適切な内容を含む音声を合成する利点をもたらす。
論文 参考訳(メタデータ) (2022-06-15T11:29:58Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - AnyoneNet: Synchronized Speech and Talking Head Generation for Arbitrary
Person [21.126759304401627]
本稿では,テキストと任意の人物の顔画像を入力として,同期音声とトーキングヘッド映像を自動生成する手法を提案する。
実験の結果,提案手法は任意の人や非人に対して,同期音声と音声のヘッドビデオを生成することができることがわかった。
論文 参考訳(メタデータ) (2021-08-09T19:58:38Z) - End-to-End Video-To-Speech Synthesis using Generative Adversarial
Networks [54.43697805589634]
GAN(Generative Adversarial Networks)に基づくエンドツーエンドビデオ音声合成モデルを提案する。
本モデルは,生映像を入力として受信し,音声を生成するエンコーダ・デコーダアーキテクチャで構成されている。
このモデルは,グリッドなどの制約付きデータセットに対して,顕著なリアリズムで音声を再構成できることを示す。
論文 参考訳(メタデータ) (2021-04-27T17:12:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。