論文の概要: Face-StyleSpeech: Improved Face-to-Voice latent mapping for Natural
Zero-shot Speech Synthesis from a Face Image
- arxiv url: http://arxiv.org/abs/2311.05844v1
- Date: Mon, 25 Sep 2023 13:46:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 16:18:47.358690
- Title: Face-StyleSpeech: Improved Face-to-Voice latent mapping for Natural
Zero-shot Speech Synthesis from a Face Image
- Title(参考訳): Face-StyleSpeech:自然ゼロショット音声合成のためのFace-to-Voice潜時マッピングの改良
- Authors: Minki Kang, Wooseok Han, Eunho Yang
- Abstract要約: 顔画像に条件付けされた自然な音声を生成するゼロショットテキスト音声合成モデルであるFace-StyleSpeechを提案する。
実験の結果,Face-StyleSpeechはベースラインよりも自然な音声を生成することがわかった。
- 参考スコア(独自算出の注目度): 42.23406025068276
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating a voice from a face image is crucial for developing virtual humans
capable of interacting using their unique voices, without relying on
pre-recorded human speech. In this paper, we propose Face-StyleSpeech, a
zero-shot Text-To-Speech (TTS) synthesis model that generates natural speech
conditioned on a face image rather than reference speech. We hypothesize that
learning both speaker identity and prosody from a face image poses a
significant challenge. To address the issue, our TTS model incorporates both a
face encoder and a prosody encoder. The prosody encoder is specifically
designed to model prosodic features that are not captured only with a face
image, allowing the face encoder to focus solely on capturing the speaker
identity from the face image. Experimental results demonstrate that
Face-StyleSpeech effectively generates more natural speech from a face image
than baselines, even for the face images the model has not trained. Samples are
at our demo page https://face-stylespeech.github.io.
- Abstract(参考訳): 顔画像から音声を生成することは、予め録音された人間の音声に頼ることなく、独自の声を使って対話できる仮想人間を開発する上で重要である。
本稿では,参照音声ではなく顔画像に基づく自然音声を生成する,ゼロショットテキストから音声への合成モデルであるface-stylespeechを提案する。
我々は、顔画像から話者のアイデンティティと韻律の両方を学ぶことが大きな課題となると仮定する。
この問題に対処するため、ttsモデルはフェイスエンコーダとプロソディエンコーダの両方を組み込んでいます。
プロソディエンコーダは、顔画像でのみキャプチャされない韻律的特徴をモデル化するように設計されており、顔画像から話者のアイデンティティをキャプチャすることのみに集中することができる。
実験結果から,モデルが訓練していない顔画像であっても,顔画像からより自然な音声を効果的に生成できることが確認された。
サンプルはデモページ https://face-stylespeech.github.io.com にある。
関連論文リスト
- GSmoothFace: Generalized Smooth Talking Face Generation via Fine Grained
3D Face Guidance [83.43852715997596]
GSmoothFaceは、粒度の細かい3次元顔モデルによってガイドされる、2段階の一般化された話し顔生成モデルである。
スピーカーのアイデンティティを保ちながらスムーズな唇の動きを合成することができる。
定量的および定性的な実験は、リアリズム、唇の同期、視覚的品質の観点から、我々の方法の優位性を確認する。
論文 参考訳(メタデータ) (2023-12-12T16:00:55Z) - ChatAnything: Facetime Chat with LLM-Enhanced Personas [87.76804680223003]
多様な音声・外観生成のための音声(MoV)とディフューザ(MoD)の混合を提案する。
MoVでは,テキスト音声合成(TTS)アルゴリズムを様々な事前定義された音色で活用する。
近年普及しているテキスト・画像生成技術とトーキングヘッドアルゴリズムを組み合わせることで,音声オブジェクトの生成プロセスの合理化を図る。
論文 参考訳(メタデータ) (2023-11-12T08:29:41Z) - Realistic Speech-to-Face Generation with Speech-Conditioned Latent
Diffusion Model with Face Prior [13.198105709331617]
本稿では,SCLDMと呼ばれる音声合成遅延拡散モデルを利用した音声合成フレームワークを提案する。
これは、音声対面生成のための拡散モデルの例外的モデリング機能を利用する最初の試みである。
提案手法は,最先端の手法よりも話者のアイデンティティを保ちながら,よりリアルな顔画像を生成することができることを示す。
論文 参考訳(メタデータ) (2023-10-05T07:44:49Z) - Speech2Lip: High-fidelity Speech to Lip Generation by Learning from a
Short Video [91.92782707888618]
本稿では,音声の知覚と音声の知覚を両立させるSpeech2Lip(Speech2Lip)という分解合成フレームワークを提案する。
提案手法は,数分間のビデオで学習し,視覚的品質と音声・視覚的同期の両面において最先端のパフォーマンスを達成可能であることを示す。
論文 参考訳(メタデータ) (2023-09-09T14:52:39Z) - Zero-shot personalized lip-to-speech synthesis with face image based
voice control [41.17483247506426]
顔画像から対応する音声を予測するLip-to-Speech(Lip2Speech)合成は、様々なモデルや訓練戦略で大きく進歩している。
顔画像が話者の身元を制御するゼロショットパーソナライズされたLip2Speech合成法を提案する。
論文 参考訳(メタデータ) (2023-05-09T02:37:29Z) - Imaginary Voice: Face-styled Diffusion Model for Text-to-Speech [33.01930038988336]
我々は、Face-TTSと呼ばれる統合フレームワーク内に、顔スタイルの拡散テキスト音声(TTS)モデルを導入する。
我々は、顔画像と生成された音声セグメント間の話者識別を保持するために、クロスモデルバイオメトリックスとTSモデルを共同で訓練する。
生体情報を直接顔画像から抽出するので、未確認話者や未聴者から音声を生成するために、余分な微調整は不要である。
論文 参考訳(メタデータ) (2023-02-27T11:59:28Z) - Imitator: Personalized Speech-driven 3D Facial Animation [63.57811510502906]
State-of-the-artメソッドは、ターゲットアクターの顔トポロジを変形させ、ターゲットアクターのアイデンティティ固有の話し方や顔の慣用性を考慮せずに入力オーディオを同期させる。
本稿では,音声による表情合成手法であるImitatorについて述べる。
提案手法は,ターゲットアクターの発話スタイルを保ちながら,入力音声から時間的コヒーレントな表情を生成する。
論文 参考訳(メタデータ) (2022-12-30T19:00:02Z) - Residual-guided Personalized Speech Synthesis based on Face Image [14.690030837311376]
先行研究は、自身の音声音声からなる大規模なデータセット上でモデルをトレーニングすることで、パーソナライズされた音声特徴を導出する。
本研究では,人間の顔からパーソナライズされた音声特徴を革新的に抽出し,ニューラルボコーダを用いてパーソナライズされた音声を合成する。
論文 参考訳(メタデータ) (2022-04-01T15:27:14Z) - AnyoneNet: Synchronized Speech and Talking Head Generation for Arbitrary
Person [21.126759304401627]
本稿では,テキストと任意の人物の顔画像を入力として,同期音声とトーキングヘッド映像を自動生成する手法を提案する。
実験の結果,提案手法は任意の人や非人に対して,同期音声と音声のヘッドビデオを生成することができることがわかった。
論文 参考訳(メタデータ) (2021-08-09T19:58:38Z) - Pose-Controllable Talking Face Generation by Implicitly Modularized
Audio-Visual Representation [96.66010515343106]
ポーズ制御可能な発話顔を生成するためのクリーンで効果的なフレームワークを提案する。
我々は1枚の写真のみを識別基準として生の顔画像を操作する。
私達のモデルに極度な視野の堅牢性および話す表面前部化を含む複数の高度の機能があります。
論文 参考訳(メタデータ) (2021-04-22T15:10:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。