論文の概要: Face-StyleSpeech: Enhancing Zero-shot Speech Synthesis from Face Images with Improved Face-to-Speech Mapping
- arxiv url: http://arxiv.org/abs/2311.05844v2
- Date: Sat, 28 Dec 2024 12:31:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 16:03:29.156727
- Title: Face-StyleSpeech: Enhancing Zero-shot Speech Synthesis from Face Images with Improved Face-to-Speech Mapping
- Title(参考訳): Face-StyleSpeech: 改善されたFace-to-Speechマッピングによる顔画像からのゼロショット音声合成の強化
- Authors: Minki Kang, Wooseok Han, Eunho Yang,
- Abstract要約: 顔画像に条件付けされた自然な音声を生成するゼロショットテキスト音声合成モデルであるFace-StyleSpeechを提案する。
本研究では, 顔画像から, ベースラインよりも自然な音声を効果的に生成できることを示す。
- 参考スコア(独自算出の注目度): 37.57813713418656
- License:
- Abstract: Generating speech from a face image is crucial for developing virtual humans capable of interacting using their unique voices, without relying on pre-recorded human speech. In this paper, we propose Face-StyleSpeech, a zero-shot Text-To-Speech (TTS) synthesis model that generates natural speech conditioned on a face image rather than reference speech. We hypothesize that learning entire prosodic features from a face image poses a significant challenge. To address this, our TTS model incorporates both face and prosody encoders. The prosody encoder is specifically designed to model speech style characteristics that are not fully captured by the face image, allowing the face encoder to focus on extracting speaker-specific features such as timbre. Experimental results demonstrate that Face-StyleSpeech effectively generates more natural speech from a face image than baselines, even for unseen faces. Samples are available on our demo page.
- Abstract(参考訳): 顔画像から音声を生成することは、事前に録音された人間の音声に頼ることなく、独自の声で対話できる仮想人間を開発するために不可欠である。
本稿では、参照音声ではなく、顔画像に条件付けされた自然な音声を生成する、ゼロショットテキスト音声合成モデルであるFace-StyleSpeechを提案する。
顔画像から韻律的特徴をすべて学習することは、重要な課題である、という仮説を立てる。
これを解決するために、我々のTSモデルは、顔と韻律エンコーダの両方を組み込んでいる。
プロソディエンコーダは、顔画像によって完全に捉えられていない音声スタイルの特徴をモデル化するために特別に設計されており、顔エンコーダは音色などの話者固有の特徴を抽出することに集中することができる。
実験結果から, 顔画像から, 目立たない顔であっても, ベースラインよりも自然な音声を効果的に生成できることが示唆された。
サンプルはデモページにある。
関連論文リスト
- GSmoothFace: Generalized Smooth Talking Face Generation via Fine Grained
3D Face Guidance [83.43852715997596]
GSmoothFaceは、粒度の細かい3次元顔モデルによってガイドされる、2段階の一般化された話し顔生成モデルである。
スピーカーのアイデンティティを保ちながらスムーズな唇の動きを合成することができる。
定量的および定性的な実験は、リアリズム、唇の同期、視覚的品質の観点から、我々の方法の優位性を確認する。
論文 参考訳(メタデータ) (2023-12-12T16:00:55Z) - ChatAnything: Facetime Chat with LLM-Enhanced Personas [87.76804680223003]
多様な音声・外観生成のための音声(MoV)とディフューザ(MoD)の混合を提案する。
MoVでは,テキスト音声合成(TTS)アルゴリズムを様々な事前定義された音色で活用する。
近年普及しているテキスト・画像生成技術とトーキングヘッドアルゴリズムを組み合わせることで,音声オブジェクトの生成プロセスの合理化を図る。
論文 参考訳(メタデータ) (2023-11-12T08:29:41Z) - Realistic Speech-to-Face Generation with Speech-Conditioned Latent
Diffusion Model with Face Prior [13.198105709331617]
本稿では,SCLDMと呼ばれる音声合成遅延拡散モデルを利用した音声合成フレームワークを提案する。
これは、音声対面生成のための拡散モデルの例外的モデリング機能を利用する最初の試みである。
提案手法は,最先端の手法よりも話者のアイデンティティを保ちながら,よりリアルな顔画像を生成することができることを示す。
論文 参考訳(メタデータ) (2023-10-05T07:44:49Z) - Speech2Lip: High-fidelity Speech to Lip Generation by Learning from a
Short Video [91.92782707888618]
本稿では,音声の知覚と音声の知覚を両立させるSpeech2Lip(Speech2Lip)という分解合成フレームワークを提案する。
提案手法は,数分間のビデオで学習し,視覚的品質と音声・視覚的同期の両面において最先端のパフォーマンスを達成可能であることを示す。
論文 参考訳(メタデータ) (2023-09-09T14:52:39Z) - Zero-shot personalized lip-to-speech synthesis with face image based
voice control [41.17483247506426]
顔画像から対応する音声を予測するLip-to-Speech(Lip2Speech)合成は、様々なモデルや訓練戦略で大きく進歩している。
顔画像が話者の身元を制御するゼロショットパーソナライズされたLip2Speech合成法を提案する。
論文 参考訳(メタデータ) (2023-05-09T02:37:29Z) - Imaginary Voice: Face-styled Diffusion Model for Text-to-Speech [33.01930038988336]
我々は、Face-TTSと呼ばれる統合フレームワーク内に、顔スタイルの拡散テキスト音声(TTS)モデルを導入する。
我々は、顔画像と生成された音声セグメント間の話者識別を保持するために、クロスモデルバイオメトリックスとTSモデルを共同で訓練する。
生体情報を直接顔画像から抽出するので、未確認話者や未聴者から音声を生成するために、余分な微調整は不要である。
論文 参考訳(メタデータ) (2023-02-27T11:59:28Z) - Imitator: Personalized Speech-driven 3D Facial Animation [63.57811510502906]
State-of-the-artメソッドは、ターゲットアクターの顔トポロジを変形させ、ターゲットアクターのアイデンティティ固有の話し方や顔の慣用性を考慮せずに入力オーディオを同期させる。
本稿では,音声による表情合成手法であるImitatorについて述べる。
提案手法は,ターゲットアクターの発話スタイルを保ちながら,入力音声から時間的コヒーレントな表情を生成する。
論文 参考訳(メタデータ) (2022-12-30T19:00:02Z) - Residual-guided Personalized Speech Synthesis based on Face Image [14.690030837311376]
先行研究は、自身の音声音声からなる大規模なデータセット上でモデルをトレーニングすることで、パーソナライズされた音声特徴を導出する。
本研究では,人間の顔からパーソナライズされた音声特徴を革新的に抽出し,ニューラルボコーダを用いてパーソナライズされた音声を合成する。
論文 参考訳(メタデータ) (2022-04-01T15:27:14Z) - AnyoneNet: Synchronized Speech and Talking Head Generation for Arbitrary
Person [21.126759304401627]
本稿では,テキストと任意の人物の顔画像を入力として,同期音声とトーキングヘッド映像を自動生成する手法を提案する。
実験の結果,提案手法は任意の人や非人に対して,同期音声と音声のヘッドビデオを生成することができることがわかった。
論文 参考訳(メタデータ) (2021-08-09T19:58:38Z) - Pose-Controllable Talking Face Generation by Implicitly Modularized
Audio-Visual Representation [96.66010515343106]
ポーズ制御可能な発話顔を生成するためのクリーンで効果的なフレームワークを提案する。
我々は1枚の写真のみを識別基準として生の顔画像を操作する。
私達のモデルに極度な視野の堅牢性および話す表面前部化を含む複数の高度の機能があります。
論文 参考訳(メタデータ) (2021-04-22T15:10:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。