Fugu-MT 論文翻訳(概要): Face-StyleSpeech: Enhancing Zero-shot Speech Synthesis from Face Images with Improved Face-to-Speech Mapping

論文の概要: Face-StyleSpeech: Enhancing Zero-shot Speech Synthesis from Face Images with Improved Face-to-Speech Mapping

arxiv url: http://arxiv.org/abs/2311.05844v2
Date: Sat, 28 Dec 2024 12:31:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-31 22:07:02.168314
Title: Face-StyleSpeech: Enhancing Zero-shot Speech Synthesis from Face Images with Improved Face-to-Speech Mapping
Title（参考訳）: Face-StyleSpeech: 改善されたFace-to-Speechマッピングによる顔画像からのゼロショット音声合成の強化
Authors: Minki Kang, Wooseok Han, Eunho Yang,
Abstract要約: 顔画像に条件付けされた自然な音声を生成するゼロショットテキスト音声合成モデルであるFace-StyleSpeechを提案する。本研究では, 顔画像から, ベースラインよりも自然な音声を効果的に生成できることを示す。
参考スコア（独自算出の注目度）: 37.57813713418656
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Generating speech from a face image is crucial for developing virtual humans capable of interacting using their unique voices, without relying on pre-recorded human speech. In this paper, we propose Face-StyleSpeech, a zero-shot Text-To-Speech (TTS) synthesis model that generates natural speech conditioned on a face image rather than reference speech. We hypothesize that learning entire prosodic features from a face image poses a significant challenge. To address this, our TTS model incorporates both face and prosody encoders. The prosody encoder is specifically designed to model speech style characteristics that are not fully captured by the face image, allowing the face encoder to focus on extracting speaker-specific features such as timbre. Experimental results demonstrate that Face-StyleSpeech effectively generates more natural speech from a face image than baselines, even for unseen faces. Samples are available on our demo page.
Abstract（参考訳）: 顔画像から音声を生成することは、事前に録音された人間の音声に頼ることなく、独自の声で対話できる仮想人間を開発するために不可欠である。本稿では、参照音声ではなく、顔画像に条件付けされた自然な音声を生成する、ゼロショットテキスト音声合成モデルであるFace-StyleSpeechを提案する。顔画像から韻律的特徴をすべて学習することは、重要な課題である、という仮説を立てる。これを解決するために、我々のTSモデルは、顔と韻律エンコーダの両方を組み込んでいる。プロソディエンコーダは、顔画像によって完全に捉えられていない音声スタイルの特徴をモデル化するために特別に設計されており、顔エンコーダは音色などの話者固有の特徴を抽出することに集中することができる。実験結果から, 顔画像から, 目立たない顔であっても, ベースラインよりも自然な音声を効果的に生成できることが示唆された。サンプルはデモページにある。

関連論文リスト

FaceSpeak: Expressive and High-Quality Speech Synthesis from Human Portraits of Different Styles [29.185409608539747]
視覚駆動型テキスト音声(TTS)学者は、実際の顔について調査を行った。そこで我々は,多様なイメージスタイルから有能なアイデンティティ特性と感情表現を抽出する,新しいFaceSpeakアプローチを提案する。余分な情報を緩和し、結果として文字のペルソナと密接に一致した音声が合成される。
論文参考訳（メタデータ） (2025-01-02T02:00:15Z)
GaussianSpeech: Audio-Driven Gaussian Avatars [76.10163891172192]
本稿では,3次元頭部アバターの高忠実度アニメーションシーケンスを音声音声から合成する手法であるGaussianSpeechを紹介する。本稿では,表情に依存した色を生成するコンパクトで効率的な3DGSベースのアバター表現を提案する。
論文参考訳（メタデータ） (2024-11-27T18:54:08Z)
GSmoothFace: Generalized Smooth Talking Face Generation via Fine Grained 3D Face Guidance [83.43852715997596]
GSmoothFaceは、粒度の細かい3次元顔モデルによってガイドされる、2段階の一般化された話し顔生成モデルである。スピーカーのアイデンティティを保ちながらスムーズな唇の動きを合成することができる。定量的および定性的な実験は、リアリズム、唇の同期、視覚的品質の観点から、我々の方法の優位性を確認する。
論文参考訳（メタデータ） (2023-12-12T16:00:55Z)
ChatAnything: Facetime Chat with LLM-Enhanced Personas [87.76804680223003]
多様な音声・外観生成のための音声(MoV)とディフューザ(MoD)の混合を提案する。 MoVでは,テキスト音声合成(TTS)アルゴリズムを様々な事前定義された音色で活用する。近年普及しているテキスト・画像生成技術とトーキングヘッドアルゴリズムを組み合わせることで,音声オブジェクトの生成プロセスの合理化を図る。
論文参考訳（メタデータ） (2023-11-12T08:29:41Z)
Realistic Speech-to-Face Generation with Speech-Conditioned Latent Diffusion Model with Face Prior [13.198105709331617]
本稿では,SCLDMと呼ばれる音声合成遅延拡散モデルを利用した音声合成フレームワークを提案する。これは、音声対面生成のための拡散モデルの例外的モデリング機能を利用する最初の試みである。提案手法は,最先端の手法よりも話者のアイデンティティを保ちながら,よりリアルな顔画像を生成することができることを示す。
論文参考訳（メタデータ） (2023-10-05T07:44:49Z)
Speech2Lip: High-fidelity Speech to Lip Generation by Learning from a Short Video [91.92782707888618]
本稿では,音声の知覚と音声の知覚を両立させるSpeech2Lip(Speech2Lip)という分解合成フレームワークを提案する。提案手法は,数分間のビデオで学習し,視覚的品質と音声・視覚的同期の両面において最先端のパフォーマンスを達成可能であることを示す。
論文参考訳（メタデータ） (2023-09-09T14:52:39Z)
Visual-Aware Text-to-Speech [101.89332968344102]
テキスト入力と対面コミュニケーションにおけるリスナーの視覚的フィードバックの両方で条件付き音声を合成する新しい視覚認識型音声合成(VA-TTS)タスクを提案する。音声合成のための音素言語情報とリスナー視覚信号を融合するベースラインモデルを提案する。
論文参考訳（メタデータ） (2023-06-21T05:11:39Z)
Zero-shot personalized lip-to-speech synthesis with face image based voice control [41.17483247506426]
顔画像から対応する音声を予測するLip-to-Speech(Lip2Speech)合成は、様々なモデルや訓練戦略で大きく進歩している。顔画像が話者の身元を制御するゼロショットパーソナライズされたLip2Speech合成法を提案する。
論文参考訳（メタデータ） (2023-05-09T02:37:29Z)
Imaginary Voice: Face-styled Diffusion Model for Text-to-Speech [33.01930038988336]
我々は、Face-TTSと呼ばれる統合フレームワーク内に、顔スタイルの拡散テキスト音声(TTS)モデルを導入する。我々は、顔画像と生成された音声セグメント間の話者識別を保持するために、クロスモデルバイオメトリックスとTSモデルを共同で訓練する。生体情報を直接顔画像から抽出するので、未確認話者や未聴者から音声を生成するために、余分な微調整は不要である。
論文参考訳（メタデータ） (2023-02-27T11:59:28Z)
Imitator: Personalized Speech-driven 3D Facial Animation [63.57811510502906]
State-of-the-artメソッドは、ターゲットアクターの顔トポロジを変形させ、ターゲットアクターのアイデンティティ固有の話し方や顔の慣用性を考慮せずに入力オーディオを同期させる。本稿では,音声による表情合成手法であるImitatorについて述べる。提案手法は,ターゲットアクターの発話スタイルを保ちながら,入力音声から時間的コヒーレントな表情を生成する。
論文参考訳（メタデータ） (2022-12-30T19:00:02Z)
Residual-guided Personalized Speech Synthesis based on Face Image [14.690030837311376]
先行研究は、自身の音声音声からなる大規模なデータセット上でモデルをトレーニングすることで、パーソナライズされた音声特徴を導出する。本研究では,人間の顔からパーソナライズされた音声特徴を革新的に抽出し,ニューラルボコーダを用いてパーソナライズされた音声を合成する。
論文参考訳（メタデータ） (2022-04-01T15:27:14Z)
AnyoneNet: Synchronized Speech and Talking Head Generation for Arbitrary Person [21.126759304401627]
本稿では,テキストと任意の人物の顔画像を入力として,同期音声とトーキングヘッド映像を自動生成する手法を提案する。実験の結果,提案手法は任意の人や非人に対して,同期音声と音声のヘッドビデオを生成することができることがわかった。
論文参考訳（メタデータ） (2021-08-09T19:58:38Z)
Pose-Controllable Talking Face Generation by Implicitly Modularized Audio-Visual Representation [96.66010515343106]
ポーズ制御可能な発話顔を生成するためのクリーンで効果的なフレームワークを提案する。我々は1枚の写真のみを識別基準として生の顔画像を操作する。私達のモデルに極度な視野の堅牢性および話す表面前部化を含む複数の高度の機能があります。
論文参考訳（メタデータ） (2021-04-22T15:10:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。