論文の概要: FaceSpeak: Expressive and High-Quality Speech Synthesis from Human Portraits of Different Styles
- arxiv url: http://arxiv.org/abs/2501.03181v1
- Date: Thu, 02 Jan 2025 02:00:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 17:05:48.786516
- Title: FaceSpeak: Expressive and High-Quality Speech Synthesis from Human Portraits of Different Styles
- Title(参考訳): FaceSpeak: 異なるスタイルの人間のポートフォリオから表現的かつ高品質な音声合成
- Authors: Tian-Hao Zhang, Jiawei Zhang, Jun Wang, Xinyuan Qian, Xu-Cheng Yin,
- Abstract要約: 視覚駆動型テキスト音声(TTS)学者は、実際の顔について調査を行った。
そこで我々は,多様なイメージスタイルから有能なアイデンティティ特性と感情表現を抽出する,新しいFaceSpeakアプローチを提案する。
余分な情報を緩和し、結果として文字のペルソナと密接に一致した音声が合成される。
- 参考スコア(独自算出の注目度): 29.185409608539747
- License:
- Abstract: Humans can perceive speakers' characteristics (e.g., identity, gender, personality and emotion) by their appearance, which are generally aligned to their voice style. Recently, vision-driven Text-to-speech (TTS) scholars grounded their investigations on real-person faces, thereby restricting effective speech synthesis from applying to vast potential usage scenarios with diverse characters and image styles. To solve this issue, we introduce a novel FaceSpeak approach. It extracts salient identity characteristics and emotional representations from a wide variety of image styles. Meanwhile, it mitigates the extraneous information (e.g., background, clothing, and hair color, etc.), resulting in synthesized speech closely aligned with a character's persona. Furthermore, to overcome the scarcity of multi-modal TTS data, we have devised an innovative dataset, namely Expressive Multi-Modal TTS, which is diligently curated and annotated to facilitate research in this domain. The experimental results demonstrate our proposed FaceSpeak can generate portrait-aligned voice with satisfactory naturalness and quality.
- Abstract(参考訳): 人間は、外見によって話者の特徴(例えば、アイデンティティ、性別、個性、感情)を知覚することができる。
近年,視覚駆動型テキスト音声(TTS)研究者は,実人物の顔に対する調査を根拠に,多種多様な文字や画像スタイルを用いた潜在的使用シナリオへの効果的な音声合成の適用を制限している。
この問題を解決するために,新しいFaceSpeakアプローチを提案する。
多様なイメージスタイルから、健全なアイデンティティ特性と感情表現を抽出する。
一方、余分な情報(例えば、背景、衣服、髪の色など)を緩和し、文字のペルソナと密接に一致した合成音声を生成する。
さらに、マルチモーダルTSデータの不足を克服するため、この領域の研究を容易にするために、厳密にキュレートされ注釈付けされたExpressive Multi-Modal TTSという革新的なデータセットを考案した。
実験により,提案したFaceSpeakは,自然性や品質に優れたポートレート整列音声を生成できることを示した。
関連論文リスト
- MimicTalk: Mimicking a personalized and expressive 3D talking face in minutes [74.82911268630463]
トーキングフェース生成(TFG)は、ターゲットアイデンティティーの顔をアニメーション化し、リアルなトーキングビデオを作成することを目的としている。
MimicTalkは、個人別TFGの効率性と堅牢性を改善するために、NeRFベースの個人非依存のジェネリックモデルから豊富な知識を活用する。
私たちのMimicTalkは、ビデオの品質、効率、表現性に関して、これまでのベースラインを超えていることが実験によって示されています。
論文 参考訳(メタデータ) (2024-10-09T10:12:37Z) - Facial Expression-Enhanced TTS: Combining Face Representation and Emotion Intensity for Adaptive Speech [0.13654846342364302]
FEIM-TTSはゼロショット音声合成モデルである。
モデルはLSS3、CREMA-D、MELDデータセットを使用してトレーニングされ、適応性を示している。
TTSに感情的なニュアンスを組み込むことで、Webコミックのダイナミックで魅力的な聴覚体験を可能にし、視覚障害者がこれらの物語をより完全に楽しめるようにする。
論文 参考訳(メタデータ) (2024-09-24T16:01:12Z) - Visual-Aware Text-to-Speech [101.89332968344102]
テキスト入力と対面コミュニケーションにおけるリスナーの視覚的フィードバックの両方で条件付き音声を合成する新しい視覚認識型音声合成(VA-TTS)タスクを提案する。
音声合成のための音素言語情報とリスナー視覚信号を融合するベースラインモデルを提案する。
論文 参考訳(メタデータ) (2023-06-21T05:11:39Z) - Ada-TTA: Towards Adaptive High-Quality Text-to-Talking Avatar Synthesis [66.43223397997559]
入力テキストに対応する高品質な音声ポートレート映像を合成することを目的としている。
この課題は、デジタルヒューマン産業における幅広い応用の見通しを持っているが、まだ技術的には達成されていない。
本稿では,Ada-TTA(Adaptive Text-to-Talking Avatar)を提案する。
論文 参考訳(メタデータ) (2023-06-06T08:50:13Z) - Imaginary Voice: Face-styled Diffusion Model for Text-to-Speech [33.01930038988336]
我々は、Face-TTSと呼ばれる統合フレームワーク内に、顔スタイルの拡散テキスト音声(TTS)モデルを導入する。
我々は、顔画像と生成された音声セグメント間の話者識別を保持するために、クロスモデルバイオメトリックスとTSモデルを共同で訓練する。
生体情報を直接顔画像から抽出するので、未確認話者や未聴者から音声を生成するために、余分な微調整は不要である。
論文 参考訳(メタデータ) (2023-02-27T11:59:28Z) - Imitator: Personalized Speech-driven 3D Facial Animation [63.57811510502906]
State-of-the-artメソッドは、ターゲットアクターの顔トポロジを変形させ、ターゲットアクターのアイデンティティ固有の話し方や顔の慣用性を考慮せずに入力オーディオを同期させる。
本稿では,音声による表情合成手法であるImitatorについて述べる。
提案手法は,ターゲットアクターの発話スタイルを保ちながら,入力音声から時間的コヒーレントな表情を生成する。
論文 参考訳(メタデータ) (2022-12-30T19:00:02Z) - Joint Audio-Text Model for Expressive Speech-Driven 3D Facial Animation [46.8780140220063]
本稿では,表情駆動型3次元顔画像の文脈情報を取得するための共同音声テキストモデルを提案する。
我々の仮説は、音声と強く相関しない上面表現のバリエーションを曖昧にすることができるというものである。
音声と音声の同期を保ちながら現実的な表情を合成できることを示す。
論文 参考訳(メタデータ) (2021-12-04T01:37:22Z) - EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional
Text-to-Speech Model [56.75775793011719]
音声ファイルを含む9,724のサンプルとその感情ラベル付きアノテーションを含むマンダリン感情音声データセットを導入,公開する。
入力として追加の参照音声を必要とするこれらのモデルとは異なり、我々のモデルは入力テキストから直接感情ラベルを予測し、感情埋め込みに基づいてより表現力のある音声を生成することができる。
実験段階では、まず感情分類タスクによってデータセットの有効性を検証し、次に提案したデータセットに基づいてモデルをトレーニングし、一連の主観評価を行う。
論文 参考訳(メタデータ) (2021-06-17T08:34:21Z) - Few Shot Adaptive Normalization Driven Multi-Speaker Speech Synthesis [18.812696623555855]
複数発話音声合成手法 (FSM-SS) を提案する。
FSM-SSは、未確認者の入力テキストと参照音声サンプルから、その人のスタイルで数ショットで音声を生成することができる。
正規化のアフィンパラメータがエネルギーや基本周波数などの韻律的特徴を捉えるのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2020-12-14T04:37:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。