論文の概要: From Speaker Verification to Multispeaker Speech Synthesis, Deep
Transfer with Feedback Constraint
- arxiv url: http://arxiv.org/abs/2005.04587v3
- Date: Tue, 4 Aug 2020 13:55:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-05 02:18:37.568769
- Title: From Speaker Verification to Multispeaker Speech Synthesis, Deep
Transfer with Feedback Constraint
- Title(参考訳): 話者検証からマルチスピーカ音声合成へ, フィードバック制約による深層伝達
- Authors: Zexin Cai, Chuxiong Zhang, Ming Li
- Abstract要約: 本稿では,マルチスピーカ音声合成のためのフィードバック制約を含むシステムを提案する。
我々は,話者検証ネットワークに係わることにより,話者検証から音声合成への知識伝達の促進に成功している。
モデルはトレーニングされ、公開されているデータセットで評価される。
- 参考スコア(独自算出の注目度): 11.982748481062542
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High-fidelity speech can be synthesized by end-to-end text-to-speech models
in recent years. However, accessing and controlling speech attributes such as
speaker identity, prosody, and emotion in a text-to-speech system remains a
challenge. This paper presents a system involving feedback constraint for
multispeaker speech synthesis. We manage to enhance the knowledge transfer from
the speaker verification to the speech synthesis by engaging the speaker
verification network. The constraint is taken by an added loss related to the
speaker identity, which is centralized to improve the speaker similarity
between the synthesized speech and its natural reference audio. The model is
trained and evaluated on publicly available datasets. Experimental results,
including visualization on speaker embedding space, show significant
improvement in terms of speaker identity cloning in the spectrogram level.
Synthesized samples are available online for listening.
(https://caizexin.github.io/mlspk-syn-samples/index.html)
- Abstract(参考訳): 近年,高忠実度音声はエンドツーエンドの音声合成モデルによって合成されている。
しかし,テキスト対音声システムでは,話者のアイデンティティや韻律,感情といった音声属性へのアクセスや制御が課題となっている。
本稿では,マルチスピーカ音声合成のためのフィードバック制約を含むシステムを提案する。
我々は,話者検証ネットワークに係わることにより,話者検証から音声合成への知識伝達を強化することができた。
この制約は、合成された音声と自然な参照音声との話者類似性を改善するために集中した話者アイデンティティに関連する追加の損失によって取られる。
モデルはトレーニングされ、公開されているデータセットで評価される。
話者埋め込み空間の可視化を含む実験結果は, スペクトルレベルの話者同一性クローニングにおいて顕著に改善された。
合成サンプルはオンラインで聴くことができる。
(https://caizexin.github.io/mlspk-syn-samples/index.html)
関連論文リスト
- DART: Disentanglement of Accent and Speaker Representation in Multispeaker Text-to-Speech [14.323313455208183]
マルチレベル変分オートエンコーダ(ML-VAE)とベクトル量子化(VQ)を用いたアンサングル話者とアクセント表現の新しい手法を提案する。
提案手法は、話者とアクセントの特徴を効果的に分離する難しさに対処し、合成音声のよりきめ細かい制御を可能にする。
論文 参考訳(メタデータ) (2024-10-17T08:51:46Z) - Automatic Voice Identification after Speech Resynthesis using PPG [13.041006302302808]
音声の再合成は、入力として別の音声で音声を合成したいという一般的なタスクである。
本稿では, PPGに基づく音声合成システムを提案する。
知覚的評価は、それが正しい音質を生み出すことを評価する。
論文 参考訳(メタデータ) (2024-08-05T13:59:40Z) - EXPRESSO: A Benchmark and Analysis of Discrete Expressive Speech
Resynthesis [49.04496602282718]
テキストなし音声合成のための高品質な表現型音声データセットであるExpressoを紹介する。
このデータセットは、26の自発的表現スタイルで描画された読み上げ音声と即興対話の両方を含む。
自己監督型離散エンコーダの自動計測値を用いて再生品質を評価する。
論文 参考訳(メタデータ) (2023-08-10T17:41:19Z) - Visual-Aware Text-to-Speech [101.89332968344102]
テキスト入力と対面コミュニケーションにおけるリスナーの視覚的フィードバックの両方で条件付き音声を合成する新しい視覚認識型音声合成(VA-TTS)タスクを提案する。
音声合成のための音素言語情報とリスナー視覚信号を融合するベースラインモデルを提案する。
論文 参考訳(メタデータ) (2023-06-21T05:11:39Z) - A unified one-shot prosody and speaker conversion system with
self-supervised discrete speech units [94.64927912924087]
既存のシステムは韻律と言語内容の相関を無視し、変換された音声の自然度を低下させる。
自己教師付き離散音声単位を言語表現として活用するカスケードモジュラーシステムを提案する。
実験により,本システムは,自然性,知性,話者伝達性,韻律伝達性において,従来の手法よりも優れていたことがわかった。
論文 参考訳(メタデータ) (2022-11-12T00:54:09Z) - Combining Automatic Speaker Verification and Prosody Analysis for
Synthetic Speech Detection [15.884911752869437]
本稿では,人間の声の2つの高レベルな意味的特性を組み合わせた合成音声検出手法を提案する。
一方, 話者識別手法に着目し, 自動話者検証タスクの最先端手法を用いて抽出した話者埋め込みとして表現する。
一方、リズム、ピッチ、アクセントの変化を意図した音声韻律は、特殊なエンコーダによって抽出される。
論文 参考訳(メタデータ) (2022-10-31T11:03:03Z) - AdaSpeech 4: Adaptive Text to Speech in Zero-Shot Scenarios [143.47967241972995]
高品質音声合成のためのゼロショット適応型TSシステムであるAdaSpeech 4を開発した。
話者特性を体系的にモデル化し、新しい話者の一般化を改善する。
微調整なしでは、AdaSpeech 4は複数のデータセットのベースラインよりも声質と類似性が向上する。
論文 参考訳(メタデータ) (2022-04-01T13:47:44Z) - Speech Resynthesis from Discrete Disentangled Self-Supervised
Representations [49.48053138928408]
音声合成作業に自己教師付き離散表現を用いることを提案する。
音声コンテンツ、韻律情報、話者識別のための低ビット表現を抽出する。
得られた表現を使用することで、ベースラインメソッドよりも優れた音声品質を提供しながら、毎秒365ビットのレートが得られる。
論文 参考訳(メタデータ) (2021-04-01T09:20:33Z) - Expressive Neural Voice Cloning [12.010555227327743]
合成音声の様々なスタイルの様々な側面をきめ細かな制御が可能な制御可能な音声クローニング法を提案する。
提案手法は,新たな話者のための音声サンプルの書き起こしと書き起こしのみを用いて,様々な音声のクローニング作業に利用できることを示す。
論文 参考訳(メタデータ) (2021-01-30T05:09:57Z) - Joint Speaker Counting, Speech Recognition, and Speaker Identification
for Overlapped Speech of Any Number of Speakers [38.3469744871394]
エンドツーエンドの話者分散音声認識モデルを提案する。
重複した音声における話者カウント、音声認識、話者識別を統一する。
論文 参考訳(メタデータ) (2020-06-19T02:05:18Z) - Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis
Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。
マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。
提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文 参考訳(メタデータ) (2020-05-16T15:47:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。