論文の概要: Zero-shot text-to-speech synthesis conditioned using self-supervised
speech representation model
- arxiv url: http://arxiv.org/abs/2304.11976v1
- Date: Mon, 24 Apr 2023 10:15:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-25 15:22:06.902695
- Title: Zero-shot text-to-speech synthesis conditioned using self-supervised
speech representation model
- Title(参考訳): 自己教師型音声表現モデルを用いたゼロショット音声合成
- Authors: Kenichi Fujita, Takanori Ashihara, Hiroki Kanagawa, Takafumi Moriya,
Yusuke Ijima
- Abstract要約: 提案手法の新たなポイントは、大量のデータで訓練された音声表現から組込みベクトルを得るためにSSLモデルを直接利用することである。
この不整合埋め込みにより、未知話者の再生性能が向上し、異なる音声によるリズム伝達が実現される。
- 参考スコア(独自算出の注目度): 13.572330725278066
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a zero-shot text-to-speech (TTS) conditioned by a
self-supervised speech-representation model acquired through self-supervised
learning (SSL). Conventional methods with embedding vectors from x-vector or
global style tokens still have a gap in reproducing the speaker characteristics
of unseen speakers. A novel point of the proposed method is the direct use of
the SSL model to obtain embedding vectors from speech representations trained
with a large amount of data. We also introduce the separate conditioning of
acoustic features and a phoneme duration predictor to obtain the disentangled
embeddings between rhythm-based speaker characteristics and
acoustic-feature-based ones. The disentangled embeddings will enable us to
achieve better reproduction performance for unseen speakers and rhythm transfer
conditioned by different speeches. Objective and subjective evaluations showed
that the proposed method can synthesize speech with improved similarity and
achieve speech-rhythm transfer.
- Abstract(参考訳): 本稿では、自己教師付き学習(SSL)により得られた自己教師型音声表現モデルを用いて、ゼロショット音声合成(TTS)を提案する。
xベクトルやグローバルスタイルのトークンからベクトルを埋め込む従来の手法は、まだ目に見えない話者の話者特性を再現する際のギャップがある。
提案手法の新たなポイントは、大量のデータで訓練された音声表現から組込みベクトルを得るためにSSLモデルを直接利用することである。
また,音響特徴の分離条件と音素長予測器を導入し,リズムに基づく話者特性と音響特徴に基づく音素の組込みについて検討した。
この不整合埋め込みにより、未知話者の再生性能が向上し、異なる音声によるリズム伝達が可能となる。
目的的および主観的評価により,提案手法は類似度が向上した音声を合成し,音声リズム伝達を実現することができた。
関連論文リスト
- Speech Rhythm-Based Speaker Embeddings Extraction from Phonemes and
Phoneme Duration for Multi-Speaker Speech Synthesis [16.497022070614236]
本稿では,ターゲット話者による発話数を用いて,音素長をモデル化するための音声リズムに基づく話者埋め込み手法を提案する。
提案手法の新たな特徴は、音素とその持続時間から抽出されたリズムに基づく埋め込みであり、発声リズムに関連することが知られている。
論文 参考訳(メタデータ) (2024-02-11T02:26:43Z) - Noise-robust zero-shot text-to-speech synthesis conditioned on
self-supervised speech-representation model with adapters [47.75276947690528]
ゼロショットテキスト音声(TTS)法は,話者特性を極めて正確に再現することができる。
しかし、この手法は、参照音声が雑音を含む場合、音声合成品質の劣化に悩まされる。
本稿では,ノイズロストゼロショットTS法を提案する。
論文 参考訳(メタデータ) (2024-01-10T12:21:21Z) - SelfVC: Voice Conversion With Iterative Refinement using Self Transformations [42.97689861071184]
SelfVCは、自己合成例で音声変換モデルを改善するためのトレーニング戦略である。
本研究では,音声信号とSSL表現から韻律情報を導出する手法を開発し,合成モデルにおける予測サブモジュールの訓練を行う。
我々のフレームワークはテキストを使わずに訓練され、音声の自然性、話者の類似性、合成音声のインテリジェンス性を評価するため、ゼロショット音声変換を実現する。
論文 参考訳(メタデータ) (2023-10-14T19:51:17Z) - High-Quality Automatic Voice Over with Accurate Alignment: Supervision
through Self-Supervised Discrete Speech Units [69.06657692891447]
本稿では,自己教師付き離散音声単位予測の学習目的を活用した新しいAVO手法を提案する。
実験結果から,提案手法は有意な唇音声同期と高音質を実現することが示された。
論文 参考訳(メタデータ) (2023-06-29T15:02:22Z) - Self-supervised Fine-tuning for Improved Content Representations by
Speaker-invariant Clustering [78.2927924732142]
話者不変クラスタリング(Spin)を自己教師付き学習手法として提案する。
Spinは、単一のGPU上で45分間の微調整で、スピーカー情報を切り離し、コンテンツ表現を保存する。
論文 参考訳(メタデータ) (2023-05-18T15:59:36Z) - Controllable speech synthesis by learning discrete phoneme-level
prosodic representations [53.926969174260705]
直感的な離散ラベルを用いたF0と持続時間に対する音素レベル韻律制御のための新しい手法を提案する。
複数話者音声データセットから音素レベルF0と持続時間の特徴を識別するために用いられる教師なし韻律クラスタリングプロセスを提案する。
論文 参考訳(メタデータ) (2022-11-29T15:43:36Z) - ESSumm: Extractive Speech Summarization from Untranscribed Meeting [7.309214379395552]
本稿では,音声から音声への直接要約のための新しいアーキテクチャであるESSummを提案する。
市販の自己教師型畳み込みニューラルネットワークを利用して、生音声から深層音声の特徴を抽出する。
提案手法は,目的の要約長でキー情報をキャプチャする音声セグメントの最適シーケンスを自動的に予測する。
論文 参考訳(メタデータ) (2022-09-14T20:13:15Z) - Using multiple reference audios and style embedding constraints for
speech synthesis [68.62945852651383]
提案モデルでは,複数の参照音声を用いて音声の自然さとコンテンツ品質を向上させることができる。
モデルは、スタイル類似性のABX選好テストにおいてベースラインモデルよりも優れている。
論文 参考訳(メタデータ) (2021-10-09T04:24:29Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。