論文の概要: Statistical Context-Dependent Units Boundary Correction for Corpus-based
Unit-Selection Text-to-Speech
- arxiv url: http://arxiv.org/abs/2003.02837v2
- Date: Wed, 29 Apr 2020 15:52:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-26 06:49:54.612863
- Title: Statistical Context-Dependent Units Boundary Correction for Corpus-based
Unit-Selection Text-to-Speech
- Title(参考訳): コーパスに基づく単位選択音声に対する統計的文脈依存単位境界補正
- Authors: Claudio Zito, Fabio Tesser, Mauro Nicolao, Piero Cosi
- Abstract要約: 本稿では, 分割の精度を向上させるために, 単位選択テキスト音声(TTS)システムに適用するための, 話者適応のための革新的な手法を提案する。
従来の話者適応手法とは違って,言語分析手法を応用した文脈依存特性のみの利用を目標としている。
- 参考スコア(独自算出の注目度): 1.4337588659482519
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: In this study, we present an innovative technique for speaker adaptation in
order to improve the accuracy of segmentation with application to
unit-selection Text-To-Speech (TTS) systems. Unlike conventional techniques for
speaker adaptation, which attempt to improve the accuracy of the segmentation
using acoustic models that are more robust in the face of the speaker's
characteristics, we aim to use only context dependent characteristics
extrapolated with linguistic analysis techniques. In simple terms, we use the
intuitive idea that context dependent information is tightly correlated with
the related acoustic waveform. We propose a statistical model, which predicts
correcting values to reduce the systematic error produced by a state-of-the-art
Hidden Markov Model (HMM) based speech segmentation. Our approach consists of
two phases: (1) identifying context-dependent phonetic unit classes (for
instance, the class which identifies vowels as being the nucleus of
monosyllabic words); and (2) building a regression model that associates the
mean error value made by the ASR during the segmentation of a single speaker
corpus to each class. The success of the approach is evaluated by comparing the
corrected boundaries of units and the state-of-the-art HHM segmentation against
a reference alignment, which is supposed to be the optimal solution. In
conclusion, our work supplies a first analysis of a model sensitive to
speaker-dependent characteristics, robust to defective and noisy information,
and a very simple implementation which could be utilized as an alternative to
either more expensive speaker-adaptation systems or of numerous manual
correction sessions.
- Abstract(参考訳): 本研究では, 分割の精度を向上し, 単位選択テキスト音声(TTS)システムに適用するために, 話者適応のための革新的な手法を提案する。
従来の話者適応手法とは違って, 話者特性に対してより頑健な音響モデルを用いて, セグメンテーションの精度向上を図っている。
簡単な言い方をすれば、文脈依存情報は関連する音響波形と密接に相関しているという直感的な考えを用いる。
本稿では,HMMに基づく音声セグメント化により生じる系統的誤差を低減するために,補正値を予測する統計モデルを提案する。
本手法は,(1)文脈依存音素単位クラス(例えば,母音を単音節単語の核として識別するクラス)の同定,(2)単音節語コーパスのセグメンテーション中にasrが生成する平均誤差値を各クラスに関連付ける回帰モデルの構築という2つのフェーズからなる。
提案手法の成功は, 最適解と考えられる基準アライメントに対して, 補正された単位の境界と最先端HHMセグメンテーションを比較して評価する。
結論として,本研究は,話者依存特性に敏感なモデル,欠陥情報や雑音情報に頑健なモデル,より高価な話者適応システムや多数の手動修正セッションの代替として利用できる極めて単純な実装について,最初の分析を提供する。
関連論文リスト
- Listenable Maps for Zero-Shot Audio Classifiers [12.446324804274628]
我々はZero-Shotコンテキストで初めてLMAC-Z(Listenable Maps for Audio)を紹介した。
提案手法は,異なるテキストプロンプトとよく相関する有意義な説明を生成する。
論文 参考訳(メタデータ) (2024-05-27T19:25:42Z) - Learning Disentangled Speech Representations [0.412484724941528]
SynSpeechは、非絡み合った音声表現の研究を可能にするために設計された、新しい大規模合成音声データセットである。
本稿では, 線形探索と教師付きアンタングル化指標を併用して, アンタングル化表現学習手法を評価する枠組みを提案する。
SynSpeechは、さまざまな要因のベンチマークを促進し、ジェンダーや話し方のようなより単純な機能の切り離しを期待できると同時に、話者アイデンティティのような複雑な属性を分離する際の課題を強調します。
論文 参考訳(メタデータ) (2023-11-04T04:54:17Z) - Disentangling Voice and Content with Self-Supervision for Speaker
Recognition [57.446013973449645]
本稿では,音声における話者の特性と内容の変動を同時にモデル化するアンタングル化フレームワークを提案する。
実験はVoxCelebとSITWのデータセットで実施され、EERとminDCFの平均減少率は9.56%と8.24%である。
論文 参考訳(メタデータ) (2023-10-02T12:02:07Z) - Robust Acoustic and Semantic Contextual Biasing in Neural Transducers
for Speech Recognition [14.744220870243932]
そこで本稿では,文脈バイアスを改善するために,軽量な文字表現を用いて微粒な発音特徴を符号化することを提案する。
さらに、事前学習されたニューラルネットワークモデル(NLM)をベースとしたエンコーダを統合し、発話の意味的文脈を符号化する。
Librispeechデータセット上のConformer Transducerモデルを用いた実験では、異なるバイアスリストサイズに対するWERの相対的な改善が4.62%から9.26%である。
論文 参考訳(メタデータ) (2023-05-09T08:51:44Z) - Zero-shot text-to-speech synthesis conditioned using self-supervised
speech representation model [13.572330725278066]
提案手法の新たなポイントは、大量のデータで訓練された音声表現から組込みベクトルを得るためにSSLモデルを直接利用することである。
この不整合埋め込みにより、未知話者の再生性能が向上し、異なる音声によるリズム伝達が実現される。
論文 参考訳(メタデータ) (2023-04-24T10:15:58Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Discretization and Re-synthesis: an alternative method to solve the
Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。
具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。
離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文 参考訳(メタデータ) (2021-12-17T08:35:40Z) - Using multiple reference audios and style embedding constraints for
speech synthesis [68.62945852651383]
提案モデルでは,複数の参照音声を用いて音声の自然さとコンテンツ品質を向上させることができる。
モデルは、スタイル類似性のABX選好テストにおいてベースラインモデルよりも優れている。
論文 参考訳(メタデータ) (2021-10-09T04:24:29Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - Segmenting Subtitles for Correcting ASR Segmentation Errors [11.854481771567503]
低リソース言語に対するASRモデルの音響的セグメンテーションを補正するモデルを提案する。
ASRアコースティックセグメンテーションを補正するためのニューラルネットワークタギングモデルをトレーニングし、下流のパフォーマンスを改善することを示します。
論文 参考訳(メタデータ) (2021-04-16T03:04:10Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。