論文の概要: Stutter-TTS: Controlled Synthesis and Improved Recognition of Stuttered
Speech
- arxiv url: http://arxiv.org/abs/2211.09731v1
- Date: Fri, 4 Nov 2022 23:45:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-20 13:41:38.667777
- Title: Stutter-TTS: Controlled Synthesis and Improved Recognition of Stuttered
Speech
- Title(参考訳): スタッタTTS:制御された合成とスタッタ音声の認識の改善
- Authors: Xin Zhang, Iv\'an Vall\'es-P\'erez, Andreas Stolcke, Chengzhu Yu,
Jasha Droppo, Olabanji Shonibare, Roberto Barra-Chicote, Venkatesh
Ravichandran
- Abstract要約: スタタリング(英: Stuttering)とは、音声の自然な流れが、音節、単語、フレーズのブロック、反復、延長によって中断される言語障害である。
本稿では,多種多様な発声音声を合成できるエンドツーエンドのニューラルテキスト・音声モデルであるStutter-TTSについて述べる。
- 参考スコア(独自算出の注目度): 20.2646788350211
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stuttering is a speech disorder where the natural flow of speech is
interrupted by blocks, repetitions or prolongations of syllables, words and
phrases. The majority of existing automatic speech recognition (ASR) interfaces
perform poorly on utterances with stutter, mainly due to lack of matched
training data. Synthesis of speech with stutter thus presents an opportunity to
improve ASR for this type of speech. We describe Stutter-TTS, an end-to-end
neural text-to-speech model capable of synthesizing diverse types of stuttering
utterances. We develop a simple, yet effective prosody-control strategy whereby
additional tokens are introduced into source text during training to represent
specific stuttering characteristics. By choosing the position of the stutter
tokens, Stutter-TTS allows word-level control of where stuttering occurs in the
synthesized utterance. We are able to synthesize stutter events with high
accuracy (F1-scores between 0.63 and 0.84, depending on stutter type). By
fine-tuning an ASR model on synthetic stuttered speech we are able to reduce
word error by 5.7% relative on stuttered utterances, with only minor (<0.2%
relative) degradation for fluent utterances.
- Abstract(参考訳): シュターリング(stuttering)は、音声の自然な流れがブロック、繰り返し、音節、単語、句の延長によって中断される言語障害である。
既存の自動音声認識(asr)インタフェースの大多数は、おもに一致したトレーニングデータの欠如のため、スタッターとの発話に乏しい。
発声音声の合成は、このタイプの音声に対して、ASRを改善する機会を与える。
多様な発声音声を合成できるエンドツーエンドのニューラルテキスト・音声モデルであるStutter-TTSについて述べる。
本手法は,学習中に特定の発散特性を表すために,追加のトークンを原文に導入する簡易かつ効果的な韻律制御戦略を開発する。
ストッタートークンの位置を選択することで、stutter-ttsは合成された発話中にストッターが発生する場所を単語レベルで制御できる。
高精度でストッターイベントを合成できる(ストッタータイプによるf1スコアは 0.63 から 0.84 である)。
合成音声におけるasrモデルの微調整により, 流音発話における単語誤りを5.7%低減し, 最小の(<0.2%相対)分解のみが可能となった。
関連論文リスト
- Self-supervised Speech Models for Word-Level Stuttered Speech Detection [66.46810024006712]
自己教師付き音声モデルを利用した単語レベルの発声音声検出モデルを提案する。
本評価は, 単語レベルの発声検出において, 従来の手法を超越していることを示す。
論文 参考訳(メタデータ) (2024-09-16T20:18:20Z) - MMSD-Net: Towards Multi-modal Stuttering Detection [9.257985820122999]
MMSD-Netは、スタブリング検出のための最初のマルチモーダルニューラルネットワークフレームワークである。
我々のモデルでは、既存の最先端ユニモーダルアプローチよりもF1スコアが2-17%向上している。
論文 参考訳(メタデータ) (2024-07-16T08:26:59Z) - Inclusive ASR for Disfluent Speech: Cascaded Large-Scale Self-Supervised Learning with Targeted Fine-Tuning and Data Augmentation [0.0]
進歩への重要な障壁は、大きな注釈付き不適切な音声データセットの不足である。
本稿では,標準音声における自己教師型学習を応用した包括的ASR設計手法を提案する。
結果から,比較的小さなラベル付きデータセットによる微調整wav2vec 2.0とデータ拡張による単語誤り率の低減効果が示唆された。
論文 参考訳(メタデータ) (2024-06-14T16:56:40Z) - EXPRESSO: A Benchmark and Analysis of Discrete Expressive Speech
Resynthesis [49.04496602282718]
テキストなし音声合成のための高品質な表現型音声データセットであるExpressoを紹介する。
このデータセットは、26の自発的表現スタイルで描画された読み上げ音声と即興対話の両方を含む。
自己監督型離散エンコーダの自動計測値を用いて再生品質を評価する。
論文 参考訳(メタデータ) (2023-08-10T17:41:19Z) - DisfluencyFixer: A tool to enhance Language Learning through Speech To
Speech Disfluency Correction [50.51901599433536]
DisfluencyFixerは、英語とヒンディー語で音声から音声への拡散補正を行うツールである。
提案システムでは,入力音声からの拡散を除去し,出力として流速音声を返却する。
論文 参考訳(メタデータ) (2023-05-26T14:13:38Z) - NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot
Speech and Singing Synthesizers [90.83782600932567]
残差ベクトル化器を備えたニューラルオーディオ予測器を応用して量子化潜在ベクトルを得るTSシステムであるNaturalSpeech 2を開発した。
本研究では,NaturalSpeech 2を44K時間の音声・歌唱データを持つ大規模データセットに拡張し,未知話者の音声品質を評価する。
NaturalSpeech 2は、0ショット設定で、韻律/音節の類似性、合成、音声品質の点で、従来のTSシステムよりはるかに優れている。
論文 参考訳(メタデータ) (2023-04-18T16:31:59Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - Detecting Dysfluencies in Stuttering Therapy Using wav2vec 2.0 [0.22940141855172028]
英語コーパスのスタブリング分類のための微調整wav2vec 2.0は、汎用的特徴の有効性を高める。
本稿では、Fluencybankとドイツのセラピー中心のKassel State of Fluencyデータセットについて評価する。
論文 参考訳(メタデータ) (2022-04-07T13:02:12Z) - Enhancing ASR for Stuttered Speech with Limited Data Using Detect and
Pass [0.0]
全世界で約7000万人が、発声障害と呼ばれる言語障害に罹患していると推定されている。
そこで本稿では,最新のASRシステムを実現するために,"Detect and Pass"と呼ばれるシンプルだが効果的な手法を提案する。
論文 参考訳(メタデータ) (2022-02-08T19:55:23Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z) - Towards Automated Assessment of Stuttering and Stuttering Therapy [0.22940141855172028]
発声は複雑な発声障害であり、繰り返し、音、音節または単語の延長、発話中のブロックによって識別できる。
発声重大度評価の一般的な方法は、発声中の3つの最長発声症状の平均である発声音節(%SS)、最近導入された発声効率スコア(SES)などがある。
本稿では,スタブリングの重症度を評価する新しい手法である音声制御指標(SCI)を提案する。
論文 参考訳(メタデータ) (2020-06-16T14:50:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。