論文の概要: StutterZero and StutterFormer: End-to-End Speech Conversion for Stuttering Transcription and Correction
- arxiv url: http://arxiv.org/abs/2510.18938v2
- Date: Wed, 05 Nov 2025 00:00:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 18:19:32.147746
- Title: StutterZero and StutterFormer: End-to-End Speech Conversion for Stuttering Transcription and Correction
- Title(参考訳): StutterZero と StutterFormer: 音声の終端変換による書き起こしと訂正
- Authors: Qianheng Xu,
- Abstract要約: この研究で紹介されるStutterZeroとStutterFormerは、最初のエンドツーエンドの波形-波形モデルである。
すべてのベンチマークで、StutterZeroはWord Error Rate(WER)を24%削減し、Whisper-Mediumモデルと比較して意味的類似性(BERTScore)を31%改善した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Over 70 million people worldwide experience stuttering, yet most automatic speech systems misinterpret disfluent utterances or fail to transcribe them accurately. Existing methods for stutter correction rely on handcrafted feature extraction or multi-stage automatic speech recognition (ASR) and text-to-speech (TTS) pipelines, which separate transcription from audio reconstruction and often amplify distortions. This work introduces StutterZero and StutterFormer, the first end-to-end waveform-to-waveform models that directly convert stuttered speech into fluent speech while jointly predicting its transcription. StutterZero employs a convolutional-bidirectional LSTM encoder-decoder with attention, whereas StutterFormer integrates a dual-stream Transformer with shared acoustic-linguistic representations. Both architectures are trained on paired stuttered-fluent data synthesized from the SEP-28K and LibriStutter corpora and evaluated on unseen speakers from the FluencyBank dataset. Across all benchmarks, StutterZero had a 24% decrease in Word Error Rate (WER) and a 31% improvement in semantic similarity (BERTScore) compared to the leading Whisper-Medium model. StutterFormer achieved better results, with a 28% decrease in WER and a 34% improvement in BERTScore. The results validate the feasibility of direct end-to-end stutter-to-fluent speech conversion, offering new opportunities for inclusive human-computer interaction, speech therapy, and accessibility-oriented AI systems.
- Abstract(参考訳): 全世界で7000万人以上が、混乱を経験しているが、ほとんどの自動音声システムは、不適切な発声を誤解釈するか、正確に書き起こすことができない。
既存のスタッター補正法は、手作りの特徴抽出や多段階自動音声認識(ASR)、音声再構成から書き起こしを分離し、歪みを増幅するTTSパイプラインに依存している。
この研究はStutterZeroとStutterFormerを紹介している。これは最初のエンドツーエンドの波形-波形モデルで、その書き起こしを共同で予測しながら、破れた音声を直接流音に変換する。
StutterZeroは畳み込み双方向のLSTMエンコーダデコーダを採用しており、StutterFormerは二重ストリームトランスフォーマーと共用音響言語表現を統合している。
両方のアーキテクチャは、SEP-28KとLibriStutterのコーパスから合成され、FluencyBankデータセットから見えない話者で評価される。
すべてのベンチマークで、StutterZeroはWord Error Rate(WER)を24%削減し、Whisper-Mediumモデルと比較して意味的類似性(BERTScore)を31%改善した。
StutterFormerは、WERが28%減少し、BERTScoreが34%改善した。
その結果、直接のエンドツーエンドのスタッタ・トゥ・リーチ音声変換の実現可能性を検証するとともに、包括的コンピュータインタラクション、音声治療、アクセシビリティ指向AIシステムのための新たな機会を提供する。
関連論文リスト
- From Silent Signals to Natural Language: A Dual-Stage Transformer-LLM Approach [0.0]
本稿では,変圧器をベースとした音響モデルと,後処理のための大規模言語モデル(LLM)を組み合わせた音声認識フレームワークを提案する。
実験の結果,単語誤り率 (WER) は36%の基準で16%, 単語誤り率 (WER) は6%低下した。
論文 参考訳(メタデータ) (2025-09-02T16:13:29Z) - DMOSpeech: Direct Metric Optimization via Distilled Diffusion Model in Zero-Shot Speech Synthesis [12.310318928818546]
DMOSpeechは, 蒸留拡散に基づくTSモデルであり, 教師モデルと比較して高速な推論と優れた性能を実現する。
我々の総合的な実験は、人間の広範囲な評価によって検証され、自然性、知性、話者の類似性を大幅に向上させながら、推測時間を桁違いに減らした。
本研究は,音声合成と人間の聴覚嗜好を協調する新たな枠組みを,直接的メートル法最適化により確立する。
論文 参考訳(メタデータ) (2024-10-14T21:17:58Z) - Improving Accented Speech Recognition using Data Augmentation based on Unsupervised Text-to-Speech Synthesis [30.97784092953007]
本稿では、アクセント付き音声認識を改善するためのデータ拡張手法として、教師なし音声合成(TTS)の使用について検討する。
TTSシステムは、手書き文字起こしではなく、少量のアクセント付き音声訓練データとそれらの擬似ラベルで訓練される。
この手法により,アクセント付き音声認識のためのデータ拡張を行うために,手書きの書き起こしを伴わないアクセント付き音声データを使用することが可能である。
論文 参考訳(メタデータ) (2024-07-04T16:42:24Z) - Audio-visual End-to-end Multi-channel Speech Separation, Dereverberation
and Recognition [52.11964238935099]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
ビデオ入力は、マスクベースのMVDR音声分離、DNN-WPEまたはスペクトルマッピング(SpecM)ベースの音声残響フロントエンドで一貫して実証される。
オックスフォードLSS2データセットのシミュレーションや再生を用いて合成した重畳および残響音声データについて実験を行った。
論文 参考訳(メタデータ) (2023-07-06T10:50:46Z) - Stutter-TTS: Controlled Synthesis and Improved Recognition of Stuttered
Speech [20.2646788350211]
スタタリング(英: Stuttering)とは、音声の自然な流れが、音節、単語、フレーズのブロック、反復、延長によって中断される言語障害である。
本稿では,多種多様な発声音声を合成できるエンドツーエンドのニューラルテキスト・音声モデルであるStutter-TTSについて述べる。
論文 参考訳(メタデータ) (2022-11-04T23:45:31Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - Label-Synchronous Speech-to-Text Alignment for ASR Using Forward and
Backward Transformers [49.403414751667135]
本稿では,音声認識のための新しいラベル同期音声テキストアライメント手法を提案する。
提案手法はラベル同期テキストマッピング問題として音声からテキストへのアライメントを再定義する。
自発日本語コーパス(CSJ)を用いた実験により,提案手法が正確な発話方向のアライメントを提供することを示した。
論文 参考訳(メタデータ) (2021-04-21T03:05:12Z) - Learning Explicit Prosody Models and Deep Speaker Embeddings for
Atypical Voice Conversion [60.808838088376675]
本稿では,明示的な韻律モデルと深層話者埋め込み学習を用いたVCシステムを提案する。
韻律補正器は音素埋め込みを取り入れ、典型的な音素持続時間とピッチ値を推定する。
変換モデルは、音素埋め込みと典型的な韻律特徴を入力として、変換された音声を生成する。
論文 参考訳(メタデータ) (2020-11-03T13:08:53Z) - Continuous Speech Separation with Conformer [60.938212082732775]
分離システムでは、リカレントニューラルネットワークの代わりにトランスとコンバータを用いる。
我々は,自己注意に基づく方法でグローバルな情報を取得することが,音声分離に不可欠であると信じている。
論文 参考訳(メタデータ) (2020-08-13T09:36:05Z) - Audio-visual Multi-channel Recognition of Overlapped Speech [79.21950701506732]
本稿では,音声とマルチチャンネルの重なり合う音声認識システムについて述べる。
実験により,提案したマルチチャネルAVSRシステムは,音声のみのASRシステムを最大6.81% (26.83%) ,22.22% (56.87%) の絶対単語誤り率 (WER) で比較した。
論文 参考訳(メタデータ) (2020-05-18T10:31:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。