論文の概要: Elderly-Contextual Data Augmentation via Speech Synthesis for Elderly ASR
- arxiv url: http://arxiv.org/abs/2604.24770v1
- Date: Wed, 15 Apr 2026 12:56:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 02:32:14.214467
- Title: Elderly-Contextual Data Augmentation via Speech Synthesis for Elderly ASR
- Title(参考訳): 高齢者ASRのための音声合成による高齢者文脈データ拡張
- Authors: Minsik Lee, Seoi Hong, Chongmin Lee, Sieun Choi, Jian Kim, Jua Han, Jihie Kim,
- Abstract要約: 高齢者のASR (EASR) は, 訓練データに制限があり, 高齢者の発話の音響的・言語的特徴が異なるため, 依然として困難である。
本稿では,大規模言語モデル(LLM)に基づく音声合成と音声合成を併用したデータ拡張パイプラインを提案する。
70歳以上の話者による英語および韓国語高齢者音声データセットの実験は,提案手法が常に性能を向上させることを示す。
- 参考スコア(独自算出の注目度): 5.231909048842117
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite recent progress in automatic speech recognition (ASR), elderly ASR (EASR) remains challenging due to limited training data and the distinct acoustic and linguistic characteristics of elderly speech. In this work, we address data scarcity in EASR through a data augmentation pipeline that combines large language model (LLM)-based transcript paraphrasing with text-to-speech (TTS) synthesis. Given an elderly speech dataset, the LLM first generates elderly-contextual paraphrases of the original transcripts, and the TTS model then synthesizes corresponding speech using elderly reference speakers. The resulting synthetic audio-text pairs are merged with the original data to fine-tune Whisper without architectural modification. We further analyze the effects of augmentation ratio and reference-speaker composition in low-resource EASR. Experiments on English and Korean elderly speech datasets from speakers aged 70 and above show that the proposed method consistently improves performance over conventional augmentation baselines, achieving up to a 58.2% reduction in word error rate (WER) compared with the Whisper baseline.
- Abstract(参考訳): 近年の音声認識 (ASR) の進歩にもかかわらず, 高齢者音声認識 (EASR) は訓練データに制限があり, 高齢者音声の音響的, 言語的特徴が異なるため, 依然として困難である。
本研究では,大規模言語モデル(LLM)に基づくテキスト音声合成とTTS合成を組み合わせたデータ拡張パイプラインを用いて,EASRにおけるデータ不足に対処する。
高齢者の音声データセットが与えられた後、LLMはまず原文の古文パラフレーズを生成し、TTSモデルは高齢者の参照話者を用いて対応する音声を合成する。
合成音声テキストペアは元のデータとマージされ、アーキテクチャの変更なしに微調整されたWhisperに変換される。
さらに、低リソースEASRにおける増幅比と基準スピーカ組成の影響を解析する。
70歳以上の話者による英語・韓国語音声データセットの実験から,提案手法は従来の拡張ベースラインよりも一貫して改善され,Whisperベースラインと比較して58.2%の単語誤り率(WER)が低下することがわかった。
関連論文リスト
- Improving Code-Switching Speech Recognition with TTS Data Augmentation [58.34842693152991]
本稿では,この不足に対処する効果的なデータ拡張手法として,多言語テキスト音声(TTS)モデルについて検討する。
我々は、SEAMEデータセット上の多言語CosyVoice2 TTSモデルを微調整し、中国語と英語の合成音声を生成する。
論文 参考訳(メタデータ) (2026-01-02T10:11:51Z) - An Exhaustive Evaluation of TTS- and VC-based Data Augmentation for ASR [12.197936305117407]
近年,テキスト音声変換 (TTS) や音声変換 (VC) による合成データによる自動音声認識システムの訓練データの増加が注目されている。
我々は,最近提案されたフローベースTS/VCモデルを活用し,複数のASRモデルにより達成された単語誤り率(WER)に対する様々な音声属性の増大の影響を評価する。
論文 参考訳(メタデータ) (2025-03-11T23:09:06Z) - Self-supervised ASR Models and Features For Dysarthric and Elderly Speech Recognition [71.87998918300806]
本稿では,TDNNとConformer ASRシステムにSSLプリトレーニングモデルとその機能を統合するアプローチについて検討する。
ドメイン適応型HuBERT、wav2vec2-conformer、マルチ言語型XLSRモデルを統合することで構築されたTDNNシステムは、スタンドアロンの微調整型SSL事前訓練モデルより一貫して優れている。
DementiaBank Pitt の高齢者音声認識出力を用いて,アルツハイマー病の検出精度の向上も行った。
論文 参考訳(メタデータ) (2024-07-03T08:33:39Z) - AS-70: A Mandarin stuttered speech dataset for automatic speech recognition and stuttering event detection [46.855958156126164]
AS-70は、マンダリンで公開されている最初の音声データセットである。
本稿では,マンダリン発声音声データセットAS-70について紹介する。
論文 参考訳(メタデータ) (2024-06-11T13:35:50Z) - Hyper-parameter Adaptation of Conformer ASR Systems for Elderly and
Dysarthric Speech Recognition [64.9816313630768]
ファインチューニングは、多くの非高齢および健康な音声事前訓練モデルを利用するためにしばしば用いられる。
本稿では,Librispeech corpus 上で事前学習した Conformer ASR システムのハイパーパラメータ適応について検討する。
論文 参考訳(メタデータ) (2023-06-27T07:49:35Z) - Personalized Adversarial Data Augmentation for Dysarthric and Elderly
Speech Recognition [30.885165674448352]
本稿では,高齢者および変形性音声認識のための新しい話者依存型(GAN)に基づくデータ拡張手法を提案する。
GANベースのデータ拡張アプローチは、ベースライン速度摂動法を最大0.91%、絶対値3.0%で一貫して上回っている。
LHUCベースの話者適応を適用した後、一貫性のある性能改善が維持される。
論文 参考訳(メタデータ) (2022-05-13T04:29:49Z) - On-the-Fly Feature Based Rapid Speaker Adaptation for Dysarthric and
Elderly Speech Recognition [53.17176024917725]
話者レベルのデータの共有化は、データ集約型モデルに基づく話者適応手法の実用的利用を制限する。
本稿では,2種類のデータ効率,特徴量に基づくオンザフライ話者適応手法を提案する。
論文 参考訳(メタデータ) (2022-03-28T09:12:24Z) - Data augmentation using prosody and false starts to recognize non-native
children's speech [12.911954427107977]
本稿では,AaltoASRによるInterSPEECH 2020共有音声認識タスクのための音声認識システムについて述べる。
本研究の課題は, 年齢の異なる子どもから, 限られた発話量で非母国語を識別することである。
論文 参考訳(メタデータ) (2020-08-29T05:32:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。