論文の概要: Idiosyncratic Versus Normative Modeling of Atypical Speech Recognition: Dysarthric Case Studies
- arxiv url: http://arxiv.org/abs/2509.16718v1
- Date: Sat, 20 Sep 2025 15:04:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:15.942016
- Title: Idiosyncratic Versus Normative Modeling of Atypical Speech Recognition: Dysarthric Case Studies
- Title(参考訳): 非定型音声認識におけるIdiosyncratic Versus Normative Modeling: Dysarthric Case Study
- Authors: Vishnu Raja, Adithya V Ganesan, Anand Syamkumar, Ritwik Banerjee, H Andrew Schwartz,
- Abstract要約: 慣用句の一般化と処理を両立できる戦略が,非定型音声のキャプチャに有効であることが判明した。
本研究は, 話者間での標準的(話者横断的)パターンと慣用的(話者特異的)パターンを併用し, 話者集団のASRを改善することの価値を強調した。
- 参考スコア(独自算出の注目度): 9.13398155665462
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: State-of-the-art automatic speech recognition (ASR) models like Whisper, perform poorly on atypical speech, such as that produced by individuals with dysarthria. Past works for atypical speech have mostly investigated fully personalized (or idiosyncratic) models, but modeling strategies that can both generalize and handle idiosyncracy could be more effective for capturing atypical speech. To investigate this, we compare four strategies: (a) $\textit{normative}$ models trained on typical speech (no personalization), (b) $\textit{idiosyncratic}$ models completely personalized to individuals, (c) $\textit{dysarthric-normative}$ models trained on other dysarthric speakers, and (d) $\textit{dysarthric-idiosyncratic}$ models which combine strategies by first modeling normative patterns before adapting to individual speech. In this case study, we find the dysarthric-idiosyncratic model performs better than idiosyncratic approach while requiring less than half as much personalized data (36.43 WER with 128 train size vs 36.99 with 256). Further, we found that tuning the speech encoder alone (as opposed to the LM decoder) yielded the best results reducing word error rate from 71% to 32% on average. Our findings highlight the value of leveraging both normative (cross-speaker) and idiosyncratic (speaker-specific) patterns to improve ASR for underrepresented speech populations.
- Abstract(参考訳): Whisperのような最先端の自動音声認識(ASR)モデルでは、変形性障害を持つ個人によって生成されるような非定型的な発話が不十分である。
非定型音声の過去の研究は、完全にパーソナライズされた(あるいは慣用的)モデルについて主に研究されてきたが、慣用的音声の一般化と処理の両方が可能なモデリング戦略は、非定型音声のキャプチャーにおいてより効果的である可能性がある。
これを調べるために、我々は4つの戦略を比較した。
(a) $\textit{normative}$ 典型的な音声で訓練されたモデル(パーソナライゼーションなし)
(b) $\textit{idiosyncratic}$モデル 完全に個人にパーソナライズされたモデル。
(c) $\textit{dysarthric-normative}$モデル
(d) $\textit{dysarthric-idiosyncratic}$ 個々の音声に適応する前に、まず規範パターンをモデル化することで戦略を組み合わせるモデル。
このケーススタディでは,半減なパーソナライズデータ(列車サイズ128のWERと256のWER36.99のWER36.43WER)を必要としながら,変形性イディオシノシノシノシノシノシノシノシノシノシノシノシノシノシノシノシノシノシノシノシノシノシノシノシノシノシノシノシノシノシノシノシノシノシノシノシノシノシノシノシノシノシノシノシノシノシノシノシノシノシノシノシノシノシノシノシノシノシノシノシ
さらに、(LMデコーダとは対照的に)音声エンコーダのみをチューニングすることで、単語誤り率を平均で71%から32%に下げる結果が得られた。
本研究は, 話者間での標準的(クロススピーカー)パターンと慣用的(スピーカー固有の)パターンを併用し, ASRを低発現音声群に活用することの価値を強調した。
関連論文リスト
- Adapting Foundation Speech Recognition Models to Impaired Speech: A Semantic Re-chaining Approach for Personalization of German Speech [0.562479170374811]
脳性麻痺や遺伝性障害などの症状による音声障害は、自動音声認識システムに重大な課題をもたらす。
本稿では,ASRモデルをパーソナライズする実用的で軽量なパイプラインを提案し,単語の選択を形式化し,セマンティック・コヒーレンスによる音声障害者データセットを充実させる。
提案手法は,非典型的音声パターンを持つ個人に対するコミュニケーション障壁を低減する可能性を示した。
論文 参考訳(メタデータ) (2025-06-23T15:30:50Z) - Speechworthy Instruction-tuned Language Models [71.8586707840169]
提案手法は,学習の促進と嗜好の両面において,一般的な命令調整型LLMの音声適合性の向上を図っている。
我々は,各手法が生成した応答の音声適合性向上にどのように貢献するかを示すために,語彙的,構文的,定性的な分析を共有する。
論文 参考訳(メタデータ) (2024-09-23T02:34:42Z) - Latent Phrase Matching for Dysarthric Speech [23.23672790496787]
多くの消費者音声認識システムは、音声障害者向けに調整されていない。
少量の音声を用いて学習したクエリ・バイ・サンプル・ベースのパーソナライズド・フレーズ認識システムを提案する。
フレーズの数が増えるにつれて性能は低下するが、50のユニークなフレーズで訓練された場合、一貫してASRシステムより優れる。
論文 参考訳(メタデータ) (2023-06-08T17:28:28Z) - Pre-Finetuning for Few-Shot Emotional Speech Recognition [20.894029832911617]
我々は話者適応を数発の学習問題と見なしている。
そこで本研究では,知識を数発の下流分類対象に抽出する難解な課題に対する事前学習音声モデルを提案する。
論文 参考訳(メタデータ) (2023-02-24T22:38:54Z) - Speaker Identity Preservation in Dysarthric Speech Reconstruction by
Adversarial Speaker Adaptation [59.41186714127256]
変形性音声再建(DSR)は,変形性音声の品質向上を目的としている。
話者識別に最適化された話者エンコーダ (SE) について検討した。
我々は,新しいマルチタスク学習戦略,すなわち対人話者適応(ASA)を提案する。
論文 参考訳(メタデータ) (2022-02-18T08:59:36Z) - On-Device Personalization of Automatic Speech Recognition Models for
Disordered Speech [9.698986579582236]
デバイス上でのASRパーソナライズには非常に少ない話者データを用いたアプローチを提案する。
提案手法は,発話障害のある話者100名を対象に試行し,話者ごとの発話が50人程度しか必要とせず,単語誤り率の中央値が71%向上していることを確認した。
論文 参考訳(メタデータ) (2021-06-18T17:48:08Z) - Meta-StyleSpeech : Multi-Speaker Adaptive Text-to-Speech Generation [63.561944239071615]
StyleSpeechは、高品質な音声を合成し、新しい話者に適応する新しいTSモデルである。
SALNでは、単一音声音声からでもターゲット話者のスタイルで音声を効果的に合成する。
提案手法をMeta-StyleSpeechに拡張するには,スタイルプロトタイプで訓練された2つの識別器を導入し,エピソード訓練を行う。
論文 参考訳(メタデータ) (2021-06-06T15:34:11Z) - Self-Supervised Learning for Personalized Speech Enhancement [25.05285328404576]
音声強調システムは、モデルを単一のテストタイムスピーカーに適応させることで、パフォーマンスを向上させることができる。
テスト時間ユーザーは少量のノイズのない音声データしか提供せず、従来の完全教師付き学習には不十分である。
本研究では,個人的音声記録から個人的・差別的な特徴を学習するための自己指導手法を提案する。
論文 参考訳(メタデータ) (2021-04-05T17:12:51Z) - Learning Explicit Prosody Models and Deep Speaker Embeddings for
Atypical Voice Conversion [60.808838088376675]
本稿では,明示的な韻律モデルと深層話者埋め込み学習を用いたVCシステムを提案する。
韻律補正器は音素埋め込みを取り入れ、典型的な音素持続時間とピッチ値を推定する。
変換モデルは、音素埋め込みと典型的な韻律特徴を入力として、変換された音声を生成する。
論文 参考訳(メタデータ) (2020-11-03T13:08:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。