論文の概要: Fairness in Dysarthric Speech Synthesis: Understanding Intrinsic Bias in Dysarthric Speech Cloning using F5-TTS
- arxiv url: http://arxiv.org/abs/2508.05102v1
- Date: Thu, 07 Aug 2025 07:39:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 18:59:39.744186
- Title: Fairness in Dysarthric Speech Synthesis: Understanding Intrinsic Bias in Dysarthric Speech Cloning using F5-TTS
- Title(参考訳): 変形性音声合成における公正性:F5-TTSを用いた変形性音声クローニングにおける内在性バイアスの理解
- Authors: Anuprabha M, Krishna Gurugubelli, Anil Kumar Vuppala,
- Abstract要約: 外科的スピーチは、補助技術を開発する上で重要な課題である。
近年のニューラル音声合成、特にゼロショット音声クローニングは、データ拡張のための合成音声生成を促進する。
TORGOデータセットを用いた変形性関節症音声のクローニングにおける最先端F5-TTSの有効性について検討した。
- 参考スコア(独自算出の注目度): 10.019926246026928
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dysarthric speech poses significant challenges in developing assistive technologies, primarily due to the limited availability of data. Recent advances in neural speech synthesis, especially zero-shot voice cloning, facilitate synthetic speech generation for data augmentation; however, they may introduce biases towards dysarthric speech. In this paper, we investigate the effectiveness of state-of-the-art F5-TTS in cloning dysarthric speech using TORGO dataset, focusing on intelligibility, speaker similarity, and prosody preservation. We also analyze potential biases using fairness metrics like Disparate Impact and Parity Difference to assess disparities across dysarthric severity levels. Results show that F5-TTS exhibits a strong bias toward speech intelligibility over speaker and prosody preservation in dysarthric speech synthesis. Insights from this study can help integrate fairness-aware dysarthric speech synthesis, fostering the advancement of more inclusive speech technologies.
- Abstract(参考訳): 外科的音声は、主にデータの可用性が限られているため、補助技術の開発において重大な課題を提起する。
近年のニューラル音声合成、特にゼロショット音声クローニングは、データ増大のための合成音声生成を促進するが、これらは変形性音声に対するバイアスをもたらす可能性がある。
本稿では,TORGOデータセットを用いた顎関節症音声のクローニングにおける最先端F5-TTSの有効性について検討し,その信頼性,話者類似性,韻律保存に着目した。
また, 偏差やパリティ差といった公平度測定値を用いて潜在的なバイアスを分析し, 変形性重度レベルの相違を評価する。
以上の結果より,F5-TTSは発声音声合成における話者と韻律の保存に強い偏りがあることが示唆された。
本研究から得られた知見は、公平性に配慮した変形性音声合成を統合し、より包括的な音声技術の進歩を促進するのに役立つ。
関連論文リスト
- Improved Intelligibility of Dysarthric Speech using Conditional Flow Matching [0.0]
失語症(Dysarthria)は、言語機能障害の1つ。
これにより、頑健な顎関節-正則音声変換技術の開発が必要とされる。
論文 参考訳(メタデータ) (2025-06-19T08:24:17Z) - Voice Cloning for Dysarthric Speech Synthesis: Addressing Data Scarcity in Speech-Language Pathology [0.0]
本研究は, 変形性関節症患者の独特のパターンを再現した合成音声を生成するために, 音声クローニングについて検討する。
TORGOデータセットを用いて,言語病理学におけるデータ不足とプライバシー問題に対処する。
我々は,義歯の音声とコントロールスピーカーの音声を商業的プラットフォームでクローンし,性別に適合した合成音声を保証した。
論文 参考訳(メタデータ) (2025-03-03T07:44:49Z) - Accurate synthesis of Dysarthric Speech for ASR data augmentation [5.223856537504927]
Dysarthria は運動性発声障害であり、しばしば発声能力の低下を特徴とする。
本稿では,ASRトレーニングデータ拡張を目的とした新しい音声合成法を提案する。
論文 参考訳(メタデータ) (2023-08-16T15:42:24Z) - Assistive Completion of Agrammatic Aphasic Sentences: A Transfer
Learning Approach using Neurolinguistics-based Synthetic Dataset [0.8831954614241233]
下前頭回への損傷は失語症を引き起こすことがある。
患者は理解できるが、完全な文章を形成する能力は欠如している。
論文 参考訳(メタデータ) (2022-11-10T13:24:02Z) - Speaker Adaptation Using Spectro-Temporal Deep Features for Dysarthric
and Elderly Speech Recognition [48.33873602050463]
話者適応技術は、そのようなユーザのためのASRシステムのパーソナライズに重要な役割を果たしている。
変形性関節症、高齢者、および正常音声の分光時間差による動機づけ
SVD音声スペクトルを用いた新しい分光時空間ベース深層埋め込み
論文 参考訳(メタデータ) (2022-02-21T15:11:36Z) - Speaker Identity Preservation in Dysarthric Speech Reconstruction by
Adversarial Speaker Adaptation [59.41186714127256]
変形性音声再建(DSR)は,変形性音声の品質向上を目的としている。
話者識別に最適化された話者エンコーダ (SE) について検討した。
我々は,新しいマルチタスク学習戦略,すなわち対人話者適応(ASA)を提案する。
論文 参考訳(メタデータ) (2022-02-18T08:59:36Z) - Synthesizing Dysarthric Speech Using Multi-talker TTS for Dysarthric
Speech Recognition [4.637732011720613]
Dysarthria は運動性発声障害であり、しばしば発声能力の低下を特徴とする。
頑健な変形性障害に対処するためには,十分な訓練音声が必要である。
テキスト音声合成の最近の進歩は、データ拡張に合成を利用する可能性を示している。
論文 参考訳(メタデータ) (2022-01-27T15:22:09Z) - Recent Progress in the CUHK Dysarthric Speech Recognition System [66.69024814159447]
障害音声は、現在のデータ集約型ディープニューラルネットワーク(DNN)に基づく自動音声認識技術に対して、幅広い課題を提示している。
本稿では,香港の中国大学における音声認識システムの性能向上に向けた最近の研究成果について述べる。
論文 参考訳(メタデータ) (2022-01-15T13:02:40Z) - Investigation of Data Augmentation Techniques for Disordered Speech
Recognition [69.50670302435174]
本稿では,不規則音声認識のための一連のデータ拡張手法について検討する。
正常な音声と無秩序な音声の両方が増強過程に利用された。
UASpeechコーパスを用いた最終話者適応システムと、最大2.92%の絶対単語誤り率(WER)の速度摂動に基づく最良の拡張アプローチ
論文 参考訳(メタデータ) (2022-01-14T17:09:22Z) - A Preliminary Study of a Two-Stage Paradigm for Preserving Speaker
Identity in Dysarthric Voice Conversion [50.040466658605524]
変形性音声変換(DVC)における話者同一性維持のための新しいパラダイムを提案する。
変形性音声の質は統計VCによって大幅に改善される。
しかし, 変形性関節症患者の通常の発話は, ほとんど収集できないため, 過去の研究は患者の個性を取り戻すことはできなかった。
論文 参考訳(メタデータ) (2021-06-02T18:41:03Z) - Silent Speech Interfaces for Speech Restoration: A Review [59.68902463890532]
サイレント音声インタフェース (SSI) の研究は、重度音声障害の患者に対して、代替的で拡張的なコミュニケーション方法を提供することを目的としている。
SSIは、コミュニケーションを可能にするために、音声生成中に人体によって生成される非音響バイオシグナーに依存している。
現在、ほとんどのSSIは、健康なユーザーのために実験室でのみ検証されている。
論文 参考訳(メタデータ) (2020-09-04T11:05:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。