論文の概要: The effect of speech pathology on automatic speaker verification -- a
large-scale study
- arxiv url: http://arxiv.org/abs/2204.06450v3
- Date: Wed, 22 Nov 2023 14:10:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 19:30:05.928907
- Title: The effect of speech pathology on automatic speaker verification -- a
large-scale study
- Title(参考訳): 話者自動照合における音声病理の影響 -大規模研究-
- Authors: Soroosh Tayebi Arasteh, Tobias Weise, Maria Schuster, Elmar Noeth,
Andreas Maier, Seung Hee Yang
- Abstract要約: 病的スピーチは 健康なスピーチに比べて プライバシー侵害のリスクが高まっています
ディスフォニアの成人は再識別のリスクが高まる一方、ディスフォニアのような症状は健康な話者に匹敵する結果をもたらす。
病理型間でデータをマージすると、EERは著しく低下し、自動話者検証における病理多様性の潜在的利点が示唆された。
- 参考スコア(独自算出の注目度): 6.468412158245622
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Navigating the challenges of data-driven speech processing, one of the
primary hurdles is accessing reliable pathological speech data. While public
datasets appear to offer solutions, they come with inherent risks of potential
unintended exposure of patient health information via re-identification
attacks. Using a comprehensive real-world pathological speech corpus, with over
n=3,800 test subjects spanning various age groups and speech disorders, we
employed a deep-learning-driven automatic speaker verification (ASV) approach.
This resulted in a notable mean equal error rate (EER) of 0.89% with a standard
deviation of 0.06%, outstripping traditional benchmarks. Our comprehensive
assessments demonstrate that pathological speech overall faces heightened
privacy breach risks compared to healthy speech. Specifically, adults with
dysphonia are at heightened re-identification risks, whereas conditions like
dysarthria yield results comparable to those of healthy speakers. Crucially,
speech intelligibility does not influence the ASV system's performance metrics.
In pediatric cases, particularly those with cleft lip and palate, the recording
environment plays a decisive role in re-identification. Merging data across
pathological types led to a marked EER decrease, suggesting the potential
benefits of pathological diversity in ASV, accompanied by a logarithmic boost
in ASV effectiveness. In essence, this research sheds light on the dynamics
between pathological speech and speaker verification, emphasizing its crucial
role in safeguarding patient confidentiality in our increasingly digitized
healthcare era.
- Abstract(参考訳): データ駆動型音声処理の課題をナビゲートする主なハードルの一つは、信頼できる病的音声データにアクセスすることである。
公開データセットは解決策を提供するように見えるが、それらは患者の健康情報の意図しない暴露の可能性を秘めている。
様々な年齢層と言語障害にまたがるn=3,800以上の被験者を対象とする包括的実世界の病的音声コーパスを用いて,深層学習駆動型自動話者検証(ASV)アプローチを採用した。
その結果、平均等誤差率 (eer) は0.89%、標準偏差は0.06%となり、従来のベンチマークを上回った。
総合的な評価から,病的発話の全体像は,健全な発話と比較してプライバシー侵害リスクが高まることが示された。
特に、ディスフォニアの成人は再識別のリスクが高まる一方、障害のような症状は健康な話者に匹敵する結果をもたらす。
重要なことは、音声の知性はASVシステムの性能指標に影響を与えない。
小児の場合、特に口唇口蓋裂の場合、記録環境は再同定において決定的な役割を果たす。
病理型間でデータをマージするとEERは著しく低下し、ASVの病態多様性の潜在的な利点が示唆され、ASVの有効性が対数的に向上した。
本研究は,病的スピーチと話者検証のダイナミックスに光を当て,デジタル化が進む医療時代における患者の秘密を守る上で,その重要な役割を強調した。
関連論文リスト
- Differential privacy for protecting patient data in speech disorder detection using deep learning [11.01272267983849]
本研究は,ディファレンシャルプライバシ(DP)が病的音声データに与える影響を初めて調べたものである。
プライバシー予算7.51のDPを用いたトレーニングでは,最大精度が3.85%低下した。
本研究は,スペイン語を話すパーキンソン病患者の小さなデータセットに対するアプローチを一般化するために検証した。
論文 参考訳(メタデータ) (2024-09-27T18:25:54Z) - Developing vocal system impaired patient-aimed voice quality assessment approach using ASR representation-included multiple features [0.4681310436826459]
本稿では,音声認識と自己教師型学習表現の利用について紹介する。
実験ではPVQDデータセットのチェックを行い、英語における様々な声道系の損傷の原因をカバーし、パーキンソン病の患者に焦点を当てた日本語データセットを作成した。
PVQDの結果, PCCでは0.8, MSEでは0.5と顕著な相関がみられた。
論文 参考訳(メタデータ) (2024-08-22T10:22:53Z) - Exploring Speech Pattern Disorders in Autism using Machine Learning [12.469348589699766]
本研究は, 被験者と患者との対話の分析を通じて, 独特の音声パターンを識別するための包括的アプローチを提案する。
我々は,40の音声関連特徴を抽出し,周波数,ゼロクロス速度,エネルギー,スペクトル特性,メル周波数ケプストラル係数(MFCC),バランスに分類した。
分類モデルはASDと非ASDを区別することを目的としており、精度は87.75%である。
論文 参考訳(メタデータ) (2024-05-03T02:59:15Z) - Automatically measuring speech fluency in people with aphasia: first
achievements using read-speech data [55.84746218227712]
本研究の目的は,言語習得の分野で開発された信号処理algorithmの関連性を評価することである。
論文 参考訳(メタデータ) (2023-08-09T07:51:40Z) - Hyper-parameter Adaptation of Conformer ASR Systems for Elderly and
Dysarthric Speech Recognition [64.9816313630768]
ファインチューニングは、多くの非高齢および健康な音声事前訓練モデルを利用するためにしばしば用いられる。
本稿では,Librispeech corpus 上で事前学習した Conformer ASR システムのハイパーパラメータ適応について検討する。
論文 参考訳(メタデータ) (2023-06-27T07:49:35Z) - Factors Affecting the Performance of Automated Speaker Verification in
Alzheimer's Disease Clinical Trials [4.0388304511445146]
自動話者検証(ASV)モデルは、登録された個人の同一性を検証し、臨床試験で重複を除去するために重要である。
本研究は,声質特性により,一部のサブグループで異なるASV特性を示すため,音声バイオメトリックスが公平さの懸念を生じさせることを示した。
論文 参考訳(メタデータ) (2023-06-20T12:24:46Z) - The Far Side of Failure: Investigating the Impact of Speech Recognition
Errors on Subsequent Dementia Classification [8.032686410648274]
自然発話で検出される言語異常は、認知障害などの認知障害のスクリーニングなど、様々な臨床応用の可能性を示唆している。
自己教師付き学習(SSL)自動音声認識(ASR)モデルにおいて,臨床環境から抽出した難解な音声サンプルでは,有意な性能が得られない。
我々の重要な発見の1つは、パラドックス的に、比較的高いエラー率を持つASRシステムは、動詞の文字起こしに基づく分類よりも、より下流の分類精度の高い転写文を生成できるということである。
論文 参考訳(メタデータ) (2022-11-11T17:06:45Z) - Exploiting Cross-domain And Cross-Lingual Ultrasound Tongue Imaging
Features For Elderly And Dysarthric Speech Recognition [55.25565305101314]
調音機能は音響信号歪みに不変であり、音声認識システムにうまく組み込まれている。
本稿では,A2Aモデルにおける24時間TaLコーパスの並列音声・超音波舌画像(UTI)データを利用したクロスドメインおよびクロスランガルA2Aインバージョン手法を提案する。
生成した調音機能を組み込んだ3つのタスクの実験は、ベースラインのTDNNとコンフォーマーASRシステムより一貫して優れていた。
論文 参考訳(メタデータ) (2022-06-15T07:20:28Z) - Investigation of Data Augmentation Techniques for Disordered Speech
Recognition [69.50670302435174]
本稿では,不規則音声認識のための一連のデータ拡張手法について検討する。
正常な音声と無秩序な音声の両方が増強過程に利用された。
UASpeechコーパスを用いた最終話者適応システムと、最大2.92%の絶対単語誤り率(WER)の速度摂動に基づく最良の拡張アプローチ
論文 参考訳(メタデータ) (2022-01-14T17:09:22Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - NUVA: A Naming Utterance Verifier for Aphasia Treatment [49.114436579008476]
失語症(PWA)患者の治療介入に対する反応の診断とモニタリングの両立のための画像命名タスクを用いた音声性能評価
本稿では,失語症脳卒中患者の「正しい」と「正しくない」を分類する深層学習要素を組み込んだ発話検証システムであるNUVAについて述べる。
イギリス系英語8ヶ国語でのテストでは、システムの性能精度は83.6%から93.6%の範囲であり、10倍のクロスバリデーション平均は89.5%であった。
論文 参考訳(メタデータ) (2021-02-10T13:00:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。