論文の概要: Is Speech Pathology a Biomarker in Automatic Speaker Verification?
- arxiv url: http://arxiv.org/abs/2204.06450v1
- Date: Wed, 13 Apr 2022 15:17:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-14 16:38:21.318039
- Title: Is Speech Pathology a Biomarker in Automatic Speaker Verification?
- Title(参考訳): 音声病理は自動話者検証におけるバイオマーカーか?
- Authors: Soroosh Tayebi Arasteh, Tobias Weise, Maria Schuster, Elmar N\"oth,
Andreas Maier, Seung Hee Yang
- Abstract要約: 病的音声データについて検討し,健常者との比較を行った。
様々な年齢の音声・音声障害を有する2000名以上の被験者を対象に, 大規模言語コーパスを用いて検討を行った。
以上の結果から,音声病理は自動話者検証のバイオマーカーとして有用であることが示唆された。
- 参考スコア(独自算出の注目度): 8.650928070702797
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the advancements in deep learning (DL) and an increasing interest in
data-driven speech processing methods, a major challenge for speech data
scientists in the healthcare domain is the anonymization of pathological
speech, which is a required step to be able to make them accessible as a public
training resource. In this paper, we investigate pathological speech data and
compare their speaker verifiability with that of healthy individuals. We
utilize a large pathological speech corpus of more than 2,000 test subjects
with various speech and voice disorders from different ages and apply DL-based
automatic speaker verification (ASV) techniques. As a result, we obtained a
mean equal error rate (EER) of 0.86% with a standard deviation of 0.16%, which
is a factor of three lower than comparable healthy speech databases. We further
perform detailed analyses of external influencing factors on ASV such as age,
pathology, recording environment, and utterance length, to explore their
respective effect. Our findings indicate that speech pathology is a potential
biomarker in ASV. This is potentially of high interest for the anonymization of
pathological speech data.
- Abstract(参考訳): 深層学習(DL)の進歩とデータ駆動型音声処理手法への関心の高まりにより、医療分野における音声データ科学者にとっての大きな課題は、病的音声の匿名化である。
本稿では,病的音声データを調査し,その話者の妥当性を健常者と比較する。
様々な年齢の音声・音声障害を有する2000人以上の被験者を対象とした大規模言語コーパスを用いて,DLベースの自動話者検証(ASV)技術を適用した。
その結果,平均等誤差率 (eer) は0.86%であり,標準偏差は0.16%であった。
さらに, 年齢, 病理, 記録環境, 発話時間など, ASV の外部影響因子の詳細な分析を行い, それぞれの効果について検討した。
以上の結果から,音声病理はASVの潜在的なバイオマーカーである可能性が示唆された。
これは病理音声データの匿名化に高い関心を持つ可能性がある。
関連論文リスト
- Differential privacy for protecting patient data in speech disorder detection using deep learning [11.01272267983849]
本研究は,ディファレンシャルプライバシ(DP)が病的音声データに与える影響を初めて調べたものである。
プライバシー予算7.51のDPを用いたトレーニングでは,最大精度が3.85%低下した。
本研究は,スペイン語を話すパーキンソン病患者の小さなデータセットに対するアプローチを一般化するために検証した。
論文 参考訳(メタデータ) (2024-09-27T18:25:54Z) - Developing vocal system impaired patient-aimed voice quality assessment approach using ASR representation-included multiple features [0.4681310436826459]
本稿では,音声認識と自己教師型学習表現の利用について紹介する。
実験ではPVQDデータセットのチェックを行い、英語における様々な声道系の損傷の原因をカバーし、パーキンソン病の患者に焦点を当てた日本語データセットを作成した。
PVQDの結果, PCCでは0.8, MSEでは0.5と顕著な相関がみられた。
論文 参考訳(メタデータ) (2024-08-22T10:22:53Z) - Exploring Speech Pattern Disorders in Autism using Machine Learning [12.469348589699766]
本研究は, 被験者と患者との対話の分析を通じて, 独特の音声パターンを識別するための包括的アプローチを提案する。
我々は,40の音声関連特徴を抽出し,周波数,ゼロクロス速度,エネルギー,スペクトル特性,メル周波数ケプストラル係数(MFCC),バランスに分類した。
分類モデルはASDと非ASDを区別することを目的としており、精度は87.75%である。
論文 参考訳(メタデータ) (2024-05-03T02:59:15Z) - Automatically measuring speech fluency in people with aphasia: first
achievements using read-speech data [55.84746218227712]
本研究の目的は,言語習得の分野で開発された信号処理algorithmの関連性を評価することである。
論文 参考訳(メタデータ) (2023-08-09T07:51:40Z) - Hyper-parameter Adaptation of Conformer ASR Systems for Elderly and
Dysarthric Speech Recognition [64.9816313630768]
ファインチューニングは、多くの非高齢および健康な音声事前訓練モデルを利用するためにしばしば用いられる。
本稿では,Librispeech corpus 上で事前学習した Conformer ASR システムのハイパーパラメータ適応について検討する。
論文 参考訳(メタデータ) (2023-06-27T07:49:35Z) - Factors Affecting the Performance of Automated Speaker Verification in
Alzheimer's Disease Clinical Trials [4.0388304511445146]
自動話者検証(ASV)モデルは、登録された個人の同一性を検証し、臨床試験で重複を除去するために重要である。
本研究は,声質特性により,一部のサブグループで異なるASV特性を示すため,音声バイオメトリックスが公平さの懸念を生じさせることを示した。
論文 参考訳(メタデータ) (2023-06-20T12:24:46Z) - The Far Side of Failure: Investigating the Impact of Speech Recognition
Errors on Subsequent Dementia Classification [8.032686410648274]
自然発話で検出される言語異常は、認知障害などの認知障害のスクリーニングなど、様々な臨床応用の可能性を示唆している。
自己教師付き学習(SSL)自動音声認識(ASR)モデルにおいて,臨床環境から抽出した難解な音声サンプルでは,有意な性能が得られない。
我々の重要な発見の1つは、パラドックス的に、比較的高いエラー率を持つASRシステムは、動詞の文字起こしに基づく分類よりも、より下流の分類精度の高い転写文を生成できるということである。
論文 参考訳(メタデータ) (2022-11-11T17:06:45Z) - Exploiting Cross-domain And Cross-Lingual Ultrasound Tongue Imaging
Features For Elderly And Dysarthric Speech Recognition [55.25565305101314]
調音機能は音響信号歪みに不変であり、音声認識システムにうまく組み込まれている。
本稿では,A2Aモデルにおける24時間TaLコーパスの並列音声・超音波舌画像(UTI)データを利用したクロスドメインおよびクロスランガルA2Aインバージョン手法を提案する。
生成した調音機能を組み込んだ3つのタスクの実験は、ベースラインのTDNNとコンフォーマーASRシステムより一貫して優れていた。
論文 参考訳(メタデータ) (2022-06-15T07:20:28Z) - Investigation of Data Augmentation Techniques for Disordered Speech
Recognition [69.50670302435174]
本稿では,不規則音声認識のための一連のデータ拡張手法について検討する。
正常な音声と無秩序な音声の両方が増強過程に利用された。
UASpeechコーパスを用いた最終話者適応システムと、最大2.92%の絶対単語誤り率(WER)の速度摂動に基づく最良の拡張アプローチ
論文 参考訳(メタデータ) (2022-01-14T17:09:22Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - NUVA: A Naming Utterance Verifier for Aphasia Treatment [49.114436579008476]
失語症(PWA)患者の治療介入に対する反応の診断とモニタリングの両立のための画像命名タスクを用いた音声性能評価
本稿では,失語症脳卒中患者の「正しい」と「正しくない」を分類する深層学習要素を組み込んだ発話検証システムであるNUVAについて述べる。
イギリス系英語8ヶ国語でのテストでは、システムの性能精度は83.6%から93.6%の範囲であり、10倍のクロスバリデーション平均は89.5%であった。
論文 参考訳(メタデータ) (2021-02-10T13:00:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。