論文の概要: Zero-Shot Multi-Lingual Speaker Verification in Clinical Trials
- arxiv url: http://arxiv.org/abs/2404.01981v2
- Date: Fri, 5 Apr 2024 20:53:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 11:18:23.690470
- Title: Zero-Shot Multi-Lingual Speaker Verification in Clinical Trials
- Title(参考訳): 治験におけるゼロショット多言語話者の検証
- Authors: Ali Akram, Marija Stanojevic, Malikeh Ehghaghi, Jekaterina Novikova,
- Abstract要約: 臨床試験では、患者の音声データに基づいて、認知や精神の健康障害を検出し、モニターする。
我々は,これらの音声記録を用いて,登録患者の身元を確認し,同じ臨床試験で複数回登録しようとする個人を特定し,排除することを提案する。
我々は、英語、ドイツ語、デンマーク語、スペイン語、アラビア語を母語とする言語障害者を対象に、事前訓練したTitaNet, ECAPA-TDNN, SpeakerNetモデルの評価を行った。
- 参考スコア(独自算出の注目度): 4.231937382464348
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Due to the substantial number of clinicians, patients, and data collection environments involved in clinical trials, gathering data of superior quality poses a significant challenge. In clinical trials, patients are assessed based on their speech data to detect and monitor cognitive and mental health disorders. We propose using these speech recordings to verify the identities of enrolled patients and identify and exclude the individuals who try to enroll multiple times in the same trial. Since clinical studies are often conducted across different countries, creating a system that can perform speaker verification in diverse languages without additional development effort is imperative. We evaluate pre-trained TitaNet, ECAPA-TDNN, and SpeakerNet models by enrolling and testing with speech-impaired patients speaking English, German, Danish, Spanish, and Arabic languages. Our results demonstrate that tested models can effectively generalize to clinical speakers, with less than 2.7% EER for European Languages and 8.26% EER for Arabic. This represents a significant step in developing more versatile and efficient speaker verification systems for cognitive and mental health clinical trials that can be used across a wide range of languages and dialects, substantially reducing the effort required to develop speaker verification systems for multiple languages. We also evaluate how speech tasks and number of speakers involved in the trial influence the performance and show that the type of speech tasks impacts the model performance.
- Abstract(参考訳): 多くの臨床医、患者、データ収集環境が臨床試験に関与しているため、優れた品質のデータを集めることは大きな課題である。
臨床試験では、患者の音声データに基づいて、認知や精神の健康障害を検出し、モニターする。
我々は,これらの音声記録を用いて,登録患者の身元を確認し,同じ臨床試験で複数回登録しようとする個人を特定し,排除することを提案する。
臨床研究は様々な国で行われているため、さらなる開発努力を伴わずに多様な言語で話者検証を行うシステムを構築することが不可欠である。
我々は、英語、ドイツ語、デンマーク語、スペイン語、アラビア語を母語とする言語障害者を対象に、事前訓練したTitaNet, ECAPA-TDNN, SpeakerNetモデルの評価を行った。
これらの結果から,ヨーロッパ語では2.7%,アラビア語では8.26%であった。
これは、様々な言語や方言で使用できる認知的および精神的な臨床試験のための、より汎用的で効率的な話者検証システムを開発するための重要なステップであり、複数の言語のための話者検証システムを開発するのに必要な労力を大幅に削減する。
また,実験に関わった音声タスクと話者数がどのように影響するかを評価し,その種類がモデル性能に影響を及ぼすことを示す。
関連論文リスト
- Large Language Models for Dysfluency Detection in Stuttered Speech [16.812800649507302]
音声言語におけるディファレンシを正確に検出することは、自動音声処理と言語処理の部品の性能を向上させるのに役立つ。
大規模言語モデル(LLM)を非語彙入力の普遍的な学習者やプロセッサとして展開する最近の傾向に触発されて,言語モデリング問題として多ラベルディフルエンシ検出の課題にアプローチする。
本稿では,音声エンコーダモデルから抽出した音響表現をLLMに自動音声認識システムと音響表現で生成し,英語とドイツ語を含む3つのデータセット上で,ディフルエンシラベルを予測するシステムを提案する。
論文 参考訳(メタデータ) (2024-06-16T17:51:22Z) - An Initial Investigation of Language Adaptation for TTS Systems under Low-resource Scenarios [76.11409260727459]
本稿では,最近のSSLベースの多言語TSシステムであるZMM-TTSの言語適応性について検討する。
本研究では,事前学習言語と対象言語との音声学的な類似性が,対象言語の適応性能に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2024-06-13T08:16:52Z) - Factors Affecting the Performance of Automated Speaker Verification in
Alzheimer's Disease Clinical Trials [4.0388304511445146]
自動話者検証(ASV)モデルは、登録された個人の同一性を検証し、臨床試験で重複を除去するために重要である。
本研究は,声質特性により,一部のサブグループで異なるASV特性を示すため,音声バイオメトリックスが公平さの懸念を生じさせることを示した。
論文 参考訳(メタデータ) (2023-06-20T12:24:46Z) - Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z) - Exploiting Cross-domain And Cross-Lingual Ultrasound Tongue Imaging
Features For Elderly And Dysarthric Speech Recognition [55.25565305101314]
調音機能は音響信号歪みに不変であり、音声認識システムにうまく組み込まれている。
本稿では,A2Aモデルにおける24時間TaLコーパスの並列音声・超音波舌画像(UTI)データを利用したクロスドメインおよびクロスランガルA2Aインバージョン手法を提案する。
生成した調音機能を組み込んだ3つのタスクの実験は、ベースラインのTDNNとコンフォーマーASRシステムより一貫して優れていた。
論文 参考訳(メタデータ) (2022-06-15T07:20:28Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - Zero-Shot Cross-lingual Aphasia Detection using Automatic Speech
Recognition [3.2631198264090746]
失語症(英: Aphasia)は、一般的には脳損傷や脳卒中によって引き起こされる言語障害であり、世界中の何百万人もの人々に影響を及ぼす。
本稿では,言語間音声表現を共用する事前学習型自動音声認識(ASR)モデルを用いたエンドツーエンドパイプラインを提案する。
論文 参考訳(メタデータ) (2022-04-01T14:05:02Z) - Is Attention always needed? A Case Study on Language Identification from
Speech [1.162918464251504]
本研究では,畳み込みリカレントニューラルネットワーク(CRNN)を用いたLIDを提案する。
CRNNベースのLIDは、音声サンプルのMel- frequency Cepstral Coefficient(MFCC)特性で動作するように設計されている。
LIDモデルは言語的に類似した言語に対して97%から100%のハイパフォーマンスレベルを示す。
論文 参考訳(メタデータ) (2021-10-05T16:38:57Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - Benchmarking Automated Clinical Language Simplification: Dataset,
Algorithm, and Evaluation [48.87254340298189]
我々はMedLaneという名の新しいデータセットを構築し、自動化された臨床言語簡易化手法の開発と評価を支援する。
我々は,人間のアノテーションの手順に従い,最先端のパフォーマンスを実現するDECLAREと呼ばれる新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-12-04T06:09:02Z) - Comparison of Speaker Role Recognition and Speaker Enrollment Protocol
for conversational Clinical Interviews [9.728371067160941]
エンドツーエンドのニューラルネットワークアーキテクチャをトレーニングし、各タスクに適応し、各アプローチを同じメトリクスで評価します。
結果は面接者の人口統計にも依存せず,その臨床的意義を浮き彫りにした。
論文 参考訳(メタデータ) (2020-10-30T09:07:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。