論文の概要: Pathological speech detection using x-vector embeddings
- arxiv url: http://arxiv.org/abs/2003.00864v3
- Date: Sun, 31 May 2020 14:31:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-27 05:42:30.607311
- Title: Pathological speech detection using x-vector embeddings
- Title(参考訳): xベクトル埋め込みを用いた病的音声検出
- Authors: Catarina Botelho, Francisco Teixeira, Thomas Rolland, Alberto Abad,
Isabel Trancoso
- Abstract要約: パーキンソン病 (PD) や閉塞性睡眠時無呼吸 (OSA) などの症状をモデルとした一般話者表現
我々は、知識に基づく特徴とi-vectorに対するアプローチを検証し、OSAとPDのための2つのポルトガルのコーパスと、PDのためのスペイン語コーパスの報告を行った。
- 参考スコア(独自算出の注目度): 19.665563478661074
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The potential of speech as a non-invasive biomarker to assess a speaker's
health has been repeatedly supported by the results of multiple works, for both
physical and psychological conditions. Traditional systems for speech-based
disease classification have focused on carefully designed knowledge-based
features. However, these features may not represent the disease's full
symptomatology, and may even overlook its more subtle manifestations. This has
prompted researchers to move in the direction of general speaker
representations that inherently model symptoms, such as Gaussian Supervectors,
i-vectors and, x-vectors. In this work, we focus on the latter, to assess their
applicability as a general feature extraction method to the detection of
Parkinson's disease (PD) and obstructive sleep apnea (OSA). We test our
approach against knowledge-based features and i-vectors, and report results for
two European Portuguese corpora, for OSA and PD, as well as for an additional
Spanish corpus for PD. Both x-vector and i-vector models were trained with an
out-of-domain European Portuguese corpus. Our results show that x-vectors are
able to perform better than knowledge-based features in same-language corpora.
Moreover, while x-vectors performed similarly to i-vectors in matched
conditions, they significantly outperform them when domain-mismatch occurs.
- Abstract(参考訳): 話者の健康を評価する非侵襲的バイオマーカーとしての音声の可能性は、身体的および心理的条件の両方において、複数の研究の結果によって繰り返し支持されている。
従来の言語ベースの疾患分類システムは、注意深く設計された知識に基づく特徴に注目してきた。
しかし、これらの特徴は疾患の全症状を表わさない可能性があり、より微妙な症状を見逃す可能性さえある。
これにより研究者は、ガウスのスーパーベクター、i-ベクター、x-ベクターなどの症状を本質的にモデル化する一般的な話者表現の方向に進むようになった。
本研究は,パーキンソン病(PD)および閉塞型睡眠時無呼吸症(OSA)の検出における一般特徴抽出法としての有用性を評価することを目的とした。
我々は、知識に基づく特徴とi-vectorに対するアプローチを検証し、OSAとPDのための2つのポルトガルのコーパスと、PDのためのスペイン語コーパスの報告を行った。
x-vectorとi-vectorの両方のモデルは、ドメイン外のヨーロッパ・ポルトガル・コーパスで訓練された。
その結果,x-vectorsは同言語コーパスの知識に基づく機能よりも優れた性能を示すことができた。
さらに, 整合条件下では, xベクターがiベクターと類似する性能を示したが, ドメインミスマッチが生じた場合には, 著しく優れていた。
関連論文リスト
- Language-Agnostic Analysis of Speech Depression Detection [2.5764071253486636]
本研究は、英語とマラヤラムの2言語間での自動抑うつ検出を解析する。
CNNモデルは、両言語に焦点をあてて、抑うつに関連する音響的特徴を特定するために訓練される。
その結果,言語に依存しない抑うつ検出システムの開発に寄与する可能性が示唆された。
論文 参考訳(メタデータ) (2024-09-23T07:35:56Z) - Language Generation from Brain Recordings [68.97414452707103]
本稿では,大言語モデルと意味脳デコーダの容量を利用した生成言語BCIを提案する。
提案モデルでは,視覚的・聴覚的言語刺激のセマンティック内容に整合したコヒーレントな言語系列を生成することができる。
本研究は,直接言語生成におけるBCIの活用の可能性と可能性を示すものである。
論文 参考訳(メタデータ) (2023-11-16T13:37:21Z) - Semantic Coherence Markers for the Early Diagnosis of the Alzheimer
Disease [0.0]
パープレキシティはもともと、与えられた言語モデルがテキストシーケンスを予測するのにどの程度適しているかを評価するための情報理論の尺度として考え出された。
我々は2グラムから5グラムまでのN-gramとトランスフォーマーベース言語モデルであるGPT-2を多種多様な言語モデルに適用した。
ベストパフォーマンスモデルでは、ADクラスと制御対象の両方から対象を分類する際に、完全精度とFスコア(精度/特異度とリコール/感度のそれぞれ1.00)を達成した。
論文 参考訳(メタデータ) (2023-02-02T11:40:16Z) - Exploiting Cross-domain And Cross-Lingual Ultrasound Tongue Imaging
Features For Elderly And Dysarthric Speech Recognition [55.25565305101314]
調音機能は音響信号歪みに不変であり、音声認識システムにうまく組み込まれている。
本稿では,A2Aモデルにおける24時間TaLコーパスの並列音声・超音波舌画像(UTI)データを利用したクロスドメインおよびクロスランガルA2Aインバージョン手法を提案する。
生成した調音機能を組み込んだ3つのタスクの実験は、ベースラインのTDNNとコンフォーマーASRシステムより一貫して優れていた。
論文 参考訳(メタデータ) (2022-06-15T07:20:28Z) - Toward a realistic model of speech processing in the brain with
self-supervised learning [67.7130239674153]
生波形で訓練された自己教師型アルゴリズムは有望な候補である。
We show that Wav2Vec 2.0 learns brain-like representations with little as 600 hours of unlabelled speech。
論文 参考訳(メタデータ) (2022-06-03T17:01:46Z) - Cross-lingual Self-Supervised Speech Representations for Improved
Dysarthric Speech Recognition [15.136348385992047]
本研究では, 変形性関節症に対するASRシステムの訓練機能として, Wav2Vec を用いた自己教師型音声表現の有用性について検討した。
我々は、Wav2Vec、Hubert、および言語間XLSRモデルから抽出された特徴を持つ音響モデルを訓練する。
結果から,大容量データに事前学習した音声表現は,単語誤り率(WER)を向上する可能性が示唆された。
論文 参考訳(メタデータ) (2022-04-04T17:36:01Z) - Multi-class versus One-class classifier in spontaneous speech analysis
oriented to Alzheimer Disease diagnosis [58.720142291102135]
本研究の目的は,音声信号から抽出した新しいバイオマーカーを用いて自動解析を行うことにより,ADの早期診断と重症度評価の改善に寄与することである。
外付け器とフラクタル次元の機能に関する情報を使用することで、システムの性能が向上する。
論文 参考訳(メタデータ) (2022-03-21T09:57:20Z) - Influence of ASR and Language Model on Alzheimer's Disease Detection [2.4698886064068555]
画像から参加者の音声記述を転写するために,SotA ASRシステムを用いて分析する。
本研究では,ASRから仮説を復号化するための言語モデルが欠如していることから,単語の非標準列を補正する言語モデルの影響について検討する。
提案システムは、韻律と声質に基づく音響と、最も一般的な単語の最初の出現に基づく語彙的特徴を組み合わせる。
論文 参考訳(メタデータ) (2021-09-20T10:41:39Z) - Preliminary study on using vector quantization latent spaces for TTS/VC
systems with consistent performance [55.10864476206503]
本稿では,潜在言語埋め込みをモデル化するための量子化ベクトルの利用について検討する。
トレーニングにおいて、潜伏空間上の異なるポリシーを強制することにより、潜伏言語埋め込みを得ることができる。
実験の結果,ベクトル量子化法で構築した音声クローニングシステムは,知覚的評価の点でわずかに劣化していることがわかった。
論文 参考訳(メタデータ) (2021-06-25T07:51:35Z) - NUVA: A Naming Utterance Verifier for Aphasia Treatment [49.114436579008476]
失語症(PWA)患者の治療介入に対する反応の診断とモニタリングの両立のための画像命名タスクを用いた音声性能評価
本稿では,失語症脳卒中患者の「正しい」と「正しくない」を分類する深層学習要素を組み込んだ発話検証システムであるNUVAについて述べる。
イギリス系英語8ヶ国語でのテストでは、システムの性能精度は83.6%から93.6%の範囲であり、10倍のクロスバリデーション平均は89.5%であった。
論文 参考訳(メタデータ) (2021-02-10T13:00:29Z) - Multi-Modal Detection of Alzheimer's Disease from Speech and Text [3.702631194466718]
本稿では,アルツハイマー病(AD)の診断に音声と対応する文字を同時に利用する深層学習手法を提案する。
提案手法は,Dementiabank Pitt corpus のトレーニングおよび評価において,85.3%のクロスバリデーション精度を実現する。
論文 参考訳(メタデータ) (2020-11-30T21:18:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。