論文の概要: Selfsupervised learning for pathological speech detection
- arxiv url: http://arxiv.org/abs/2406.02572v1
- Date: Thu, 16 May 2024 07:12:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-09 15:49:54.096236
- Title: Selfsupervised learning for pathological speech detection
- Title(参考訳): 病的音声検出のための自己教師型学習
- Authors: Shakeel Ahmad Sheikh,
- Abstract要約: 音声生成は、様々な神経変性疾患による影響と破壊を受けやすい。
これらの障害は、異常な発声パターンと不正確な調音を特徴とする病的発声を引き起こす。
ニューロタイプ話者とは異なり、言語障害や障害のある患者は、AlexaやSiriなど、さまざまなバーチャルアシスタントにアクセスできない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech production is a complex phenomenon, wherein the brain orchestrates a sequence of processes involving thought processing, motor planning, and the execution of articulatory movements. However, this intricate execution of various processes is susceptible to influence and disruption by various neurodegenerative pathological speech disorders, such as Parkinsons' disease, resulting in dysarthria, apraxia, and other conditions. These disorders lead to pathological speech characterized by abnormal speech patterns and imprecise articulation. Diagnosing these speech disorders in clinical settings typically involves auditory perceptual tests, which are time-consuming, and the diagnosis can vary among clinicians based on their experiences, biases, and cognitive load during the diagnosis. Additionally, unlike neurotypical speakers, patients with speech pathologies or impairments are unable to access various virtual assistants such as Alexa, Siri, etc. To address these challenges, several automatic pathological speech detection (PSD) approaches have been proposed. These approaches aim to provide efficient and accurate detection of speech disorders, thereby facilitating timely intervention and support for individuals affected by these conditions. These approaches mainly vary in two aspects: the input representations utilized and the classifiers employed. Due to the limited availability of data, the performance of detection remains subpar. Self-supervised learning (SSL) embeddings, such as wav2vec2, and their multilingual versions, are being explored as a promising avenue to improve performance. These embeddings leverage self-supervised learning techniques to extract rich representations from audio data, thereby offering a potential solution to address the limitations posed by the scarcity of labeled data.
- Abstract(参考訳): 音声生成は複雑な現象であり、脳は思考処理、運動計画、調音運動の実行を含む一連の過程を編成する。
しかし、この複雑なプロセスの実行は、パーキンソンズ病などの様々な神経変性性言語障害の影響と破壊を受けやすいため、変形、失語症、その他の症状を引き起こす。
これらの障害は、異常な発声パターンと不正確な調音を特徴とする病的発声を引き起こす。
これらの言語障害を臨床環境で診断するには、一般的に、時間を要する聴覚的知覚検査を伴い、診断中の経験、バイアス、認知負荷に基づいて、臨床医によって診断が異なる可能性がある。
さらに、ニューロタイプ話者とは異なり、言語障害や障害のある患者は、AlexaやSiriなど、さまざまなバーチャルアシスタントにアクセスできない。
これらの課題に対処するために、いくつかの自動病的音声検出(PSD)手法が提案されている。
これらのアプローチは、発話障害の効率的かつ正確な検出を提供することを目的としており、これにより、時間的介入と、これらの状況に影響を受ける個人への支援が促進される。
これらのアプローチは主に入力表現と分類器の2つの側面によって異なる。
データの可用性が限られているため、検出のパフォーマンスは依然として低い。
wav2vec2のような自己教師あり学習(SSL)組み込みと多言語バージョンは、パフォーマンス向上のための有望な道として検討されている。
これらの埋め込みは、自己教師付き学習技術を利用して、音声データから豊かな表現を抽出し、ラベル付きデータの不足によって引き起こされる制限に対処する潜在的な解決策を提供する。
関連論文リスト
- Self-supervised Speech Models for Word-Level Stuttered Speech Detection [66.46810024006712]
自己教師付き音声モデルを利用した単語レベルの発声音声検出モデルを提案する。
本評価は, 単語レベルの発声検出において, 従来の手法を超越していることを示す。
論文 参考訳(メタデータ) (2024-09-16T20:18:20Z) - Voice Disorder Analysis: a Transformer-based Approach [10.003909936239742]
本稿では,生音声信号を直接処理するトランスフォーマーを用いた新しいソリューションを提案する。
文読解や持続母音の発声など,多くの記録タイプを同時に検討する。
パブリックデータセットとプライベートデータセットの両方で得られた実験結果は、障害検出および分類タスクにおけるソリューションの有効性を示した。
論文 参考訳(メタデータ) (2024-06-20T19:29:04Z) - Impact of Speech Mode in Automatic Pathological Speech Detection [14.011517808456892]
本稿では,病的音声検出における音声モードの影響を解析する。
古典的な機械学習とディープラーニングという2つのカテゴリのアプローチを調べます。
以上の結果から,古典的アプローチは自然発話における病因判別に苦慮している可能性が示唆された。
対照的に、ディープラーニングアプローチは優れた性能を示し、非自発音声では従来アクセス不能だった追加の手がかりを抽出する。
論文 参考訳(メタデータ) (2024-06-14T12:19:18Z) - Exploring Speech Pattern Disorders in Autism using Machine Learning [12.469348589699766]
本研究は, 被験者と患者との対話の分析を通じて, 独特の音声パターンを識別するための包括的アプローチを提案する。
我々は,40の音声関連特徴を抽出し,周波数,ゼロクロス速度,エネルギー,スペクトル特性,メル周波数ケプストラル係数(MFCC),バランスに分類した。
分類モデルはASDと非ASDを区別することを目的としており、精度は87.75%である。
論文 参考訳(メタデータ) (2024-05-03T02:59:15Z) - Identification of Cognitive Decline from Spoken Language through Feature
Selection and the Bag of Acoustic Words Model [0.0]
記憶障害の症状の早期発見は、集団の健康確保に重要な役割を担っている。
臨床環境における標準化された音声テストの欠如は、自然音声言語を解析するための自動機械学習技術の開発にますます重点を置いている。
この研究は特徴選択に関するアプローチを示し、ジュネーブの最小音響パラメータセットと相対音声停止から診断に必要な重要な特徴を自動的に選択することを可能にする。
論文 参考訳(メタデータ) (2024-02-02T17:06:03Z) - Show from Tell: Audio-Visual Modelling in Clinical Settings [58.88175583465277]
臨床環境でのオーディオ・ビジュアル・モデリングを考察し、人間の専門的アノテーションを使わずに医学的表現を学習するためのソリューションを提供する。
この目的のために, 単純かつ効果的なマルチモーダル自己教師型学習フレームワークを提案する。
提案手法は,音声のみを基準として,超音波画像中の解剖学的関心領域をローカライズすることができる。
論文 参考訳(メタデータ) (2023-10-25T08:55:48Z) - A New Benchmark of Aphasia Speech Recognition and Detection Based on
E-Branchformer and Multi-task Learning [29.916793641951507]
本稿では,最新の音声認識技術を用いた失語症音声認識のための新しいベンチマークを提案する。
CTC/Attentionアーキテクチャに基づく2つのマルチタスク学習手法を導入し、両方のタスクを同時に実行する。
当システムでは,中等度失語症患者に対して,最先端の話者レベル検出精度(97.3%)と相対的なWER低下率(1%)を達成している。
論文 参考訳(メタデータ) (2023-05-19T15:10:36Z) - Investigation of Data Augmentation Techniques for Disordered Speech
Recognition [69.50670302435174]
本稿では,不規則音声認識のための一連のデータ拡張手法について検討する。
正常な音声と無秩序な音声の両方が増強過程に利用された。
UASpeechコーパスを用いた最終話者適応システムと、最大2.92%の絶対単語誤り率(WER)の速度摂動に基づく最良の拡張アプローチ
論文 参考訳(メタデータ) (2022-01-14T17:09:22Z) - A Preliminary Study of a Two-Stage Paradigm for Preserving Speaker
Identity in Dysarthric Voice Conversion [50.040466658605524]
変形性音声変換(DVC)における話者同一性維持のための新しいパラダイムを提案する。
変形性音声の質は統計VCによって大幅に改善される。
しかし, 変形性関節症患者の通常の発話は, ほとんど収集できないため, 過去の研究は患者の個性を取り戻すことはできなかった。
論文 参考訳(メタデータ) (2021-06-02T18:41:03Z) - Multi-view Temporal Alignment for Non-parallel Articulatory-to-Acoustic
Speech Synthesis [59.623780036359655]
A2A(Articulatory-to-Aoustic)合成は、音声刺激器のキャプチャされた動きから可聴音声の生成を指します。
この手法には、病気や怪我のためにもはや話せない人々への口頭コミュニケーションの回復など、多くの応用がある。
本稿では,多視点学習の理論に基づく問題解決法を提案する。
論文 参考訳(メタデータ) (2020-12-30T15:09:02Z) - Detecting Parkinsonian Tremor from IMU Data Collected In-The-Wild using
Deep Multiple-Instance Learning [59.74684475991192]
パーキンソン病(英: Parkinson's Disease、PD)は、60歳以上の人口の約1%に影響を与える徐々に進化する神経学的疾患である。
PD症状には、震動、剛性、ブレイキネジアがある。
本稿では,スマートフォン端末から受信したIMU信号に基づいて,PDに関連するトレモラスなエピソードを自動的に識別する手法を提案する。
論文 参考訳(メタデータ) (2020-05-06T09:02:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。