論文の概要: A Multi-modal Approach to Dysarthria Detection and Severity Assessment Using Speech and Text Information
- arxiv url: http://arxiv.org/abs/2412.16874v1
- Date: Sun, 22 Dec 2024 06:08:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:56:54.095779
- Title: A Multi-modal Approach to Dysarthria Detection and Severity Assessment Using Speech and Text Information
- Title(参考訳): 音声・テキスト情報を用いた難読度検出と重症度評価のためのマルチモーダルアプローチ
- Authors: Anuprabha M, Krishna Gurugubelli, Kesavaraj V, Anil Kumar Vuppala,
- Abstract要約: 本研究は、音声とテキストのモダリティを両立させる新しいアプローチを提案する。
本手法は,クロスアテンション機構を用いて,音声とテキスト表現の音響的・言語的類似性を学習する。
- 参考スコア(独自算出の注目度): 9.172160338245252
- License:
- Abstract: Automatic detection and severity assessment of dysarthria are crucial for delivering targeted therapeutic interventions to patients. While most existing research focuses primarily on speech modality, this study introduces a novel approach that leverages both speech and text modalities. By employing cross-attention mechanism, our method learns the acoustic and linguistic similarities between speech and text representations. This approach assesses specifically the pronunciation deviations across different severity levels, thereby enhancing the accuracy of dysarthric detection and severity assessment. All the experiments have been performed using UA-Speech dysarthric database. Improved accuracies of 99.53% and 93.20% in detection, and 98.12% and 51.97% for severity assessment have been achieved when speaker-dependent and speaker-independent, unseen and seen words settings are used. These findings suggest that by integrating text information, which provides a reference linguistic knowledge, a more robust framework has been developed for dysarthric detection and assessment, thereby potentially leading to more effective diagnoses.
- Abstract(参考訳): 変形性関節症の自動診断および重症度評価は,患者に標的治療介入を行う上で重要である。
既存の研究は、主に音声モダリティに焦点を当てているが、本研究では、音声とテキストのモダリティの両方を活用する新しいアプローチを導入する。
クロスアテンション機構を用いることで,音声とテキストの表現の音響的・言語的類似性を学習する。
本手法は, 異なる重度レベルの発音偏差を特異的に評価し, 変形性関節症検出の精度と重度評価の精度を高める。
すべての実験はUA-Speechの外科的データベースを用いて行われた。
99.53%と93.20%の精度の向上、98.12%と51.97%の重症度評価は、話者に依存しない、話者に依存しない、見知らぬ、見知らぬ単語設定を使用する場合に達成されている。
これらの知見は, 参照言語知識を提供するテキスト情報を統合することにより, 変形性関節症の検出と評価のためのより堅牢な枠組みが開発され, より効果的な診断がもたらされることを示唆している。
関連論文リスト
- A Review of Deep Learning Approaches for Non-Invasive Cognitive Impairment Detection [35.31259047578382]
本稿では,非侵襲的認知障害検出のためのディープラーニング手法の最近の進歩を概説する。
音声や言語,顔,運動運動など,認知低下の非侵襲的指標について検討した。
著しい進歩にもかかわらず、データ標準化とアクセシビリティ、モデル説明可能性、縦断解析の限界、臨床適応などいくつかの課題が残っている。
論文 参考訳(メタデータ) (2024-10-25T17:44:59Z) - Exploring Speech Pattern Disorders in Autism using Machine Learning [12.469348589699766]
本研究は, 被験者と患者との対話の分析を通じて, 独特の音声パターンを識別するための包括的アプローチを提案する。
我々は,40の音声関連特徴を抽出し,周波数,ゼロクロス速度,エネルギー,スペクトル特性,メル周波数ケプストラル係数(MFCC),バランスに分類した。
分類モデルはASDと非ASDを区別することを目的としており、精度は87.75%である。
論文 参考訳(メタデータ) (2024-05-03T02:59:15Z) - Classification of Dysarthria based on the Levels of Severity. A
Systematic Review [1.7624130429860712]
本研究は,重症度に基づく変形性関節症分類手法の体系的検討を目的としている。
変形性関節症の重症度自動分類に関する文献を体系的にレビューする。
論文 参考訳(メタデータ) (2023-10-11T07:40:46Z) - Dementia Assessment Using Mandarin Speech with an Attention-based Speech
Recognition Encoder [0.4369058206183195]
本稿では,マンダリン話者に適した認知症評価システムを構築するために,音声認識モデルを利用する。
99名の被験者からマンダリン音声データを収集し, 地域病院から臨床評価を得た。
アルツハイマー病の診断では92.04%の精度で, 平均絶対誤差は9%であった。
論文 参考訳(メタデータ) (2023-10-06T03:04:11Z) - Leveraging Pretrained Representations with Task-related Keywords for
Alzheimer's Disease Detection [69.53626024091076]
アルツハイマー病(AD)は高齢者に特に顕著である。
事前学習モデルの最近の進歩は、AD検出モデリングを低レベル特徴から高レベル表現にシフトさせる動機付けとなっている。
本稿では,高レベルの音響・言語的特徴から,より優れたAD関連手がかりを抽出する,いくつかの効率的な手法を提案する。
論文 参考訳(メタデータ) (2023-03-14T16:03:28Z) - Exploiting prompt learning with pre-trained language models for
Alzheimer's Disease detection [70.86672569101536]
アルツハイマー病(AD)の早期診断は予防ケアの促進とさらなる進行の遅らせに不可欠である。
本稿では,AD分類誤差をトレーニング対象関数として一貫して用いたPLMの高速微調整法について検討する。
論文 参考訳(メタデータ) (2022-10-29T09:18:41Z) - Exploring linguistic feature and model combination for speech
recognition based automatic AD detection [61.91708957996086]
音声ベースの自動ADスクリーニングシステムは、他の臨床スクリーニング技術に代わる非侵襲的でスケーラブルな代替手段を提供する。
専門的なデータの収集は、そのようなシステムを開発する際に、モデル選択と特徴学習の両方に不確実性をもたらす。
本稿では,BERT と Roberta の事前学習したテキストエンコーダのドメイン微調整の堅牢性向上のための特徴とモデルの組み合わせ手法について検討する。
論文 参考訳(メタデータ) (2022-06-28T05:09:01Z) - Investigation of Data Augmentation Techniques for Disordered Speech
Recognition [69.50670302435174]
本稿では,不規則音声認識のための一連のデータ拡張手法について検討する。
正常な音声と無秩序な音声の両方が増強過程に利用された。
UASpeechコーパスを用いた最終話者適応システムと、最大2.92%の絶対単語誤り率(WER)の速度摂動に基づく最良の拡張アプローチ
論文 参考訳(メタデータ) (2022-01-14T17:09:22Z) - Assessing clinical utility of Machine Learning and Artificial
Intelligence approaches to analyze speech recordings in Multiple Sclerosis: A
Pilot Study [1.6582693134062305]
本研究の目的は, 音声記録を用いた多発性硬化症の診断, バイオマーカー抽出, 進展モニタリングを支援するための機械学習と深層学習/AIアプローチの臨床的有用性を検討することである。
ランダムフォレストモデルは、バリデーションデータセットの精度0.82、トレーニングデータセットの5k倍サイクルの面積0.76の精度を達成した。
論文 参考訳(メタデータ) (2021-09-20T21:02:37Z) - NUVA: A Naming Utterance Verifier for Aphasia Treatment [49.114436579008476]
失語症(PWA)患者の治療介入に対する反応の診断とモニタリングの両立のための画像命名タスクを用いた音声性能評価
本稿では,失語症脳卒中患者の「正しい」と「正しくない」を分類する深層学習要素を組み込んだ発話検証システムであるNUVAについて述べる。
イギリス系英語8ヶ国語でのテストでは、システムの性能精度は83.6%から93.6%の範囲であり、10倍のクロスバリデーション平均は89.5%であった。
論文 参考訳(メタデータ) (2021-02-10T13:00:29Z) - Bulbar ALS Detection Based on Analysis of Voice Perturbation and Vibrato [68.97335984455059]
本研究の目的は,ALS患者の自動検出のための持続母音発声テストの有用性を検証することである。
そこで我々は,音声信号から測定値の計算に必要な基本周期への分離手順の強化を提案した。
論文 参考訳(メタデータ) (2020-03-24T12:49:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。