論文の概要: A Multi-modal Approach to Dysarthria Detection and Severity Assessment Using Speech and Text Information
- arxiv url: http://arxiv.org/abs/2412.16874v2
- Date: Fri, 21 Feb 2025 04:49:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 23:09:19.293556
- Title: A Multi-modal Approach to Dysarthria Detection and Severity Assessment Using Speech and Text Information
- Title(参考訳): 音声・テキスト情報を用いた難読度検出と重症度評価のためのマルチモーダルアプローチ
- Authors: M Anuprabha, Krishna Gurugubelli, V Kesavaraj, Anil Kumar Vuppala,
- Abstract要約: 本研究は、音声とテキストのモダリティを両立させる新しいアプローチを提案する。
本手法は,クロスアテンション機構を用いて,音声とテキスト表現の音響的・言語的類似性を学習する。
- 参考スコア(独自算出の注目度): 9.172160338245252
- License:
- Abstract: Automatic detection and severity assessment of dysarthria are crucial for delivering targeted therapeutic interventions to patients. While most existing research focuses primarily on speech modality, this study introduces a novel approach that leverages both speech and text modalities. By employing cross-attention mechanism, our method learns the acoustic and linguistic similarities between speech and text representations. This approach assesses specifically the pronunciation deviations across different severity levels, thereby enhancing the accuracy of dysarthric detection and severity assessment. All the experiments have been performed using UA-Speech dysarthric database. Improved accuracies of 99.53% and 93.20% in detection, and 98.12% and 51.97% for severity assessment have been achieved when speaker-dependent and speaker-independent, unseen and seen words settings are used. These findings suggest that by integrating text information, which provides a reference linguistic knowledge, a more robust framework has been developed for dysarthric detection and assessment, thereby potentially leading to more effective diagnoses.
- Abstract(参考訳): 変形性関節症の自動診断および重症度評価は,患者に標的治療介入を行う上で重要である。
既存の研究は、主に音声モダリティに焦点を当てているが、本研究では、音声とテキストのモダリティの両方を活用する新しいアプローチを導入する。
クロスアテンション機構を用いることで,音声とテキストの表現の音響的・言語的類似性を学習する。
本手法は, 異なる重度レベルの発音偏差を特異的に評価し, 変形性関節症検出の精度と重度評価の精度を高める。
すべての実験はUA-Speechの外科的データベースを用いて行われた。
99.53%と93.20%の精度の向上、98.12%と51.97%の重症度評価は、話者に依存しない、話者に依存しない、見知らぬ、見知らぬ単語設定を使用する場合に達成されている。
これらの知見は, 参照言語知識を提供するテキスト情報を統合することにより, 変形性関節症の検出と評価のためのより堅牢な枠組みが開発され, より効果的な診断がもたらされることを示唆している。
関連論文リスト
- Dialogue is Better Than Monologue: Instructing Medical LLMs via Strategical Conversations [74.83732294523402]
実世界の診断シナリオをシミュレートし,USMLE標準に適合するノイズと難易度を統合する新しいベンチマークを導入する。
また、対話に基づく微調整についても検討し、静的データセットを会話形式に変換し、反復的推論プロセスをよりよく捉える。
実験の結果、対話調整されたモデルは従来の手法よりも優れており、マルチラウンド推論のシナリオでは9.64%、ノイズの多い環境では6.18%の精度で改善されている。
論文 参考訳(メタデータ) (2025-01-29T18:58:48Z) - Robust Cross-Etiology and Speaker-Independent Dysarthric Speech Recognition [26.26414139359157]
本稿では,最近リリースされた音声アクセシビリティ・プロジェクト (SAP-1005) データセットの評価に焦点をあてて,話者非依存型音声認識システムを提案する。
本研究の主な目的は, 話者に関係なく, 変形性音声を正確に認識できる頑健な話者非依存モデルを開発することである。
第2の目的として, TORGOデータセット上で評価することで, モデルのクロスエクソロジー性能をテストすることを目的とする。
論文 参考訳(メタデータ) (2025-01-25T00:02:58Z) - Voice Biomarker Analysis and Automated Severity Classification of Dysarthric Speech in a Multilingual Context [1.4721615285883431]
運動性発声障害であるDysarthriaは、声質、発音、韻律に深刻な影響を与え、発話の可知性が低下し、生活の質が低下する。
本論文は,英語,韓国語,タミル語という3つの言語を解析し,多言語性難聴度分類法を提案する。
論文 参考訳(メタデータ) (2024-12-01T00:05:00Z) - A Review of Deep Learning Approaches for Non-Invasive Cognitive Impairment Detection [35.31259047578382]
本稿では,非侵襲的認知障害検出のためのディープラーニング手法の最近の進歩を概説する。
音声や言語,顔,運動運動など,認知低下の非侵襲的指標について検討した。
著しい進歩にもかかわらず、データ標準化とアクセシビリティ、モデル説明可能性、縦断解析の限界、臨床適応などいくつかの課題が残っている。
論文 参考訳(メタデータ) (2024-10-25T17:44:59Z) - Classification of Dysarthria based on the Levels of Severity. A
Systematic Review [1.7624130429860712]
本研究は,重症度に基づく変形性関節症分類手法の体系的検討を目的としている。
変形性関節症の重症度自動分類に関する文献を体系的にレビューする。
論文 参考訳(メタデータ) (2023-10-11T07:40:46Z) - Leveraging Pretrained Representations with Task-related Keywords for
Alzheimer's Disease Detection [69.53626024091076]
アルツハイマー病(AD)は高齢者に特に顕著である。
事前学習モデルの最近の進歩は、AD検出モデリングを低レベル特徴から高レベル表現にシフトさせる動機付けとなっている。
本稿では,高レベルの音響・言語的特徴から,より優れたAD関連手がかりを抽出する,いくつかの効率的な手法を提案する。
論文 参考訳(メタデータ) (2023-03-14T16:03:28Z) - Exploiting prompt learning with pre-trained language models for
Alzheimer's Disease detection [70.86672569101536]
アルツハイマー病(AD)の早期診断は予防ケアの促進とさらなる進行の遅らせに不可欠である。
本稿では,AD分類誤差をトレーニング対象関数として一貫して用いたPLMの高速微調整法について検討する。
論文 参考訳(メタデータ) (2022-10-29T09:18:41Z) - Exploring linguistic feature and model combination for speech
recognition based automatic AD detection [61.91708957996086]
音声ベースの自動ADスクリーニングシステムは、他の臨床スクリーニング技術に代わる非侵襲的でスケーラブルな代替手段を提供する。
専門的なデータの収集は、そのようなシステムを開発する際に、モデル選択と特徴学習の両方に不確実性をもたらす。
本稿では,BERT と Roberta の事前学習したテキストエンコーダのドメイン微調整の堅牢性向上のための特徴とモデルの組み合わせ手法について検討する。
論文 参考訳(メタデータ) (2022-06-28T05:09:01Z) - Investigation of Data Augmentation Techniques for Disordered Speech
Recognition [69.50670302435174]
本稿では,不規則音声認識のための一連のデータ拡張手法について検討する。
正常な音声と無秩序な音声の両方が増強過程に利用された。
UASpeechコーパスを用いた最終話者適応システムと、最大2.92%の絶対単語誤り率(WER)の速度摂動に基づく最良の拡張アプローチ
論文 参考訳(メタデータ) (2022-01-14T17:09:22Z) - Assessing clinical utility of Machine Learning and Artificial
Intelligence approaches to analyze speech recordings in Multiple Sclerosis: A
Pilot Study [1.6582693134062305]
本研究の目的は, 音声記録を用いた多発性硬化症の診断, バイオマーカー抽出, 進展モニタリングを支援するための機械学習と深層学習/AIアプローチの臨床的有用性を検討することである。
ランダムフォレストモデルは、バリデーションデータセットの精度0.82、トレーニングデータセットの5k倍サイクルの面積0.76の精度を達成した。
論文 参考訳(メタデータ) (2021-09-20T21:02:37Z) - NUVA: A Naming Utterance Verifier for Aphasia Treatment [49.114436579008476]
失語症(PWA)患者の治療介入に対する反応の診断とモニタリングの両立のための画像命名タスクを用いた音声性能評価
本稿では,失語症脳卒中患者の「正しい」と「正しくない」を分類する深層学習要素を組み込んだ発話検証システムであるNUVAについて述べる。
イギリス系英語8ヶ国語でのテストでは、システムの性能精度は83.6%から93.6%の範囲であり、10倍のクロスバリデーション平均は89.5%であった。
論文 参考訳(メタデータ) (2021-02-10T13:00:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。