論文の概要: A Study on the Reliability of Automatic Dysarthric Speech Assessments
- arxiv url: http://arxiv.org/abs/2306.04337v1
- Date: Wed, 7 Jun 2023 11:04:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-08 14:59:17.447344
- Title: A Study on the Reliability of Automatic Dysarthric Speech Assessments
- Title(参考訳): 構音障害自動評価の信頼性に関する検討
- Authors: Xavier F. Cadet, Ranya Aloufi, Sara Ahmadi-Abhari, Hamed Haddadi
- Abstract要約: ジステリアアセスメントは、効果的で低コストなツールを開発する機会を提供する。
現在のアプローチが難聴に関連する音声パターンや外的要因に依存しているかどうかは不明である。
- 参考スコア(独自算出の注目度): 4.377743737361995
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automating dysarthria assessments offers the opportunity to develop
effective, low-cost tools that address the current limitations of manual and
subjective assessments. Nonetheless, it is unclear whether current approaches
rely on dysarthria-related speech patterns or external factors. We aim toward
obtaining a clearer understanding of dysarthria patterns. To this extent, we
study the effects of noise in recordings, both through addition and reduction.
We design and implement a new method for visualizing and comparing feature
extractors and models, at a patient level, in a more interpretable way. We use
the UA-Speech dataset with a speaker-based split of the dataset. Results
reported in the literature appear to have been done irrespective of such split,
leading to models that may be overconfident due to data-leakage. We hope that
these results raise awareness in the research community regarding the
requirements for establishing reliable automatic dysarthria assessment systems.
- Abstract(参考訳): 変形評価の自動化は、手動および主観的評価の現在の限界に対処する効果的な低コストツールを開発する機会を提供する。
それにもかかわらず、現在のアプローチが難聴に関連する音声パターンや外部要因に依存しているかどうかは不明である。
我々は、ジステリアパターンのより明確な理解を得ることを目指している。
本研究では,録音における雑音の影響について,加算と低減の両面から検討する。
我々は,患者レベルで特徴抽出器とモデルをより解釈可能な方法で可視化・比較する新しい手法を設計し,実装する。
UA-Speechデータセットと話者ベースのデータセット分割を用いる。
文献で報告された結果は、そのような分割に拘わらず行われたようで、データ漏洩により過信される可能性があるモデルに繋がる。
我々は,これらの結果が,信頼性の高い自動脱臼評価システム構築の要件に関する研究コミュニティの意識を高めることを願っている。
関連論文リスト
- Towards objective and interpretable speech disorder assessment: a comparative analysis of CNN and transformer-based models [7.774205081900019]
頭頸部癌(HNC)は、患者の発話能力に大きな影響を与え、生活の質に影響を及ぼす。
本研究では,HNC患者を対象とした音声分類のための自己教師型Wav2Vec2モデルを提案する。
論文 参考訳(メタデータ) (2024-06-07T08:51:52Z) - Speaker-Independent Dysarthria Severity Classification using
Self-Supervised Transformers and Multi-Task Learning [2.7706924578324665]
本研究では, 生音声データから難聴度を自動的に評価するトランスフォーマーに基づく枠組みを提案する。
話者非依存型遅発性重度分類のための多タスク学習目標とコントラスト学習を組み込んだ,話者非依存型遅発性正規化(SALR)と呼ばれるフレームワークを開発した。
我々のモデルは従来の機械学習手法よりも優れた性能を示し、精度は70.48%$、F1スコアは59.23%$である。
論文 参考訳(メタデータ) (2024-02-29T18:30:52Z) - Analysing the Impact of Audio Quality on the Use of Naturalistic
Long-Form Recordings for Infant-Directed Speech Research [62.997667081978825]
早期言語習得のモデリングは、幼児が言語スキルをブートストラップする方法を理解することを目的としている。
近年の進歩により、より自然主義的なトレーニングデータを計算モデルに利用できるようになった。
音質がこれらのデータに対する分析やモデリング実験にどう影響するかは、現時点では不明である。
論文 参考訳(メタデータ) (2023-05-03T08:25:37Z) - Leveraging Pretrained Representations with Task-related Keywords for
Alzheimer's Disease Detection [69.53626024091076]
アルツハイマー病(AD)は高齢者に特に顕著である。
事前学習モデルの最近の進歩は、AD検出モデリングを低レベル特徴から高レベル表現にシフトさせる動機付けとなっている。
本稿では,高レベルの音響・言語的特徴から,より優れたAD関連手がかりを抽出する,いくつかの効率的な手法を提案する。
論文 参考訳(メタデータ) (2023-03-14T16:03:28Z) - Automatic Severity Classification of Dysarthric speech by using
Self-supervised Model with Multi-task Learning [4.947423926765435]
マルチタスク学習と連動した自己教師付きモデルを用いて,変形性音声の自動重大度評価手法を提案する。
Wav2vec 2.0 XLS-Rは重度分類と補助的自動音声認識(ASR)の2つのタスクで訓練される
本モデルでは,F1スコアの相対値が1.25%増加し,従来のベースライン法よりも優れていた。
論文 参考訳(メタデータ) (2022-10-27T12:48:10Z) - Exploring linguistic feature and model combination for speech
recognition based automatic AD detection [61.91708957996086]
音声ベースの自動ADスクリーニングシステムは、他の臨床スクリーニング技術に代わる非侵襲的でスケーラブルな代替手段を提供する。
専門的なデータの収集は、そのようなシステムを開発する際に、モデル選択と特徴学習の両方に不確実性をもたらす。
本稿では,BERT と Roberta の事前学習したテキストエンコーダのドメイン微調整の堅牢性向上のための特徴とモデルの組み合わせ手法について検討する。
論文 参考訳(メタデータ) (2022-06-28T05:09:01Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z) - Speech Detection For Child-Clinician Conversations In Danish For
Low-Resource In-The-Wild Conditions: A Case Study [6.4461798613033405]
デンマーク語における幼児・子どもの会話からなるデータセット上で,事前学習した音声モデルの性能について検討した。
その結果, 既定分類閾値のモデルでは, 患者集団の子どもに悪影響を及ぼすことが判明した。
本研究は,3分間のクリニック・チャイルド・会話が最適分類閾値を得るのに十分であることを示す。
論文 参考訳(メタデータ) (2022-04-25T10:51:54Z) - An Exploration of Self-Supervised Pretrained Representations for
End-to-End Speech Recognition [98.70304981174748]
本稿では,事前訓練された音声表現の一般応用,高度なエンドツーエンド自動音声認識(E2E-ASR)モデルに焦点をあてる。
いくつかの事前訓練された音声表現を選択し、E2E-ASRのための様々なオープンソースおよび公開コーパスの実験結果を示す。
論文 参考訳(メタデータ) (2021-10-09T15:06:09Z) - Distantly-Supervised Named Entity Recognition with Noise-Robust Learning
and Language Model Augmented Self-Training [66.80558875393565]
遠距離ラベル付きデータのみを用いて、名前付きエンティティ認識(NER)モデルを訓練する際の課題について検討する。
本稿では,新しい損失関数と雑音ラベル除去ステップからなるノイズロスバスト学習手法を提案する。
提案手法は,既存の遠隔教師付きNERモデルよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2021-09-10T17:19:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。