論文の概要: Automatically measuring speech fluency in people with aphasia: first
achievements using read-speech data
- arxiv url: http://arxiv.org/abs/2308.04763v1
- Date: Wed, 9 Aug 2023 07:51:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-10 14:41:43.686367
- Title: Automatically measuring speech fluency in people with aphasia: first
achievements using read-speech data
- Title(参考訳): 失語症患者の発話流速自動計測:読み上げ音声データを用いた最初の成果
- Authors: Lionel Fontan, Typhanie Prince (Praxiling, LNPL), Aleksandra
Nowakowska (Praxiling), Halima Sahraoui (LNPL), Silvia Martinez-Ferreiro
- Abstract要約: 本研究の目的は,言語習得の分野で開発された信号処理algorithmの関連性を評価することである。
- 参考スコア(独自算出の注目度): 55.84746218227712
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Background: Speech and language pathologists (SLPs) often relyon judgements
of speech fluency for diagnosing or monitoringpatients with aphasia. However,
such subjective methods havebeen criticised for their lack of reliability and
their clinical cost interms of time. Aims: This study aims at assessing the
relevance of a signalprocessingalgorithm, initially developed in the field of
language acquisition, for the automatic measurement of speech fluency in people
with aphasia (PWA). Methods & Procedures: Twenty-nine PWA and five control
participantswere recruited via non-profit organizations and SLP networks. All
participants were recorded while reading out loud a set ofsentences taken from
the French version of the Boston Diagnostic Aphasia Examination. Three trained
SLPs assessed the fluency of each sentence on a five-point qualitative scale. A
forward-backward divergence segmentation and a clustering algorithm were used
to compute, for each sentence, four automatic predictors of speech fluency:
pseudo-syllable rate, speech ratio, rate of silent breaks, and standard
deviation of pseudo-syllable length. The four predictors were finally combined
into multivariate regression models (a multiplelinear regression - MLR, and two
non-linear models) to predict the average SLP ratings of speech fluency, using
a leave-one speaker-out validation scheme. Outcomes & Results: All models
achieved accurate predictions of speech fluency ratings, with average
root-mean-square errors as low as 0.5. The MLR yielded a correlation
coefficient of 0.87 with reference ratings at the sentence level, and of 0.93
when aggregating the data for each participant. The inclusion of an additional
predictor sensitive to repetitions improved further the predictions with a
correlation coefficient of 0.91 at the sentence level, and of 0.96 at the
participant level. Conclusions: The algorithms used in this study can
constitute a cost-effective and reliable tool for the assessment of the speech
fluency of patients with aphasia in read-aloud tasks. Perspectives for the
assessment of spontaneous speech are discussed.
- Abstract(参考訳): 背景: 言語病理医 (SLPs) は, 失語症患者の診断やモニタリングに, 発話流布の判断に依存することが多い。
しかし、そのような主観的手法は、信頼性の欠如と臨床費用の長期化を批判している。
目的: 本研究は, 失語症患者(pwa)の発声フラレンシ自動測定のための, 言語習得の分野で開発されたsignalprocessingalgorithmの妥当性を評価することを目的とした。
方法と手続き:20のPWAと5人の管理参加者が非営利組織やSLPネットワークを通じて採用されている。
参加者全員が、フランス語版ボストン診断失語症検査(英語版)から採取した文章を大声で読み上げながら録音された。
3つの訓練されたSLPは5点定性尺度で各文の流速を評価した。
前向きの発散分節とクラスタリングアルゴリズムを用いて、各文に対して、擬音節率、発声率、サイレントブレイク率、擬音節長の標準偏差の4つの自動予測器を計算した。
4つの予測器を多変量回帰モデル(多重線形回帰 - MLR と 2 つの非線形回帰モデル)に結合し,音声流速の平均SLP 評価を1話者アウト検証方式を用いて予測した。
結果と結果: 平均根平均二乗誤差は0.5。
mlrは、文章レベルでの基準格付けと相関係数 0.87 と、参加者毎のデータ集約時 0.93 とを算出した。
繰り返しに敏感な追加予測器の導入により、文レベルでは0.91、参加者レベルでは0.96の相関係数による予測がさらに向上した。
結論: 本研究で用いたアルゴリズムは, 読解課題における失語症患者の発話フラレンシーを評価するための費用対効果と信頼性を高めることができる。
自然発話の評価の展望について述べる。
関連論文リスト
- Detecting Speech Abnormalities with a Perceiver-based Sequence
Classifier that Leverages a Universal Speech Model [4.503292461488901]
いくつかの神経疾患の音声反射異常を検出するPerceiver-based sequenceを提案する。
このシーケンスとUniversal Speech Model (USM)を組み合わせ、1200万時間に及ぶ多様な音声録音をトレーニング(教師なし)する。
我々のモデルは標準変圧器 (80.9%) および知覚器 (81.8%) モデルより優れ、平均精度は83.1%である。
論文 参考訳(メタデータ) (2023-10-16T21:07:12Z) - Phonetic and Prosody-aware Self-supervised Learning Approach for
Non-native Fluency Scoring [13.817385516193445]
音声と韻律の特徴を解析することにより、音声の流速/拡散を評価することができる。
ディープ・ニューラル・ネットワークは一般に、流感に関連した特徴を人間のスコアにマッピングするように訓練されている。
本稿では,流音評価のための音声と韻律の認識を考慮した自己教師付き学習(SSL)手法を提案する。
論文 参考訳(メタデータ) (2023-05-19T05:39:41Z) - Ontology-aware Learning and Evaluation for Audio Tagging [56.59107110017436]
平均平均精度(mAP)は、異なる種類の音をそれらの関係を考慮せずに独立したクラスとして扱う。
オントロジー認識平均平均精度(OmAP)は、評価中にAudioSetオントロジー情報を利用することで、mAPの弱点に対処する。
我々は人間の評価を行い、OmAPはmAPよりも人間の知覚と一致していることを示した。
論文 参考訳(メタデータ) (2022-11-22T11:35:14Z) - Disentangled Latent Speech Representation for Automatic Pathological
Intelligibility Assessment [10.93598143328628]
そこで本研究では,無拘束音声表現が病的音声の明瞭度自動評価に有効であることを示す。
以上の結果から,解離した音声表現が病的音声の明瞭度の自動評価に有効であることが示された。
論文 参考訳(メタデータ) (2022-04-08T12:02:14Z) - On-the-Fly Feature Based Rapid Speaker Adaptation for Dysarthric and
Elderly Speech Recognition [53.17176024917725]
話者レベルのデータの共有化は、データ集約型モデルに基づく話者適応手法の実用的利用を制限する。
本稿では,2種類のデータ効率,特徴量に基づくオンザフライ話者適応手法を提案する。
論文 参考訳(メタデータ) (2022-03-28T09:12:24Z) - Prediction of Depression Severity Based on the Prosodic and Semantic
Features with Bidirectional LSTM and Time Distributed CNN [14.994852548758825]
抑うつ予測のための注意に基づくマルチモーダリティ音声とテキスト表現を提案する。
本モデルは,OzデータセットのDistress Analysis Interview Corpus-Wizardを用いて,参加者のうつ病重症度を推定するために訓練された。
実験では、過去の研究よりも統計的に有意な改善が見られた。
論文 参考訳(メタデータ) (2022-02-25T01:42:29Z) - Continuous Speech for Improved Learning Pathological Voice Disorders [12.867900671251395]
本研究では,単一母音の代わりに連続マンダリン音声を用いて4つの共通音声障害を分類する手法を提案する。
提案手法では, 音響信号をメル周波数ケプストラム係数に変換し, 双方向長周期メモリネットワーク(BiLSTM)を採用して, 逐次的特徴をモデル化する。
論文 参考訳(メタデータ) (2022-02-22T09:58:31Z) - Investigation of Data Augmentation Techniques for Disordered Speech
Recognition [69.50670302435174]
本稿では,不規則音声認識のための一連のデータ拡張手法について検討する。
正常な音声と無秩序な音声の両方が増強過程に利用された。
UASpeechコーパスを用いた最終話者適応システムと、最大2.92%の絶対単語誤り率(WER)の速度摂動に基づく最良の拡張アプローチ
論文 参考訳(メタデータ) (2022-01-14T17:09:22Z) - Self-Normalized Importance Sampling for Neural Language Modeling [97.96857871187052]
本研究では, 自己正規化重要度サンプリングを提案し, これまでの研究と比較すると, 本研究で考慮された基準は自己正規化されており, さらに修正を行う必要はない。
提案する自己正規化重要度サンプリングは,研究指向と生産指向の両方の自動音声認識タスクにおいて競合することを示す。
論文 参考訳(メタデータ) (2021-11-11T16:57:53Z) - NUVA: A Naming Utterance Verifier for Aphasia Treatment [49.114436579008476]
失語症(PWA)患者の治療介入に対する反応の診断とモニタリングの両立のための画像命名タスクを用いた音声性能評価
本稿では,失語症脳卒中患者の「正しい」と「正しくない」を分類する深層学習要素を組み込んだ発話検証システムであるNUVAについて述べる。
イギリス系英語8ヶ国語でのテストでは、システムの性能精度は83.6%から93.6%の範囲であり、10倍のクロスバリデーション平均は89.5%であった。
論文 参考訳(メタデータ) (2021-02-10T13:00:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。