論文の概要: A Comprehensive Rubric for Annotating Pathological Speech
- arxiv url: http://arxiv.org/abs/2404.18851v1
- Date: Mon, 29 Apr 2024 16:44:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-30 12:58:45.678554
- Title: A Comprehensive Rubric for Annotating Pathological Speech
- Title(参考訳): 病的音声に注釈を付けるための包括的ルーブリック
- Authors: Mario Corrales-Astorgano, David Escudero-Mancebo, Lourdes Aguilar, Valle Flores-Lucas, Valentín Cardeñoso-Payo, Carlos Vivaracho-Pascual, César González-Ferreras,
- Abstract要約: 音声学, 流音学, 韻律学など, 音声品質の様々な側面に基づく包括的ルーリックを導入する。
本研究の目的は,ダウン症候群患者の発話中の誤りを識別するための標準化基準を確立することである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Rubrics are a commonly used tool for labeling voice corpora in speech quality assessment, although their application in the context of pathological speech remains relatively limited. In this study, we introduce a comprehensive rubric based on various dimensions of speech quality, including phonetics, fluency, and prosody. The objective is to establish standardized criteria for identifying errors within the speech of individuals with Down syndrome, thereby enabling the development of automated assessment systems. To achieve this objective, we utilized the Prautocal corpus. To assess the quality of annotations using our rubric, two experiments were conducted, focusing on phonetics and fluency. For phonetic evaluation, we employed the Goodness of Pronunciation (GoP) metric, utilizing automatic segmentation systems and correlating the results with evaluations conducted by a specialized speech therapist. While the obtained correlation values were not notably high, a positive trend was observed. In terms of fluency assessment, deep learning models like wav2vec were used to extract audio features, and we employed an SVM classifier trained on a corpus focused on identifying fluency issues to categorize Prautocal corpus samples. The outcomes highlight the complexities of evaluating such phenomena, with variability depending on the specific type of disfluency detected.
- Abstract(参考訳): ルーブリックは声質評価において音声コーパスをラベル付けするための一般的なツールであるが、その病態的音声の文脈における応用は比較的限られている。
本研究では, 音韻, 流音, 韻律など, 音声品質の様々な次元に基づく包括的ルーリックについて紹介する。
本研究の目的は,ダウン症候群患者の発話中の誤りを識別するための基準を標準化し,自動評価システムの開発を可能にすることである。
この目的を達成するために,我々はPrautocal corpusを利用した。
本報では, 音韻と流音に着目し, 注釈の質を評価するために2つの実験を行った。
音韻的評価にはGoodness of Pronunciation(GoP)測定を用い,自動区分けシステムを利用して,専門的な音声セラピストによる評価と相関した。
相関値は顕著に高くなかったが, 正の傾向がみられた。
流速評価では,wav2vecのような深層学習モデルを用いて音声特徴を抽出し,流速問題を特定することを目的としたSVM分類器を用いて,Prautocal corpusサンプルを分類した。
これらの結果は, 検出された特定の拡散の種類によって変動が変化する, このような現象を評価する複雑さを浮き彫りにしている。
関連論文リスト
- Self-supervised Speech Models for Word-Level Stuttered Speech Detection [66.46810024006712]
自己教師付き音声モデルを利用した単語レベルの発声音声検出モデルを提案する。
本評価は, 単語レベルの発声検出において, 従来の手法を超越していることを示す。
論文 参考訳(メタデータ) (2024-09-16T20:18:20Z) - Lightly Weighted Automatic Audio Parameter Extraction for the Quality
Assessment of Consensus Auditory-Perceptual Evaluation of Voice [18.8222742272435]
提案手法は, ジッタ, 絶対ジッタ, シャマー, ハーモニック・ツー・ノイズ比 (HNR) , ゼロクロスという, 年齢, 性別, および5つの音響パラメータを利用する。
その結果,提案手法は最先端技術(SOTA)手法と類似し,一般的な音声事前学習モデルを用いて得られた潜在表現よりも優れることがわかった。
論文 参考訳(メタデータ) (2023-11-27T07:19:22Z) - Automatically measuring speech fluency in people with aphasia: first
achievements using read-speech data [55.84746218227712]
本研究の目的は,言語習得の分野で開発された信号処理algorithmの関連性を評価することである。
論文 参考訳(メタデータ) (2023-08-09T07:51:40Z) - Ontology-aware Learning and Evaluation for Audio Tagging [56.59107110017436]
平均平均精度(mAP)は、異なる種類の音をそれらの関係を考慮せずに独立したクラスとして扱う。
オントロジー認識平均平均精度(OmAP)は、評価中にAudioSetオントロジー情報を利用することで、mAPの弱点に対処する。
我々は人間の評価を行い、OmAPはmAPよりも人間の知覚と一致していることを示した。
論文 参考訳(メタデータ) (2022-11-22T11:35:14Z) - Consultation Checklists: Standardising the Human Evaluation of Medical
Note Generation [58.54483567073125]
本稿では,コンサルテーションチェックリストの評価を基礎として,客観性向上を目的としたプロトコルを提案する。
このプロトコルを用いた最初の評価研究において,アノテータ間合意の良好なレベルを観察した。
論文 参考訳(メタデータ) (2022-11-17T10:54:28Z) - The Far Side of Failure: Investigating the Impact of Speech Recognition
Errors on Subsequent Dementia Classification [8.032686410648274]
自然発話で検出される言語異常は、認知障害などの認知障害のスクリーニングなど、様々な臨床応用の可能性を示唆している。
自己教師付き学習(SSL)自動音声認識(ASR)モデルにおいて,臨床環境から抽出した難解な音声サンプルでは,有意な性能が得られない。
我々の重要な発見の1つは、パラドックス的に、比較的高いエラー率を持つASRシステムは、動詞の文字起こしに基づく分類よりも、より下流の分類精度の高い転写文を生成できるということである。
論文 参考訳(メタデータ) (2022-11-11T17:06:45Z) - Disentangled Latent Speech Representation for Automatic Pathological
Intelligibility Assessment [10.93598143328628]
そこで本研究では,無拘束音声表現が病的音声の明瞭度自動評価に有効であることを示す。
以上の結果から,解離した音声表現が病的音声の明瞭度の自動評価に有効であることが示された。
論文 参考訳(メタデータ) (2022-04-08T12:02:14Z) - Multi-class versus One-class classifier in spontaneous speech analysis
oriented to Alzheimer Disease diagnosis [58.720142291102135]
本研究の目的は,音声信号から抽出した新しいバイオマーカーを用いて自動解析を行うことにより,ADの早期診断と重症度評価の改善に寄与することである。
外付け器とフラクタル次元の機能に関する情報を使用することで、システムの性能が向上する。
論文 参考訳(メタデータ) (2022-03-21T09:57:20Z) - Spectro-Temporal Deep Features for Disordered Speech Assessment and
Recognition [65.25325641528701]
音声スペクトルのSVD分解による深い特徴を埋め込んだ新しいスペクトル時空間ベースを提案する。
UASpeechコーパスで行った実験では、提案された分光時間深部特徴適応システムは、データ拡張の有無にかかわらず、ワードエラー率(WER)を最大263%(相対8.6%)削減することで、ベースラインi-適応を一貫して上回ったことが示唆された。
論文 参考訳(メタデータ) (2022-01-14T16:56:43Z) - Independent Ethical Assessment of Text Classification Models: A Hate
Speech Detection Case Study [0.5541644538483947]
人工知能システムの独立した倫理的評価は、倫理的価値に合わせてシステムの発達、展開、使用を公平に検証するものである。
本研究は、このギャップを埋め、ヘイトスピーチ検出の課題に特化して、テキスト分類モデルの総合的な独立した倫理的評価プロセスを設計する。
論文 参考訳(メタデータ) (2021-07-19T23:03:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。