論文の概要: Towards objective and interpretable speech disorder assessment: a comparative analysis of CNN and transformer-based models
- arxiv url: http://arxiv.org/abs/2406.07576v1
- Date: Fri, 7 Jun 2024 08:51:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-13 21:45:26.485647
- Title: Towards objective and interpretable speech disorder assessment: a comparative analysis of CNN and transformer-based models
- Title(参考訳): 客観的・解釈可能な言語障害評価に向けて--CNNとトランスフォーマーモデルの比較分析
- Authors: Malo Maisonneuve, Corinne Fredouille, Muriel Lalain, Alain Ghio, Virginie Woisard,
- Abstract要約: 頭頸部癌(HNC)は、患者の発話能力に大きな影響を与え、生活の質に影響を及ぼす。
本研究では,HNC患者を対象とした音声分類のための自己教師型Wav2Vec2モデルを提案する。
- 参考スコア(独自算出の注目度): 7.774205081900019
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Head and Neck Cancers (HNC) significantly impact patients' ability to speak, affecting their quality of life. Commonly used metrics for assessing pathological speech are subjective, prompting the need for automated and unbiased evaluation methods. This study proposes a self-supervised Wav2Vec2-based model for phone classification with HNC patients, to enhance accuracy and improve the discrimination of phonetic features for subsequent interpretability purpose. The impact of pre-training datasets, model size, and fine-tuning datasets and parameters are explored. Evaluation on diverse corpora reveals the effectiveness of the Wav2Vec2 architecture, outperforming a CNN-based approach, used in previous work. Correlation with perceptual measures also affirms the model relevance for impaired speech analysis. This work paves the way for better understanding of pathological speech with interpretable approaches for clinicians, by leveraging complex self-learnt speech representations.
- Abstract(参考訳): 頭頸部癌(HNC)は、患者の発話能力に大きな影響を与え、生活の質に影響を及ぼす。
病的音声を評価するのによく使われる指標は主観的であり、自動的かつ偏見のない評価方法の必要性を喚起する。
本研究では,HNC患者を対象とした音声分類のための自己教師型Wav2Vec2モデルを提案する。
事前トレーニングデータセット、モデルサイズ、微調整データセットとパラメータの影響について検討する。
多様なコーパスの評価は、以前の研究で使われたCNNベースのアプローチよりも優れている、Wav2Vec2アーキテクチャの有効性を明らかにする。
知覚的尺度との相関は、障害音声分析におけるモデル関連性も確認する。
本研究は, 複雑な自己学習型音声表現を活用することによって, 臨床医に対する解釈可能なアプローチで, 病的音声の理解を深める道を開くものである。
関連論文リスト
- Exploring ASR-Based Wav2Vec2 for Automated Speech Disorder Assessment: Insights and Analysis [7.567181073057191]
Wav2Vec2 ASRベースのモデルは、自動音声認識品質評価タスクのために微調整されている。
本稿では,音声品質評価のためのベースラインモデルの最初の解析を行い,知能度と重大度タスクに着目した。
論文 参考訳(メタデータ) (2024-10-10T13:12:17Z) - Robust and Interpretable Medical Image Classifiers via Concept
Bottleneck Models [49.95603725998561]
本稿では,自然言語の概念を用いた堅牢で解釈可能な医用画像分類器を構築するための新しいパラダイムを提案する。
具体的には、まず臨床概念をGPT-4から検索し、次に視覚言語モデルを用いて潜在画像の特徴を明示的な概念に変換する。
論文 参考訳(メタデータ) (2023-10-04T21:57:09Z) - Automatically measuring speech fluency in people with aphasia: first
achievements using read-speech data [55.84746218227712]
本研究の目的は,言語習得の分野で開発された信号処理algorithmの関連性を評価することである。
論文 参考訳(メタデータ) (2023-08-09T07:51:40Z) - A study on the impact of Self-Supervised Learning on automatic dysarthric speech assessment [6.284142286798582]
以上の結果から,HuBERTは難聴分類,単語認識,インテリジェンス分類において最も汎用性の高い特徴抽出器であり,従来の音響特徴と比較して,それぞれ+24.7%,+61%,テキストおよび+7.2%の精度を実現していることがわかった。
論文 参考訳(メタデータ) (2023-06-07T11:04:02Z) - Ontology-aware Learning and Evaluation for Audio Tagging [56.59107110017436]
平均平均精度(mAP)は、異なる種類の音をそれらの関係を考慮せずに独立したクラスとして扱う。
オントロジー認識平均平均精度(OmAP)は、評価中にAudioSetオントロジー情報を利用することで、mAPの弱点に対処する。
我々は人間の評価を行い、OmAPはmAPよりも人間の知覚と一致していることを示した。
論文 参考訳(メタデータ) (2022-11-22T11:35:14Z) - Benchmarking Heterogeneous Treatment Effect Models through the Lens of
Interpretability [82.29775890542967]
治療のパーソナライズされた効果を見積もるのは複雑だが、普及している問題である。
ヘテロジニアス処理効果推定に関する機械学習文献の最近の進歩は、洗練されたが不透明なツールの多くを生み出した。
我々は、ポストホックな特徴重要度法を用いて、モデルの予測に影響を及ぼす特徴を特定する。
論文 参考訳(メタデータ) (2022-06-16T17:59:05Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z) - Speech Detection For Child-Clinician Conversations In Danish For
Low-Resource In-The-Wild Conditions: A Case Study [6.4461798613033405]
デンマーク語における幼児・子どもの会話からなるデータセット上で,事前学習した音声モデルの性能について検討した。
その結果, 既定分類閾値のモデルでは, 患者集団の子どもに悪影響を及ぼすことが判明した。
本研究は,3分間のクリニック・チャイルド・会話が最適分類閾値を得るのに十分であることを示す。
論文 参考訳(メタデータ) (2022-04-25T10:51:54Z) - Disentangled Latent Speech Representation for Automatic Pathological
Intelligibility Assessment [10.93598143328628]
そこで本研究では,無拘束音声表現が病的音声の明瞭度自動評価に有効であることを示す。
以上の結果から,解離した音声表現が病的音声の明瞭度の自動評価に有効であることが示された。
論文 参考訳(メタデータ) (2022-04-08T12:02:14Z) - Semi-Supervised Variational Reasoning for Medical Dialogue Generation [70.838542865384]
医療対話生成には,患者の状態と医師の行動の2つの重要な特徴がある。
医療対話生成のためのエンドツーエンドの変分推論手法を提案する。
行動分類器と2つの推論検出器から構成される医師政策ネットワークは、拡張推論能力のために提案される。
論文 参考訳(メタデータ) (2021-05-13T04:14:35Z) - Comparison of Speaker Role Recognition and Speaker Enrollment Protocol
for conversational Clinical Interviews [9.728371067160941]
エンドツーエンドのニューラルネットワークアーキテクチャをトレーニングし、各タスクに適応し、各アプローチを同じメトリクスで評価します。
結果は面接者の人口統計にも依存せず,その臨床的意義を浮き彫りにした。
論文 参考訳(メタデータ) (2020-10-30T09:07:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。