論文の概要: Wav2vec-based Detection and Severity Level Classification of Dysarthria
from Speech
- arxiv url: http://arxiv.org/abs/2309.14107v2
- Date: Tue, 17 Oct 2023 13:38:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 20:27:36.308553
- Title: Wav2vec-based Detection and Severity Level Classification of Dysarthria
from Speech
- Title(参考訳): Wav2vecによる発声障害の検出と重症度分類
- Authors: Farhad Javanmardi, Saska Tirronen, Manila Kodali, Sudarsana Reddy
Kadiri, Paavo Alku
- Abstract要約: 事前訓練したwav2vec 2.0モデルは, 検出および重度分類システムを構築するための特徴抽出器として研究されている。
一般的なUA音声データベースを用いて実験を行った。
- 参考スコア(独自算出の注目度): 15.150153248025543
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic detection and severity level classification of dysarthria directly
from acoustic speech signals can be used as a tool in medical diagnosis. In
this work, the pre-trained wav2vec 2.0 model is studied as a feature extractor
to build detection and severity level classification systems for dysarthric
speech. The experiments were carried out with the popularly used UA-speech
database. In the detection experiments, the results revealed that the best
performance was obtained using the embeddings from the first layer of the
wav2vec model that yielded an absolute improvement of 1.23% in accuracy
compared to the best performing baseline feature (spectrogram). In the studied
severity level classification task, the results revealed that the embeddings
from the final layer gave an absolute improvement of 10.62% in accuracy
compared to the best baseline features (mel-frequency cepstral coefficients).
- Abstract(参考訳): 音響信号からのジステリアの自動検出と重症度レベルの分類は、医療診断のツールとして使用できる。
本研究では, 変形性関節症音声の重度レベル分類システムを構築するための特徴抽出器として, 事前訓練したwav2vec 2.0モデルについて検討した。
実験は広く使われているUA音声データベースを用いて行われた。
検出実験の結果,Wav2vecモデルの第1層からの埋め込みにより,最高性能の基準線特性(スペクトログラム)と比較して1.23%の精度向上が得られた。
その結果, 最終層からの埋め込みは, 最良基線特性 (メル周波数ケプストラル係数) と比較して, 絶対的に10.62%の精度向上が得られた。
関連論文リスト
- Interpretable Temporal Class Activation Representation for Audio Spoofing Detection [7.476305130252989]
我々は、wav2vec 2.0モデルと注意的発話レベルの特徴を利用して、解釈可能性を直接モデルのアーキテクチャに統合する。
ASVspoof 2019-LAセットのEERは0.51%、min t-DCFは0.0165である。
論文 参考訳(メタデータ) (2024-06-13T05:36:01Z) - A Few-Shot Approach to Dysarthric Speech Intelligibility Level
Classification Using Transformers [0.0]
発声障害(Dysarthria)は、言葉の発音が難しいことによるコミュニケーションを妨げる言語障害である。
文献の多くは、変形性音声に対するASRシステムの改善に焦点を当てている。
この研究は、変形の有無を正確に分類できるモデルを開発することを目的としている。
論文 参考訳(メタデータ) (2023-09-17T17:23:41Z) - Self-Supervised Pretraining Improves Performance and Inference
Efficiency in Multiple Lung Ultrasound Interpretation Tasks [65.23740556896654]
肺超音波検査における複数分類課題に適用可能なニューラルネットワーク特徴抽出器を,自己指導型プレトレーニングで作成できるかどうかを検討した。
3つの肺超音波のタスクを微調整すると、事前訓練されたモデルにより、各テストセットの受信操作曲線(AUC)における平均クロスタスク面積は、それぞれ0.032と0.061に改善された。
論文 参考訳(メタデータ) (2023-09-05T21:36:42Z) - Investigation of Self-supervised Pre-trained Models for Classification
of Voice Quality from Speech and Neck Surface Accelerometer Signals [27.398425786898223]
本研究では,音声品質の分類における音声とNSA信号の同時記録について検討した。
事前学習モデルの有効性は,音声入力とNSA入力の両方に対して,声門音源波形と生信号波形の特徴抽出において比較される。
論文 参考訳(メタデータ) (2023-08-06T23:16:54Z) - Low-complexity deep learning frameworks for acoustic scene
classification [64.22762153453175]
音響シーン分類(ASC)のための低複雑さ深層学習フレームワークを提案する。
提案するフレームワークは、フロントエンドのスペクトログラム抽出、オンラインデータ拡張、バックエンドの分類、予測される確率の後期融合の4つの主要なステップに分けることができる。
DCASE 2022 Task 1 Development データセットで実施した実験は,低複雑さの要求を十分に満たし,最も高い分類精度を 60.1% で達成した。
論文 参考訳(メタデータ) (2022-06-13T11:41:39Z) - Anomalous Sound Detection Using a Binary Classification Model and Class
Centroids [47.856367556856554]
本稿では, 正規データだけでなく, 他領域の外部データも擬似アノマラス音響データとして用いた二分分類モデルを提案する。
また,2値分類モデルをさらに改善するために,異常音データの追加の有効性についても検討した。
論文 参考訳(メタデータ) (2021-06-11T03:35:06Z) - Anomaly Detection in Cybersecurity: Unsupervised, Graph-Based and
Supervised Learning Methods in Adversarial Environments [63.942632088208505]
現在の運用環境に固有ののは、敵対的機械学習の実践である。
本研究では,教師なし学習とグラフに基づく異常検出の可能性を検討する。
我々は,教師付きモデルの訓練時に,現実的な対人訓練機構を組み込んで,対人環境における強力な分類性能を実現する。
論文 参考訳(メタデータ) (2021-05-14T10:05:10Z) - Audio feature ranking for sound-based COVID-19 patient detection [1.7188280334580195]
COVID-19は、低コストで非侵襲的でアクセス可能なオーディオ分類方法として登場しました。
重要な医療設定の厳格な信頼性と精度要件のため、公式使用の申請は承認されていません。
我々は、あまり知られていないものを含む15のオーディオ機能の調査とランキングを行った。
結果は2つの独立したCOVID-19サウンドデータセットで検証された。
論文 参考訳(メタデータ) (2021-04-14T21:06:20Z) - Improving Medical Image Classification with Label Noise Using
Dual-uncertainty Estimation [72.0276067144762]
医用画像における2種類のラベルノイズについて論じ,定義する。
医用画像分類作業中にこれら2つのラベルノイズを処理する不確実性推定に基づくフレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-28T14:56:45Z) - Capturing scattered discriminative information using a deep architecture
in acoustic scene classification [49.86640645460706]
本研究では,識別情報を捕捉し,同時に過度に適合する問題を緩和する様々な手法について検討する。
我々は、ディープニューラルネットワークにおける従来の非線形アクティベーションを置き換えるために、Max Feature Map法を採用する。
2つのデータ拡張方法と2つの深いアーキテクチャモジュールは、システムの過度な適合を減らし、差別的なパワーを維持するためにさらに検討されている。
論文 参考訳(メタデータ) (2020-07-09T08:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。