論文の概要: Reproducible Machine Learning-based Voice Pathology Detection: Introducing the Pitch Difference Feature
- arxiv url: http://arxiv.org/abs/2410.10537v1
- Date: Mon, 14 Oct 2024 14:17:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-29 21:05:04.648211
- Title: Reproducible Machine Learning-based Voice Pathology Detection: Introducing the Pitch Difference Feature
- Title(参考訳): Reproducible Machine Learning-based Voice Pathology Detection: Introducing the Pitch difference Feature
- Authors: Jan Vrba, Jakub Steinbach, Tomáš Jirsa, Laura Verde, Roberta De Fazio, Noriyasu Homma, Yuwen Zeng, Key Ichiji, Lukáš Hájek, Zuzana Sedláková, Jan Mareš,
- Abstract要約: 本稿では,音声病理診断における現代的実践の徹底的な研究から得られた,ロバストな特徴セットを提案する。
K-Means Synthetic Minority Over-Sampling Technique(K-Means Synthetic Over-Sampling Technique)アルゴリズムを用いて,Sarbr"ucken Voice Database(SVD)のデータを含むこの機能セットを組み合わせる。
提案手法は,音声病理診断における非重み付き平均リコールによって測定された最先端の性能を達成している。
- 参考スコア(独自算出の注目度): 1.1455937444848385
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this study, we propose a robust set of features derived from a thorough research of contemporary practices in voice pathology detection. The feature set is based on the combination of acoustic handcrafted features. Additionally, we introduce pitch difference as a novel feature. We combine this feature set, containing data from the publicly available Saarbr\"ucken Voice Database (SVD), with preprocessing using the K-Means Synthetic Minority Over-Sampling Technique algorithm to address class imbalance. Moreover, we applied multiple ML models as binary classifiers. We utilized support vector machine, k-nearest neighbors, naive Bayes, decision tree, random forest and AdaBoost classifiers. To determine the best classification approach, we performed grid search on feasible hyperparameters of respective classifiers and subsections of features. Our approach has achieved the state-of-the-art performance, measured by unweighted average recall in voice pathology detection on SVD database. We intentionally omit accuracy as it is highly biased metric in case of unbalanced data compared to aforementioned metrics. The results are further enhanced by eliminating the potential overestimation of the results with repeated stratified cross-validation. This advancement demonstrates significant potential for the clinical deployment of ML methods, offering a valuable tool for an objective examination of voice pathologies. To support our claims, we provide a publicly available GitHub repository with DOI 10.5281/zenodo.13771573. Finally, we provide REFORMS checklist.
- Abstract(参考訳): 本研究では,音声病理診断における現代的実践の徹底的な研究から得られた,ロバストな特徴セットを提案する。
特徴セットは、音響的手作りの特徴の組み合わせに基づいている。
さらに,新しい特徴としてピッチ差を導入する。
K-Means Synthetic Minority Over-Sampling Technique(K-Means Synthetic Over-Sampling Technique)アルゴリズムを用いて,クラス不均衡に対処する。
さらに,複数のMLモデルをバイナリ分類器として適用した。
我々は,サポートベクターマシン,k-ネアレスト隣人,ナイーブベイズ,決定木,ランダム林,AdaBoost分類器を利用した。
最良分類法を決定するために,各分類器の可能なハイパーパラメータと特徴のサブセクションのグリッドサーチを行った。
本手法は,SVDデータベースにおける音声病理診断において,非重み付き平均リコールによって測定された最先端の性能を達成している。
上記の指標と比較すると、不均衡なデータの場合、非常に偏りのある指標であるため、意図的に精度を省略する。
さらに, 層状交叉検証を繰り返す結果の潜在的過大評価を排除して, 結果をさらに強化する。
この進歩はML法の臨床的展開に有意義な可能性を示しており、声道の客観的検査に有用なツールである。
クレームをサポートするため、DOI 10.5281/zenodo.13771573で公開されているGitHubリポジトリを提供しています。
最後に、REFORMSチェックリストを提供します。
関連論文リスト
- AFEN: Respiratory Disease Classification using Ensemble Learning [2.524195881002773]
本稿では、畳み込みニューラルネットワーク(CNN)とXGBoostを利用するモデルであるAFEN(Audio Feature Learning)を提案する。
我々は、データの健全な属性を提供し、正確な分類を可能にする、巧妙に選択されたオーディオ特徴の組み合わせを使用する。
AFENがPrecisionとRecallをメトリクスとして利用し、トレーニング時間を60%削減し、新たな最先端技術の設定を実証的に検証した。
論文 参考訳(メタデータ) (2024-05-08T23:50:54Z) - Speaker-Independent Dysarthria Severity Classification using
Self-Supervised Transformers and Multi-Task Learning [2.7706924578324665]
本研究では, 生音声データから難聴度を自動的に評価するトランスフォーマーに基づく枠組みを提案する。
話者非依存型遅発性重度分類のための多タスク学習目標とコントラスト学習を組み込んだ,話者非依存型遅発性正規化(SALR)と呼ばれるフレームワークを開発した。
我々のモデルは従来の機械学習手法よりも優れた性能を示し、精度は70.48%$、F1スコアは59.23%$である。
論文 参考訳(メタデータ) (2024-02-29T18:30:52Z) - Detecting Speech Abnormalities with a Perceiver-based Sequence
Classifier that Leverages a Universal Speech Model [4.503292461488901]
いくつかの神経疾患の音声反射異常を検出するPerceiver-based sequenceを提案する。
このシーケンスとUniversal Speech Model (USM)を組み合わせ、1200万時間に及ぶ多様な音声録音をトレーニング(教師なし)する。
我々のモデルは標準変圧器 (80.9%) および知覚器 (81.8%) モデルより優れ、平均精度は83.1%である。
論文 参考訳(メタデータ) (2023-10-16T21:07:12Z) - Intra-class Adaptive Augmentation with Neighbor Correction for Deep
Metric Learning [99.14132861655223]
深層学習のためのクラス内適応拡張(IAA)フレームワークを提案する。
クラスごとのクラス内変動を合理的に推定し, 適応型合成試料を生成し, 硬質試料の採掘を支援する。
本手法は,検索性能の最先端手法を3%~6%向上させる。
論文 参考訳(メタデータ) (2022-11-29T14:52:38Z) - Deep Feature Learning for Medical Acoustics [78.56998585396421]
本研究の目的は,医療音響の課題における学習内容の比較である。
ヒトの呼吸音と心臓の鼓動を健康的または病態の影響の2つのカテゴリに分類する枠組みが実装されている。
論文 参考訳(メタデータ) (2022-08-05T10:39:37Z) - Decision Forest Based EMG Signal Classification with Low Volume Dataset
Augmented with Random Variance Gaussian Noise [51.76329821186873]
我々は6種類の手振りを限定的なサンプル数で分類できるモデルを作成し、より広い聴衆によく一般化する。
信号のランダムなバウンドの使用など、より基本的な手法のセットにアピールするが、これらの手法がオンライン環境で持てる力を示したいと考えている。
論文 参考訳(メタデータ) (2022-06-29T23:22:18Z) - Robust Meta-learning with Sampling Noise and Label Noise via
Eigen-Reptile [78.1212767880785]
Meta-learnerは、利用可能なサンプルがわずかしかないため、過度に適合する傾向がある。
ノイズの多いラベルでデータを扱う場合、メタラーナーはラベルノイズに対して非常に敏感になる可能性がある。
本稿では,タスク固有のパラメータの主要な方向でメタパラメータを更新するEigen-Reptile(ER)を提案する。
論文 参考訳(メタデータ) (2022-06-04T08:48:02Z) - Prototypical Classifier for Robust Class-Imbalanced Learning [64.96088324684683]
埋め込みネットワークに付加的なパラメータを必要としないtextitPrototypealを提案する。
プロトタイプは、訓練セットがクラス不均衡であるにもかかわらず、すべてのクラスに対してバランスと同等の予測を生成する。
我々は, CIFAR-10LT, CIFAR-100LT, Webvision のデータセットを用いて, プロトタイプが芸術の状況と比較した場合, サブスタンスの改善が得られることを検証した。
論文 参考訳(メタデータ) (2021-10-22T01:55:01Z) - Visualizing Classifier Adjacency Relations: A Case Study in Speaker
Verification and Voice Anti-Spoofing [72.4445825335561]
任意のバイナリ分類器によって生成される検出スコアから2次元表現を導出する簡単な方法を提案する。
ランク相関に基づいて,任意のスコアを用いた分類器の視覚的比較を容易にする。
提案手法は完全に汎用的であり,任意の検出タスクに適用可能だが,自動話者検証と音声アンチスプーフィングシステムによるスコアを用いた手法を実証する。
論文 参考訳(メタデータ) (2021-06-11T13:03:33Z) - Machine Learning Based on Natural Language Processing to Detect Cardiac
Failure in Clinical Narratives [0.2936007114555107]
この研究の目的は、患者が心不全または健康な状態を有するかどうかを自動的に検出する機械学習アルゴリズムを開発することである。
bag-of-word (BoW), term frequency inverse document frequency (TFIDF), and neural word embeddeddings (word2vec) を用いて単語表現学習を行った。
提案されたフレームワークは、ac、pre、rec、f1がそれぞれ84%、82%、85%、83%の全体的な分類性能を達成した。
論文 参考訳(メタデータ) (2021-04-08T17:28:43Z) - Data augmentation using generative networks to identify dementia [20.137419355252362]
生成モデルはデータ拡張の効果的なアプローチとして利用できることを示す。
本稿では,認知症自動検出システムから抽出した音声と音声の異なる特徴に対する類似したアプローチの適用について検討する。
論文 参考訳(メタデータ) (2020-04-13T15:05:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。