論文の概要: Reproducible Machine Learning-based Voice Pathology Detection: Introducing the Pitch Difference Feature
- arxiv url: http://arxiv.org/abs/2410.10537v2
- Date: Mon, 03 Feb 2025 12:57:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-04 16:05:57.093296
- Title: Reproducible Machine Learning-based Voice Pathology Detection: Introducing the Pitch Difference Feature
- Title(参考訳): Reproducible Machine Learning-based Voice Pathology Detection: Introducing the Pitch difference Feature
- Authors: Jan Vrba, Jakub Steinbach, Tomáš Jirsa, Laura Verde, Roberta De Fazio, Yuwen Zeng, Kei Ichiji, Lukáš Hájek, Zuzana Sedláková, Zuzana Urbániová, Martin Chovanec, Jan Mareš, Noriyasu Homma,
- Abstract要約: 本研究では,Sarbr"ucken Voice Database (SVD)データベースを用いた音声病理診断手法を提案する。
6つの機械学習(ML)分類器を評価し,クラス不均衡に対処するためにK-Means SMOTEを適用した。
提案手法は, 女性, 男性, 複合結果に対して, 85.61%, 84.69%, および85.22%の非重み付き平均リコール(UAR)を達成した。
- 参考スコア(独自算出の注目度): 1.7779568951268254
- License:
- Abstract: This study introduces a novel methodology for voice pathology detection using the publicly available Saarbr\"ucken Voice Database (SVD) database and a robust feature set combining commonly used acoustic handcrafted features with two novel ones: pitch difference (relative variation in fundamental frequency) and a NaN feature (failed fundamental frequency estimation). We evaluate six machine learning (ML) classifiers - support vector machine, k-nearest neighbors, naive Bayes, decision tree, random forest, and AdaBoost - using grid search for feasible hyperparameters of selected classifiers and 20480 different feature subsets. Top 1000 classifier-feature subset combinations for each classifier type are validated with repeated stratified cross-validation. To address class imbalance, we apply K-Means SMOTE to augment the training data. Our approach achieves outstanding performance, reaching 85.61%, 84.69% and 85.22% unweighted average recall (UAR) for females, males and combined results respectivelly. We intentionally omit accuracy as it is a highly biased metric for imbalanced data. This advancement demonstrates significant potential for clinical deployment of ML methods, offering a valuable supportive tool for an objective examination of voice pathologies. To enable an easier use of our methodology and to support our claims, we provide a publicly available GitHub repository with DOI 10.5281/zenodo.13771573. Finally, we provide a REFORMS checklist to enhance readability, reproducibility and justification of our approach.
- Abstract(参考訳): 本研究は,公用Saarbr\"ucken Voice Database (SVD)データベースを用いた音声病理診断のための新しい手法と,一般的な手作り特徴と,ピッチ差(基本周波数の相対的変化)とNaN特徴(基本周波数推定)の2つの新しい特徴を組み合わせた頑健な特徴セットを提案する。
選択した分類器の可能なハイパーパラメータと20480の異なる特徴サブセットのグリッドサーチを用いて,機械学習(ML)分類器を6種類評価した。
各分類器タイプに対する上位1000の分類器-機能サブセットの組み合わせは、繰り返し成層クロスバリデーションで検証される。
クラス不均衡に対処するため、K-Means SMOTEをトレーニングデータの拡張に適用する。
提案手法は, 女性, 男性, 複合的な結果に対して, 85.61%, 84.69%, および85.22%の未加重平均リコール(UAR)を達成した。
不均衡なデータに対する非常に偏りのある指標であるため、私たちは意図的に正確さを省略します。
この進歩はML法の臨床的展開に有意な可能性を示し,声道の客観的検査に有用な支援ツールを提供する。
方法論をより使いやすくし、クレームをサポートするために、DOI 10.5281/zenodo.13771573で公開されているGitHubリポジトリを提供しています。
最後に、我々のアプローチの可読性、再現性、正当化性を高めるためのREFORMSチェックリストを提供する。
関連論文リスト
- AFEN: Respiratory Disease Classification using Ensemble Learning [2.524195881002773]
本稿では、畳み込みニューラルネットワーク(CNN)とXGBoostを利用するモデルであるAFEN(Audio Feature Learning)を提案する。
我々は、データの健全な属性を提供し、正確な分類を可能にする、巧妙に選択されたオーディオ特徴の組み合わせを使用する。
AFENがPrecisionとRecallをメトリクスとして利用し、トレーニング時間を60%削減し、新たな最先端技術の設定を実証的に検証した。
論文 参考訳(メタデータ) (2024-05-08T23:50:54Z) - Speaker-Independent Dysarthria Severity Classification using
Self-Supervised Transformers and Multi-Task Learning [2.7706924578324665]
本研究では, 生音声データから難聴度を自動的に評価するトランスフォーマーに基づく枠組みを提案する。
話者非依存型遅発性重度分類のための多タスク学習目標とコントラスト学習を組み込んだ,話者非依存型遅発性正規化(SALR)と呼ばれるフレームワークを開発した。
我々のモデルは従来の機械学習手法よりも優れた性能を示し、精度は70.48%$、F1スコアは59.23%$である。
論文 参考訳(メタデータ) (2024-02-29T18:30:52Z) - Detecting Speech Abnormalities with a Perceiver-based Sequence
Classifier that Leverages a Universal Speech Model [4.503292461488901]
いくつかの神経疾患の音声反射異常を検出するPerceiver-based sequenceを提案する。
このシーケンスとUniversal Speech Model (USM)を組み合わせ、1200万時間に及ぶ多様な音声録音をトレーニング(教師なし)する。
我々のモデルは標準変圧器 (80.9%) および知覚器 (81.8%) モデルより優れ、平均精度は83.1%である。
論文 参考訳(メタデータ) (2023-10-16T21:07:12Z) - Intra-class Adaptive Augmentation with Neighbor Correction for Deep
Metric Learning [99.14132861655223]
深層学習のためのクラス内適応拡張(IAA)フレームワークを提案する。
クラスごとのクラス内変動を合理的に推定し, 適応型合成試料を生成し, 硬質試料の採掘を支援する。
本手法は,検索性能の最先端手法を3%~6%向上させる。
論文 参考訳(メタデータ) (2022-11-29T14:52:38Z) - Deep Feature Learning for Medical Acoustics [78.56998585396421]
本研究の目的は,医療音響の課題における学習内容の比較である。
ヒトの呼吸音と心臓の鼓動を健康的または病態の影響の2つのカテゴリに分類する枠組みが実装されている。
論文 参考訳(メタデータ) (2022-08-05T10:39:37Z) - Decision Forest Based EMG Signal Classification with Low Volume Dataset
Augmented with Random Variance Gaussian Noise [51.76329821186873]
我々は6種類の手振りを限定的なサンプル数で分類できるモデルを作成し、より広い聴衆によく一般化する。
信号のランダムなバウンドの使用など、より基本的な手法のセットにアピールするが、これらの手法がオンライン環境で持てる力を示したいと考えている。
論文 参考訳(メタデータ) (2022-06-29T23:22:18Z) - Robust Meta-learning with Sampling Noise and Label Noise via
Eigen-Reptile [78.1212767880785]
Meta-learnerは、利用可能なサンプルがわずかしかないため、過度に適合する傾向がある。
ノイズの多いラベルでデータを扱う場合、メタラーナーはラベルノイズに対して非常に敏感になる可能性がある。
本稿では,タスク固有のパラメータの主要な方向でメタパラメータを更新するEigen-Reptile(ER)を提案する。
論文 参考訳(メタデータ) (2022-06-04T08:48:02Z) - Prototypical Classifier for Robust Class-Imbalanced Learning [64.96088324684683]
埋め込みネットワークに付加的なパラメータを必要としないtextitPrototypealを提案する。
プロトタイプは、訓練セットがクラス不均衡であるにもかかわらず、すべてのクラスに対してバランスと同等の予測を生成する。
我々は, CIFAR-10LT, CIFAR-100LT, Webvision のデータセットを用いて, プロトタイプが芸術の状況と比較した場合, サブスタンスの改善が得られることを検証した。
論文 参考訳(メタデータ) (2021-10-22T01:55:01Z) - Visualizing Classifier Adjacency Relations: A Case Study in Speaker
Verification and Voice Anti-Spoofing [72.4445825335561]
任意のバイナリ分類器によって生成される検出スコアから2次元表現を導出する簡単な方法を提案する。
ランク相関に基づいて,任意のスコアを用いた分類器の視覚的比較を容易にする。
提案手法は完全に汎用的であり,任意の検出タスクに適用可能だが,自動話者検証と音声アンチスプーフィングシステムによるスコアを用いた手法を実証する。
論文 参考訳(メタデータ) (2021-06-11T13:03:33Z) - Machine Learning Based on Natural Language Processing to Detect Cardiac
Failure in Clinical Narratives [0.2936007114555107]
この研究の目的は、患者が心不全または健康な状態を有するかどうかを自動的に検出する機械学習アルゴリズムを開発することである。
bag-of-word (BoW), term frequency inverse document frequency (TFIDF), and neural word embeddeddings (word2vec) を用いて単語表現学習を行った。
提案されたフレームワークは、ac、pre、rec、f1がそれぞれ84%、82%、85%、83%の全体的な分類性能を達成した。
論文 参考訳(メタデータ) (2021-04-08T17:28:43Z) - Data augmentation using generative networks to identify dementia [20.137419355252362]
生成モデルはデータ拡張の効果的なアプローチとして利用できることを示す。
本稿では,認知症自動検出システムから抽出した音声と音声の異なる特徴に対する類似したアプローチの適用について検討する。
論文 参考訳(メタデータ) (2020-04-13T15:05:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。