論文の概要: Reproducible Machine Learning-based Voice Pathology Detection: Introducing the Pitch Difference Feature
- arxiv url: http://arxiv.org/abs/2410.10537v3
- Date: Fri, 14 Mar 2025 13:47:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 15:33:20.309464
- Title: Reproducible Machine Learning-based Voice Pathology Detection: Introducing the Pitch Difference Feature
- Title(参考訳): Reproducible Machine Learning-based Voice Pathology Detection: Introducing the Pitch difference Feature
- Authors: Jan Vrba, Jakub Steinbach, Tomáš Jirsa, Laura Verde, Roberta De Fazio, Yuwen Zeng, Kei Ichiji, Lukáš Hájek, Zuzana Sedláková, Zuzana Urbániová, Martin Chovanec, Jan Mareš, Noriyasu Homma,
- Abstract要約: 本稿では,現在公開されているSaarbr"ucken Voice Databaseを用いた音声病理診断手法を提案する。
機械学習(ML)アルゴリズムを6つ評価する - サポートベクターマシン、kネアレスト隣人、ナイーブベイズ、決定木、ランダムフォレスト、AdaBoost。
アプローチは, 女性, 男性, 合計で85.61%, 84.69%, および85.22%であった。
- 参考スコア(独自算出の注目度): 1.7779568951268254
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Purpose: We introduce a novel methodology for voice pathology detection using the publicly available Saarbr\"ucken Voice Database (SVD) and a robust feature set combining commonly used acoustic handcrafted features with two novel ones: pitch difference (relative variation in fundamental frequency) and NaN feature (failed fundamental frequency estimation). Methods: We evaluate six machine learning (ML) algorithms -- support vector machine, k-nearest neighbors, naive Bayes, decision tree, random forest, and AdaBoost -- using grid search for feasible hyperparameters and 20480 different feature subsets. Top 1000 classification models -- feature subset combinations for each ML algorithm are validated with repeated stratified cross-validation. To address class imbalance, we apply K-Means SMOTE to augment the training data. Results: Our approach achieves 85.61%, 84.69% and 85.22% unweighted average recall (UAR) for females, males and combined results respectively. We intentionally omit accuracy as it is a highly biased metric for imbalanced data. Conclusion: Our study demonstrates that by following the proposed methodology and feature engineering, there is a potential in detection of various voice pathologies using ML models applied to the simplest vocal task, a sustained utterance of the vowel /a:/. To enable easier use of our methodology and to support our claims, we provide a publicly available GitHub repository with DOI 10.5281/zenodo.13771573. Finally, we provide a REFORMS checklist to enhance readability, reproducibility and justification of our approach
- Abstract(参考訳): 目的: 一般に公開されているSaarbr\"ucken Voice Database (SVD) を用いた音声病理診断のための新しい手法と、一般的な手作り特徴と、ピッチ差(基本周波数の相対的変化)とNaN特徴(基本周波数推定)の2つの新しい特徴を組み合わせた頑健な特徴セットを提案する。
方法:我々は、6つの機械学習(ML)アルゴリズム、サポートベクターマシン、kネアレスト隣人、ナイーブベイズ、決定木、ランダムフォレスト、AdaBoostを、実現可能なハイパーパラメータと20480の異なる特徴サブセットのグリッドサーチを用いて評価する。トップ1000の分類モデル -- 各MLアルゴリズムの機能サブセットの組み合わせを、繰り返し階層化されたクロスバリデーションで検証する。
クラス不均衡に対処するため、K-Means SMOTEをトレーニングデータの拡張に適用する。
結果: 対象は, 女性, 男性, 合計の85.61%, 84.69%, および85.22%であった。
不均衡なデータに対する非常に偏りのある指標であるため、私たちは意図的に正確さを省略します。
結論: 本研究は, 提案手法と特徴工学に従えば, 母音/a:/の持続的な発声である最も単純な発声課題に適用したMLモデルを用いて, 種々の音声病理を検出できる可能性を実証する。
方法論の使いやすさとクレームのサポートのために、DOI 10.5281/zenodo.13771573で公開されているGitHubリポジトリを提供しています。
最後に、我々のアプローチの可読性、再現性、正当化性を高めるためのREFORMSチェックリストを提供する。
関連論文リスト
- Robust Persian Digit Recognition in Noisy Environments Using Hybrid CNN-BiGRU Model [1.5566524830295307]
本研究は,雑音条件下でのペルシャ文字の孤立認識(ゼロから9)に対処する。
残差畳み込みニューラルネットワークと双方向ゲートユニット(BiGRU)を組み合わせたハイブリッドモデルを提案する。
実験の結果、モデルの有効性が98.53%、96.10%、トレーニング、検証、テストセットにおける95.92%の精度で証明された。
論文 参考訳(メタデータ) (2024-12-14T15:11:42Z) - Robust Learning under Hybrid Noise [24.36707245704713]
本稿では,データリカバリの観点からハイブリッドノイズに対処するため,新たな統合学習フレームワーク"Feature and Label Recovery"(FLR)を提案する。
論文 参考訳(メタデータ) (2024-07-04T16:13:25Z) - Detecting Speech Abnormalities with a Perceiver-based Sequence
Classifier that Leverages a Universal Speech Model [4.503292461488901]
いくつかの神経疾患の音声反射異常を検出するPerceiver-based sequenceを提案する。
このシーケンスとUniversal Speech Model (USM)を組み合わせ、1200万時間に及ぶ多様な音声録音をトレーニング(教師なし)する。
我々のモデルは標準変圧器 (80.9%) および知覚器 (81.8%) モデルより優れ、平均精度は83.1%である。
論文 参考訳(メタデータ) (2023-10-16T21:07:12Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Intra-class Adaptive Augmentation with Neighbor Correction for Deep
Metric Learning [99.14132861655223]
深層学習のためのクラス内適応拡張(IAA)フレームワークを提案する。
クラスごとのクラス内変動を合理的に推定し, 適応型合成試料を生成し, 硬質試料の採掘を支援する。
本手法は,検索性能の最先端手法を3%~6%向上させる。
論文 参考訳(メタデータ) (2022-11-29T14:52:38Z) - Ontology-aware Learning and Evaluation for Audio Tagging [56.59107110017436]
平均平均精度(mAP)は、異なる種類の音をそれらの関係を考慮せずに独立したクラスとして扱う。
オントロジー認識平均平均精度(OmAP)は、評価中にAudioSetオントロジー情報を利用することで、mAPの弱点に対処する。
我々は人間の評価を行い、OmAPはmAPよりも人間の知覚と一致していることを示した。
論文 参考訳(メタデータ) (2022-11-22T11:35:14Z) - Decision Forest Based EMG Signal Classification with Low Volume Dataset
Augmented with Random Variance Gaussian Noise [51.76329821186873]
我々は6種類の手振りを限定的なサンプル数で分類できるモデルを作成し、より広い聴衆によく一般化する。
信号のランダムなバウンドの使用など、より基本的な手法のセットにアピールするが、これらの手法がオンライン環境で持てる力を示したいと考えている。
論文 参考訳(メタデータ) (2022-06-29T23:22:18Z) - Robust Meta-learning with Sampling Noise and Label Noise via
Eigen-Reptile [78.1212767880785]
Meta-learnerは、利用可能なサンプルがわずかしかないため、過度に適合する傾向がある。
ノイズの多いラベルでデータを扱う場合、メタラーナーはラベルノイズに対して非常に敏感になる可能性がある。
本稿では,タスク固有のパラメータの主要な方向でメタパラメータを更新するEigen-Reptile(ER)を提案する。
論文 参考訳(メタデータ) (2022-06-04T08:48:02Z) - Missing Data Imputation and Acquisition with Deep Hierarchical Models
and Hamiltonian Monte Carlo [2.666288135543677]
混合型不完全データに対する階層型VAEモデルであるHH-VAEMを提案する。
実験の結果,HH-VAEMはデータ計算の欠如,教師付き学習,外れ値同定といったタスクにおいて,既存のベースラインよりも優れていた。
また,HH-VAEMで特徴が得られない場合に,情報ゲインを効率的に計算するためのサンプリングベース手法を提案する。
論文 参考訳(メタデータ) (2022-02-09T17:50:52Z) - Sequence-level self-learning with multiple hypotheses [53.04725240411895]
我々は、自動音声認識(ASR)のためのアテンションベースシーケンス・ツー・シーケンス(seq2seq)モデルを用いた新しい自己学習手法を開発した。
従来の教師なし学習手法とは対照的に,我々はEmphmulti-task Learning(MTL)フレームワークを採用する。
実験の結果,本手法は,英語データのみを用いてトレーニングしたベースラインモデルと比較して,英文音声データのWERを14.55%から10.36%に削減できることがわかった。
論文 参考訳(メタデータ) (2021-12-10T20:47:58Z) - Uncertainty quantification for multiclass data description [0.1611401281366893]
カーネル・マハラノビス距離(MDD-KM)に基づくマルチクラスデータ記述モデルを提案する。
我々はMDD-KMを成分とする階層線形力学系に基づく原型分類システムについて報告する。
論文 参考訳(メタデータ) (2021-08-29T14:42:04Z) - Visualizing Classifier Adjacency Relations: A Case Study in Speaker
Verification and Voice Anti-Spoofing [72.4445825335561]
任意のバイナリ分類器によって生成される検出スコアから2次元表現を導出する簡単な方法を提案する。
ランク相関に基づいて,任意のスコアを用いた分類器の視覚的比較を容易にする。
提案手法は完全に汎用的であり,任意の検出タスクに適用可能だが,自動話者検証と音声アンチスプーフィングシステムによるスコアを用いた手法を実証する。
論文 参考訳(メタデータ) (2021-06-11T13:03:33Z) - A concise method for feature selection via normalized frequencies [0.0]
本稿では,普遍的特徴選択のための簡潔な手法を提案する。
提案手法は, フィルタ法とラッパー法を融合して行う。
評価結果から,提案手法は,精度,精度,リコール,Fスコア,AUCの点で,いくつかの最先端技術に優れた性能を示した。
論文 参考訳(メタデータ) (2021-06-10T15:29:54Z) - Attentional-Biased Stochastic Gradient Descent [74.49926199036481]
深層学習におけるデータ不均衡やラベルノイズ問題に対処するための証明可能な手法(ABSGD)を提案する。
本手法は運動量SGDの簡易な修正であり,各試料に個別の重み付けを行う。
ABSGDは追加コストなしで他の堅牢な損失と組み合わせられるほど柔軟である。
論文 参考訳(メタデータ) (2020-12-13T03:41:52Z) - Towards Better Object Detection in Scale Variation with Adaptive Feature
Selection [3.5352273012717044]
チャネル次元の多レベル表現を融合する方法を自動学習する新しい適応的特徴選択モジュール(AFSM)を提案する。
これは、特徴ピラミッド構造を持つ検出器の性能を著しく向上させる。
クラス不均衡問題に対処するために,クラス対応サンプリング機構(CASM)を提案する。
論文 参考訳(メタデータ) (2020-12-06T13:41:20Z) - Optimizing Speech Emotion Recognition using Manta-Ray Based Feature
Selection [1.4502611532302039]
既存の特徴抽出手法を用いて抽出した特徴の連結により,分類精度が向上することを示す。
また,音声感情認識タスクにおけるマンタレイ最適化の新たな応用を行い,その結果を得た。
論文 参考訳(メタデータ) (2020-09-18T16:09:34Z) - Rectified Meta-Learning from Noisy Labels for Robust Image-based Plant
Disease Diagnosis [64.82680813427054]
植物病は食料安全保障と作物生産に対する主要な脅威の1つである。
1つの一般的なアプローチは、葉画像分類タスクとしてこの問題を変換し、強力な畳み込みニューラルネットワーク(CNN)によって対処できる。
本稿では,正規化メタ学習モジュールを共通CNNパラダイムに組み込んだ新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-17T09:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。