Fugu-MT 論文翻訳(概要): Reproducible Machine Learning-based Voice Pathology Detection: Introducing the Pitch Difference Feature

論文の概要: Reproducible Machine Learning-based Voice Pathology Detection: Introducing the Pitch Difference Feature

arxiv url: http://arxiv.org/abs/2410.10537v1
Date: Mon, 14 Oct 2024 14:17:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-29 21:05:04.648211
Title: Reproducible Machine Learning-based Voice Pathology Detection: Introducing the Pitch Difference Feature
Title（参考訳）: Reproducible Machine Learning-based Voice Pathology Detection: Introducing the Pitch difference Feature
Authors: Jan Vrba, Jakub Steinbach, Tomáš Jirsa, Laura Verde, Roberta De Fazio, Noriyasu Homma, Yuwen Zeng, Key Ichiji, Lukáš Hájek, Zuzana Sedláková, Jan Mareš,
Abstract要約: 本稿では,音声病理診断における現代的実践の徹底的な研究から得られた,ロバストな特徴セットを提案する。 K-Means Synthetic Minority Over-Sampling Technique(K-Means Synthetic Over-Sampling Technique)アルゴリズムを用いて,Sarbr"ucken Voice Database(SVD)のデータを含むこの機能セットを組み合わせる。提案手法は,音声病理診断における非重み付き平均リコールによって測定された最先端の性能を達成している。
参考スコア（独自算出の注目度）: 1.1455937444848385
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this study, we propose a robust set of features derived from a thorough research of contemporary practices in voice pathology detection. The feature set is based on the combination of acoustic handcrafted features. Additionally, we introduce pitch difference as a novel feature. We combine this feature set, containing data from the publicly available Saarbr\"ucken Voice Database (SVD), with preprocessing using the K-Means Synthetic Minority Over-Sampling Technique algorithm to address class imbalance. Moreover, we applied multiple ML models as binary classifiers. We utilized support vector machine, k-nearest neighbors, naive Bayes, decision tree, random forest and AdaBoost classifiers. To determine the best classification approach, we performed grid search on feasible hyperparameters of respective classifiers and subsections of features. Our approach has achieved the state-of-the-art performance, measured by unweighted average recall in voice pathology detection on SVD database. We intentionally omit accuracy as it is highly biased metric in case of unbalanced data compared to aforementioned metrics. The results are further enhanced by eliminating the potential overestimation of the results with repeated stratified cross-validation. This advancement demonstrates significant potential for the clinical deployment of ML methods, offering a valuable tool for an objective examination of voice pathologies. To support our claims, we provide a publicly available GitHub repository with DOI 10.5281/zenodo.13771573. Finally, we provide REFORMS checklist.
Abstract（参考訳）: 本研究では,音声病理診断における現代的実践の徹底的な研究から得られた,ロバストな特徴セットを提案する。特徴セットは、音響的手作りの特徴の組み合わせに基づいている。さらに,新しい特徴としてピッチ差を導入する。 K-Means Synthetic Minority Over-Sampling Technique(K-Means Synthetic Over-Sampling Technique)アルゴリズムを用いて,クラス不均衡に対処する。さらに,複数のMLモデルをバイナリ分類器として適用した。我々は,サポートベクターマシン,k-ネアレスト隣人,ナイーブベイズ,決定木,ランダム林,AdaBoost分類器を利用した。最良分類法を決定するために,各分類器の可能なハイパーパラメータと特徴のサブセクションのグリッドサーチを行った。本手法は,SVDデータベースにおける音声病理診断において,非重み付き平均リコールによって測定された最先端の性能を達成している。上記の指標と比較すると、不均衡なデータの場合、非常に偏りのある指標であるため、意図的に精度を省略する。さらに, 層状交叉検証を繰り返す結果の潜在的過大評価を排除して, 結果をさらに強化する。この進歩はML法の臨床的展開に有意義な可能性を示しており、声道の客観的検査に有用なツールである。クレームをサポートするため、DOI 10.5281/zenodo.13771573で公開されているGitHubリポジトリを提供しています。最後に、REFORMSチェックリストを提供します。

関連論文リスト

Meta-learning Representations for Learning from Multiple Annotators [40.886894995806955]
本稿では,複数の雑音アノテータから学習するメタラーニング手法を提案する。提案手法は,ニューラルネットワークを用いてタスク中の各例を潜在空間に埋め込む。合成ノイズと実世界のクラウドソーシングデータセットを用いた実世界のデータセットを用いて,本手法の有効性を示す。
論文参考訳（メタデータ） (2025-06-12T00:58:37Z)
Robust Persian Digit Recognition in Noisy Environments Using Hybrid CNN-BiGRU Model [1.5566524830295307]
本研究は,雑音条件下でのペルシャ文字の孤立認識(ゼロから9)に対処する。残差畳み込みニューラルネットワークと双方向ゲートユニット(BiGRU)を組み合わせたハイブリッドモデルを提案する。実験の結果、モデルの有効性が98.53%、96.10%、トレーニング、検証、テストセットにおける95.92%の精度で証明された。
論文参考訳（メタデータ） (2024-12-14T15:11:42Z)
Robust Learning under Hybrid Noise [24.36707245704713]
本稿では,データリカバリの観点からハイブリッドノイズに対処するため,新たな統合学習フレームワーク"Feature and Label Recovery"(FLR)を提案する。
論文参考訳（メタデータ） (2024-07-04T16:13:25Z)
Detecting Speech Abnormalities with a Perceiver-based Sequence Classifier that Leverages a Universal Speech Model [4.503292461488901]
いくつかの神経疾患の音声反射異常を検出するPerceiver-based sequenceを提案する。このシーケンスとUniversal Speech Model (USM)を組み合わせ、1200万時間に及ぶ多様な音声録音をトレーニング(教師なし)する。我々のモデルは標準変圧器 (80.9%) および知覚器 (81.8%) モデルより優れ、平均精度は83.1%である。
論文参考訳（メタデータ） (2023-10-16T21:07:12Z)
HyPoradise: An Open Baseline for Generative Speech Recognition with Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文参考訳（メタデータ） (2023-09-27T14:44:10Z)
Intra-class Adaptive Augmentation with Neighbor Correction for Deep Metric Learning [99.14132861655223]
深層学習のためのクラス内適応拡張(IAA)フレームワークを提案する。クラスごとのクラス内変動を合理的に推定し, 適応型合成試料を生成し, 硬質試料の採掘を支援する。本手法は,検索性能の最先端手法を3%～6%向上させる。
論文参考訳（メタデータ） (2022-11-29T14:52:38Z)
Ontology-aware Learning and Evaluation for Audio Tagging [56.59107110017436]
平均平均精度(mAP)は、異なる種類の音をそれらの関係を考慮せずに独立したクラスとして扱う。オントロジー認識平均平均精度(OmAP)は、評価中にAudioSetオントロジー情報を利用することで、mAPの弱点に対処する。我々は人間の評価を行い、OmAPはmAPよりも人間の知覚と一致していることを示した。
論文参考訳（メタデータ） (2022-11-22T11:35:14Z)
Decision Forest Based EMG Signal Classification with Low Volume Dataset Augmented with Random Variance Gaussian Noise [51.76329821186873]
我々は6種類の手振りを限定的なサンプル数で分類できるモデルを作成し、より広い聴衆によく一般化する。信号のランダムなバウンドの使用など、より基本的な手法のセットにアピールするが、これらの手法がオンライン環境で持てる力を示したいと考えている。
論文参考訳（メタデータ） (2022-06-29T23:22:18Z)
Robust Meta-learning with Sampling Noise and Label Noise via Eigen-Reptile [78.1212767880785]
Meta-learnerは、利用可能なサンプルがわずかしかないため、過度に適合する傾向がある。ノイズの多いラベルでデータを扱う場合、メタラーナーはラベルノイズに対して非常に敏感になる可能性がある。本稿では,タスク固有のパラメータの主要な方向でメタパラメータを更新するEigen-Reptile(ER)を提案する。
論文参考訳（メタデータ） (2022-06-04T08:48:02Z)
Missing Data Imputation and Acquisition with Deep Hierarchical Models and Hamiltonian Monte Carlo [2.666288135543677]
混合型不完全データに対する階層型VAEモデルであるHH-VAEMを提案する。実験の結果,HH-VAEMはデータ計算の欠如,教師付き学習,外れ値同定といったタスクにおいて,既存のベースラインよりも優れていた。また,HH-VAEMで特徴が得られない場合に,情報ゲインを効率的に計算するためのサンプリングベース手法を提案する。
論文参考訳（メタデータ） (2022-02-09T17:50:52Z)
Sequence-level self-learning with multiple hypotheses [53.04725240411895]
我々は、自動音声認識(ASR)のためのアテンションベースシーケンス・ツー・シーケンス(seq2seq)モデルを用いた新しい自己学習手法を開発した。従来の教師なし学習手法とは対照的に,我々はEmphmulti-task Learning(MTL)フレームワークを採用する。実験の結果,本手法は,英語データのみを用いてトレーニングしたベースラインモデルと比較して,英文音声データのWERを14.55%から10.36%に削減できることがわかった。
論文参考訳（メタデータ） (2021-12-10T20:47:58Z)
Uncertainty quantification for multiclass data description [0.1611401281366893]
カーネル・マハラノビス距離(MDD-KM)に基づくマルチクラスデータ記述モデルを提案する。我々はMDD-KMを成分とする階層線形力学系に基づく原型分類システムについて報告する。
論文参考訳（メタデータ） (2021-08-29T14:42:04Z)
Visualizing Classifier Adjacency Relations: A Case Study in Speaker Verification and Voice Anti-Spoofing [72.4445825335561]
任意のバイナリ分類器によって生成される検出スコアから2次元表現を導出する簡単な方法を提案する。ランク相関に基づいて,任意のスコアを用いた分類器の視覚的比較を容易にする。提案手法は完全に汎用的であり,任意の検出タスクに適用可能だが,自動話者検証と音声アンチスプーフィングシステムによるスコアを用いた手法を実証する。
論文参考訳（メタデータ） (2021-06-11T13:03:33Z)
A concise method for feature selection via normalized frequencies [0.0]
本稿では,普遍的特徴選択のための簡潔な手法を提案する。提案手法は, フィルタ法とラッパー法を融合して行う。評価結果から,提案手法は,精度,精度,リコール,Fスコア,AUCの点で,いくつかの最先端技術に優れた性能を示した。
論文参考訳（メタデータ） (2021-06-10T15:29:54Z)
Attentional-Biased Stochastic Gradient Descent [74.49926199036481]
深層学習におけるデータ不均衡やラベルノイズ問題に対処するための証明可能な手法(ABSGD)を提案する。本手法は運動量SGDの簡易な修正であり,各試料に個別の重み付けを行う。 ABSGDは追加コストなしで他の堅牢な損失と組み合わせられるほど柔軟である。
論文参考訳（メタデータ） (2020-12-13T03:41:52Z)
Towards Better Object Detection in Scale Variation with Adaptive Feature Selection [3.5352273012717044]
チャネル次元の多レベル表現を融合する方法を自動学習する新しい適応的特徴選択モジュール(AFSM)を提案する。これは、特徴ピラミッド構造を持つ検出器の性能を著しく向上させる。クラス不均衡問題に対処するために,クラス対応サンプリング機構(CASM)を提案する。
論文参考訳（メタデータ） (2020-12-06T13:41:20Z)
Optimizing Speech Emotion Recognition using Manta-Ray Based Feature Selection [1.4502611532302039]
既存の特徴抽出手法を用いて抽出した特徴の連結により,分類精度が向上することを示す。また,音声感情認識タスクにおけるマンタレイ最適化の新たな応用を行い,その結果を得た。
論文参考訳（メタデータ） (2020-09-18T16:09:34Z)
Rectified Meta-Learning from Noisy Labels for Robust Image-based Plant Disease Diagnosis [64.82680813427054]
植物病は食料安全保障と作物生産に対する主要な脅威の1つである。 1つの一般的なアプローチは、葉画像分類タスクとしてこの問題を変換し、強力な畳み込みニューラルネットワーク(CNN)によって対処できる。本稿では,正規化メタ学習モジュールを共通CNNパラダイムに組み込んだ新しいフレームワークを提案する。
論文参考訳（メタデータ） (2020-03-17T09:51:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。