論文の概要: Analysis and Detection of Pathological Voice using Glottal Source
Features
- arxiv url: http://arxiv.org/abs/2309.14080v2
- Date: Tue, 17 Oct 2023 13:36:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 20:27:24.499575
- Title: Analysis and Detection of Pathological Voice using Glottal Source
Features
- Title(参考訳): 声門音源特徴を用いた病理音声の分析と検出
- Authors: Sudarsana Reddy Kadiri and Paavo Alku
- Abstract要約: 準閉鎖相 (QCP) のスロットル逆フィルタリング法を用いて, 声門音源の特徴を推定し, 声門音源の特徴を抽出した。
我々はQCPとZFFによって計算された震源波形からメル周波数ケプストラル係数(MFCC)を導出する。
特徴分析の結果,声門源には正常な声と病理的な声を識別する情報が含まれていることが明らかとなった。
- 参考スコア(独自算出の注目度): 18.80191660913831
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic detection of voice pathology enables objective assessment and
earlier intervention for the diagnosis. This study provides a systematic
analysis of glottal source features and investigates their effectiveness in
voice pathology detection. Glottal source features are extracted using glottal
flows estimated with the quasi-closed phase (QCP) glottal inverse filtering
method, using approximate glottal source signals computed with the zero
frequency filtering (ZFF) method, and using acoustic voice signals directly. In
addition, we propose to derive mel-frequency cepstral coefficients (MFCCs) from
the glottal source waveforms computed by QCP and ZFF to effectively capture the
variations in glottal source spectra of pathological voice. Experiments were
carried out using two databases, the Hospital Universitario Principe de
Asturias (HUPA) database and the Saarbrucken Voice Disorders (SVD) database.
Analysis of features revealed that the glottal source contains information that
discriminates normal and pathological voice. Pathology detection experiments
were carried out using support vector machine (SVM). From the detection
experiments it was observed that the performance achieved with the studied
glottal source features is comparable or better than that of conventional MFCCs
and perceptual linear prediction (PLP) features. The best detection performance
was achieved when the glottal source features were combined with the
conventional MFCCs and PLP features, which indicates the complementary nature
of the features.
- Abstract(参考訳): 音声病理の自動検出は客観的な評価と早期診断を可能にする。
本研究は声門源の特徴を体系的に分析し,その音声病理検出効果について検討する。
擬似閉位相(qcp)声門逆フィルタリング法で推定される声門流れを用いて声門源の特徴を抽出し、ゼロ周波数フィルタリング(zff)法で算出した近似声門源信号を用いて音響音声信号を直接使用する。
さらに,QCPとZFFによって計算された声門音源波形からメリー周波数ケプストラム係数(MFCC)を導出し,声門音源スペクトルの変動を効果的に捉えることを提案する。
実験は,hupa(universitario principe de asturias)データベースとsaarbrucken voice disorder(svd)データベースの2つのデータベースを用いて行った。
特徴分析の結果,声門源は正常声と病的声を識別する情報を含んでいることが明らかとなった。
支持ベクトルマシン(SVM)を用いて病理診断実験を行った。
検出実験から,調査した声門音源特性で得られた性能は,従来のmfccおよび知覚線形予測(plp)特性と同等かそれ以上であることがわかった。
この特徴の相補的な性質を示す従来のMFCCとLPの特徴を組み合わせることで,最も優れた検出性能が得られた。
関連論文リスト
- Enhancing dysarthria speech feature representation with empirical mode
decomposition and Walsh-Hadamard transform [8.032273183441921]
We propose a feature enhancement for dysarthria speech called WHFEMD。
実験モード分解(EMD)と高速ウォルシュ・アダマール変換(FWHT)を組み合わせて特徴を増強する。
論文 参考訳(メタデータ) (2023-12-30T13:25:26Z) - Score-based Source Separation with Applications to Digital Communication
Signals [72.6570125649502]
拡散モデルを用いた重畳音源の分離手法を提案する。
高周波(RF)システムへの応用によって、我々は、基礎となる離散的な性質を持つ情報源に興味を持っている。
提案手法は,最近提案されたスコア蒸留サンプリング方式のマルチソース拡張と見なすことができる。
論文 参考訳(メタデータ) (2023-06-26T04:12:40Z) - Deep Spectro-temporal Artifacts for Detecting Synthesized Speech [57.42110898920759]
本稿では,トラック1(低品質フェイク音声検出)とトラック2(部分フェイク音声検出)の総合評価を行う。
本稿では, 原時間信号, スペクトル特性, 深層埋没特性を用いて, 分光時相アーティファクトを検出した。
我々はそれぞれ1番線と2番線で4位と5位にランクインした。
論文 参考訳(メタデータ) (2022-10-11T08:31:30Z) - Audio Deepfake Detection Based on a Combination of F0 Information and
Real Plus Imaginary Spectrogram Features [51.924340387119415]
ASVspoof 2019 LAデータセットの実験結果から,提案手法はオーディオディープフェイク検出に非常に有効であることがわかった。
提案方式は音声深度検出作業に非常に有効であり,ほぼ全てのシステムにまたがる等価誤差率(EER)が0.43%に達する。
論文 参考訳(メタデータ) (2022-08-02T02:46:16Z) - Iterative Sound Source Localization for Unknown Number of Sources [57.006589498243336]
終端基準を満たすまで、各音源のDOAをしきい値なしで反復的に抽出できるISSLと呼ばれる反復音源定位手法を提案する。
我々のISSLは、既存のしきい値ベースのアルゴリズムと比較して、DOA推定とソース番号検出の両方で大幅な性能改善を実現しています。
論文 参考訳(メタデータ) (2022-06-24T13:19:44Z) - SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with
Adaptive Noise Spectral Shaping [51.698273019061645]
SpecGradは拡散雑音に適応し、その時間変化スペクトル包絡が条件付き対数メル分光器に近づく。
時間周波数領域で処理され、計算コストは従来のDDPMベースのニューラルボコーダとほぼ同じである。
論文 参考訳(メタデータ) (2022-03-31T02:08:27Z) - Glottal source estimation robustness: A comparison of sensitivity of
voice source estimation techniques [11.97036509133719]
本稿では,音声波形から直接音源を推定する問題に対処する。
ADR(Anticausality Dominated Regions)に基づく新しい原理は、スロットル開相を推定するために用いられる。
論文 参考訳(メタデータ) (2020-05-24T08:13:47Z) - Bulbar ALS Detection Based on Analysis of Voice Perturbation and Vibrato [68.97335984455059]
本研究の目的は,ALS患者の自動検出のための持続母音発声テストの有用性を検証することである。
そこで我々は,音声信号から測定値の計算に必要な基本周期への分離手順の強化を提案した。
論文 参考訳(メタデータ) (2020-03-24T12:49:25Z) - On the Mutual Information between Source and Filter Contributions for
Voice Pathology Detection [11.481208551940998]
本稿では,音声信号から直接音声の病状を自動的に検出する問題に対処する。
音声や声帯信号に関連があるか,韻律に関連があるかによって,3つの特徴セットが提案される。
論文 参考訳(メタデータ) (2020-01-02T10:04:37Z) - Causal-Anticausal Decomposition of Speech using Complex Cepstrum for
Glottal Source Estimation [11.481208551940998]
複雑なケプストラムの因果分解は, 声門流量推定に有効であることを示す。
提案手法は,音声品質分析に用いる可能性がある。
論文 参考訳(メタデータ) (2019-12-30T08:12:03Z) - Glottal Source Processing: from Analysis to Applications [35.80742217666323]
音声記録からの声門解析には、特定のより複雑な処理操作が必要である。
本総説では,Glottal Source Processing 用に設計された技術の概要を概説する。
論文 参考訳(メタデータ) (2019-12-29T08:13:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。