論文の概要: Enhancing dysarthria speech feature representation with empirical mode
decomposition and Walsh-Hadamard transform
- arxiv url: http://arxiv.org/abs/2401.00225v1
- Date: Sat, 30 Dec 2023 13:25:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-03 18:16:02.128758
- Title: Enhancing dysarthria speech feature representation with empirical mode
decomposition and Walsh-Hadamard transform
- Title(参考訳): 経験的モード分解とWalsh-Hadamard変換による難聴の特徴表現の強化
- Authors: Ting Zhu, Shufei Duan, Camille Dingam, Huizhi Liang, Wei Zhang
- Abstract要約: We propose a feature enhancement for dysarthria speech called WHFEMD。
実験モード分解(EMD)と高速ウォルシュ・アダマール変換(FWHT)を組み合わせて特徴を増強する。
- 参考スコア(独自算出の注目度): 8.032273183441921
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dysarthria speech contains the pathological characteristics of vocal tract
and vocal fold, but so far, they have not yet been included in traditional
acoustic feature sets. Moreover, the nonlinearity and non-stationarity of
speech have been ignored. In this paper, we propose a feature enhancement
algorithm for dysarthria speech called WHFEMD. It combines empirical mode
decomposition (EMD) and fast Walsh-Hadamard transform (FWHT) to enhance
features. With the proposed algorithm, the fast Fourier transform of the
dysarthria speech is first performed and then followed by EMD to get intrinsic
mode functions (IMFs). After that, FWHT is used to output new coefficients and
to extract statistical features based on IMFs, power spectral density, and
enhanced gammatone frequency cepstral coefficients. To evaluate the proposed
approach, we conducted experiments on two public pathological speech databases
including UA Speech and TORGO. The results show that our algorithm performed
better than traditional features in classification. We achieved improvements of
13.8% (UA Speech) and 3.84% (TORGO), respectively. Furthermore, the
incorporation of an imbalanced classification algorithm to address data
imbalance has resulted in a 12.18% increase in recognition accuracy. This
algorithm effectively addresses the challenges of the imbalanced dataset and
non-linearity in dysarthric speech and simultaneously provides a robust
representation of the local pathological features of the vocal folds and
tracts.
- Abstract(参考訳): dysarthria speechは声道と声帯の病理的特徴を含んでいるが、これまでのところそれらは伝統的な音響特徴セットには含まれていない。
さらに, 音声の非線形性や非定常性も無視されている。
本稿では,WHFEMDと呼ばれる難聴音声の特徴強調アルゴリズムを提案する。
実験モード分解(EMD)と高速ウォルシュ・アダマール変換(FWHT)を組み合わせて特徴を増強する。
提案アルゴリズムでは,まず発声音声の高速フーリエ変換を行い,次にEMDを用いて固有モード関数(IMF)を得る。
その後、FWHTは新しい係数を出力し、IMF、パワースペクトル密度、ガンマトン周波数ケプストラム係数の増大に基づく統計的特徴を抽出するために用いられる。
提案手法を評価するために,UA音声とTORGOを含む2つの公共病的音声データベースの実験を行った。
その結果,本アルゴリズムは従来の分類手法よりも優れた性能を示した。
改善率は13.8%(UA音声)と3.84%(TORGO)であった。
さらに、データ不均衡に対処する不均衡分類アルゴリズムの導入により、認識精度が12.18%向上した。
このアルゴリズムは、不均衡データセットと非線形性の課題を効果的に解決し、同時に声帯と声道の局所的な病理学的特徴のロバストな表現を提供する。
関連論文リスト
- DEFN: Dual-Encoder Fourier Group Harmonics Network for Three-Dimensional Indistinct-Boundary Object Segmentation [6.0920148653974255]
本稿では,学習コーパス内の不明瞭な境界オブジェクトの表現多様性を高めるために,欠陥注入(SDi)を導入する。
そこで我々はDEFN(Dual-Encoder Fourier Group Harmonics Network)を提案する。
論文 参考訳(メタデータ) (2023-11-01T12:33:04Z) - Analysis and Detection of Pathological Voice using Glottal Source
Features [18.80191660913831]
準閉鎖相 (QCP) のスロットル逆フィルタリング法を用いて, 声門音源の特徴を推定し, 声門音源の特徴を抽出した。
我々はQCPとZFFによって計算された震源波形からメル周波数ケプストラル係数(MFCC)を導出する。
特徴分析の結果,声門源には正常な声と病理的な声を識別する情報が含まれていることが明らかとなった。
論文 参考訳(メタデータ) (2023-09-25T12:14:25Z) - Modality-Agnostic Variational Compression of Implicit Neural
Representations [96.35492043867104]
Inlicit Neural Representation (INR) としてパラメータ化されたデータの関数的ビューに基づくモーダリティ非依存型ニューラル圧縮アルゴリズムを提案する。
潜時符号化と疎性の間のギャップを埋めて、ソフトゲーティング機構に非直線的にマッピングされたコンパクト潜時表現を得る。
このような潜在表現のデータセットを得た後、ニューラル圧縮を用いてモーダリティ非依存空間におけるレート/歪みトレードオフを直接最適化する。
論文 参考訳(メタデータ) (2023-01-23T15:22:42Z) - Exploiting Cross-domain And Cross-Lingual Ultrasound Tongue Imaging
Features For Elderly And Dysarthric Speech Recognition [55.25565305101314]
調音機能は音響信号歪みに不変であり、音声認識システムにうまく組み込まれている。
本稿では,A2Aモデルにおける24時間TaLコーパスの並列音声・超音波舌画像(UTI)データを利用したクロスドメインおよびクロスランガルA2Aインバージョン手法を提案する。
生成した調音機能を組み込んだ3つのタスクの実験は、ベースラインのTDNNとコンフォーマーASRシステムより一貫して優れていた。
論文 参考訳(メタデータ) (2022-06-15T07:20:28Z) - Exploiting Cross Domain Acoustic-to-articulatory Inverted Features For
Disordered Speech Recognition [57.15942628305797]
調音機能は音響信号歪みに不変であり、正常音声の自動音声認識システムにうまく組み込まれている。
本稿では,15時間 TORGO コーパスの並列音響・調音データをモデルトレーニングに用いるクロスドメイン音響・調音(A2A)インバージョン手法を提案する。
クロスドメインは102.7時間のUASpeechコーパスに適応し、調音的特徴を生産する。
論文 参考訳(メタデータ) (2022-03-19T08:47:18Z) - Investigation of Data Augmentation Techniques for Disordered Speech
Recognition [69.50670302435174]
本稿では,不規則音声認識のための一連のデータ拡張手法について検討する。
正常な音声と無秩序な音声の両方が増強過程に利用された。
UASpeechコーパスを用いた最終話者適応システムと、最大2.92%の絶対単語誤り率(WER)の速度摂動に基づく最良の拡張アプローチ
論文 参考訳(メタデータ) (2022-01-14T17:09:22Z) - Gated Recurrent Fusion with Joint Training Framework for Robust
End-to-End Speech Recognition [64.9317368575585]
本稿では,ロバスト・エンド・ツー・エンドASRのためのジョイント・トレーニング・フレームワークを用いたゲート・リカレント・フュージョン(GRF)法を提案する。
GRFアルゴリズムはノイズと拡張された特徴を動的に組み合わせるために使用される。
提案手法は従来の関節強化・変圧器法に比べて10.04%の相対的文字誤り率(CER)低減を実現する。
論文 参考訳(メタデータ) (2020-11-09T08:52:05Z) - A Comparative Re-Assessment of Feature Extractors for Deep Speaker
Embeddings [18.684888457998284]
本稿では,VoxCelebおよびSITWデータセット上で14個の特徴抽出器を広範囲に再評価する。
以上の結果から,スペクトルセントロイド,グループ遅延関数,統合雑音抑圧などの技術が,深層話者埋め込み抽出のためのMFCCに代わる有望な代替手段となることが明らかとなった。
論文 参考訳(メタデータ) (2020-07-30T07:55:58Z) - Glottal source estimation robustness: A comparison of sensitivity of
voice source estimation techniques [11.97036509133719]
本稿では,音声波形から直接音源を推定する問題に対処する。
ADR(Anticausality Dominated Regions)に基づく新しい原理は、スロットル開相を推定するために用いられる。
論文 参考訳(メタデータ) (2020-05-24T08:13:47Z) - Simultaneous Denoising and Dereverberation Using Deep Embedding Features [64.58693911070228]
ディープ埋め込み特徴を用いた同時発声・発声同時学習法を提案する。
ノイズ発生段階では、DCネットワークを利用してノイズのないディープ埋込み特性を抽出する。
残響段階では、教師なしのK平均クラスタリングアルゴリズムの代わりに、別のニューラルネットワークを用いて無響音声を推定する。
論文 参考訳(メタデータ) (2020-04-06T06:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。