論文の概要: Continuous Speech for Improved Learning Pathological Voice Disorders
- arxiv url: http://arxiv.org/abs/2202.10777v1
- Date: Tue, 22 Feb 2022 09:58:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-23 17:04:07.068624
- Title: Continuous Speech for Improved Learning Pathological Voice Disorders
- Title(参考訳): 聴覚障害の学習における連続音声認識
- Authors: Syu-Siang Wang, Chi-Te Wang, Chih-Chung Lai, Yu Tsao, Shih-Hau Fang
- Abstract要約: 本研究では,単一母音の代わりに連続マンダリン音声を用いて4つの共通音声障害を分類する手法を提案する。
提案手法では, 音響信号をメル周波数ケプストラム係数に変換し, 双方向長周期メモリネットワーク(BiLSTM)を採用して, 逐次的特徴をモデル化する。
- 参考スコア(独自算出の注目度): 12.867900671251395
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Goal: Numerous studies had successfully differentiated normal and abnormal
voice samples. Nevertheless, further classification had rarely been attempted.
This study proposes a novel approach, using continuous Mandarin speech instead
of a single vowel, to classify four common voice disorders (i.e. functional
dysphonia, neoplasm, phonotrauma, and vocal palsy). Methods: In the proposed
framework, acoustic signals are transformed into mel-frequency cepstral
coefficients, and a bi-directional long-short term memory network (BiLSTM) is
adopted to model the sequential features. The experiments were conducted on a
large-scale database, wherein 1,045 continuous speech were collected by the
speech clinic of a hospital from 2012 to 2019. Results: Experimental results
demonstrated that the proposed framework yields significant accuracy and
unweighted average recall improvements of 78.12-89.27% and 50.92-80.68%,
respectively, compared with systems that use a single vowel. Conclusions: The
results are consistent with other machine learning algorithms, including gated
recurrent units, random forest, deep neural networks, and LSTM. The
sensitivities for each disorder were also analyzed, and the model capabilities
were visualized via principal component analysis. An alternative experiment
based on a balanced dataset again confirms the advantages of using continuous
speech for learning voice disorders.
- Abstract(参考訳): 目標: 多くの研究が正常な音声と異常な音声の区別に成功した。
しかし、それ以上の分類が試みられたことはめったになかった。
本研究は, 単一母音の代わりに連続マンダリン音声を用いて, 4つの共通音声障害(機能的ジフォニア, 腫瘍, 声道外傷, 声道麻痺)を分類する手法を提案する。
手法: 提案手法では, 音響信号をメル周波数ケプストラム係数に変換し, 双方向長寿命メモリネットワーク(BiLSTM)を用いて連続的な特徴をモデル化する。
実験は大規模データベース上で実施され,2012年から2019年にかけて,病院の音声クリニックで1,045回の連続音声が収集された。
結果: 実験の結果, 単一の母音を用いたシステムと比較して, 78.12-89.27%, 50.92-80.68%の大幅な精度向上と平均リコール改善が得られた。
結論: 結果は、ゲートリカレントユニット、ランダムフォレスト、ディープニューラルネットワーク、LSTMなど、他の機械学習アルゴリズムと一致している。
各障害に対する感性も分析され,主成分分析によりモデル能力が可視化された。
バランスの取れたデータセットに基づく別の実験は、継続音声を用いて音声障害を学習する利点を再度確認する。
関連論文リスト
- Developing vocal system impaired patient-aimed voice quality assessment approach using ASR representation-included multiple features [0.4681310436826459]
本稿では,音声認識と自己教師型学習表現の利用について紹介する。
実験ではPVQDデータセットのチェックを行い、英語における様々な声道系の損傷の原因をカバーし、パーキンソン病の患者に焦点を当てた日本語データセットを作成した。
PVQDの結果, PCCでは0.8, MSEでは0.5と顕著な相関がみられた。
論文 参考訳(メタデータ) (2024-08-22T10:22:53Z) - Show from Tell: Audio-Visual Modelling in Clinical Settings [58.88175583465277]
臨床環境でのオーディオ・ビジュアル・モデリングを考察し、人間の専門的アノテーションを使わずに医学的表現を学習するためのソリューションを提供する。
この目的のために, 単純かつ効果的なマルチモーダル自己教師型学習フレームワークを提案する。
提案手法は,音声のみを基準として,超音波画像中の解剖学的関心領域をローカライズすることができる。
論文 参考訳(メタデータ) (2023-10-25T08:55:48Z) - Detecting Speech Abnormalities with a Perceiver-based Sequence
Classifier that Leverages a Universal Speech Model [4.503292461488901]
いくつかの神経疾患の音声反射異常を検出するPerceiver-based sequenceを提案する。
このシーケンスとUniversal Speech Model (USM)を組み合わせ、1200万時間に及ぶ多様な音声録音をトレーニング(教師なし)する。
我々のモデルは標準変圧器 (80.9%) および知覚器 (81.8%) モデルより優れ、平均精度は83.1%である。
論文 参考訳(メタデータ) (2023-10-16T21:07:12Z) - Automatically measuring speech fluency in people with aphasia: first
achievements using read-speech data [55.84746218227712]
本研究の目的は,言語習得の分野で開発された信号処理algorithmの関連性を評価することである。
論文 参考訳(メタデータ) (2023-08-09T07:51:40Z) - Exploiting Cross-domain And Cross-Lingual Ultrasound Tongue Imaging
Features For Elderly And Dysarthric Speech Recognition [55.25565305101314]
調音機能は音響信号歪みに不変であり、音声認識システムにうまく組み込まれている。
本稿では,A2Aモデルにおける24時間TaLコーパスの並列音声・超音波舌画像(UTI)データを利用したクロスドメインおよびクロスランガルA2Aインバージョン手法を提案する。
生成した調音機能を組み込んだ3つのタスクの実験は、ベースラインのTDNNとコンフォーマーASRシステムより一貫して優れていた。
論文 参考訳(メタデータ) (2022-06-15T07:20:28Z) - Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z) - Exploiting Cross Domain Acoustic-to-articulatory Inverted Features For
Disordered Speech Recognition [57.15942628305797]
調音機能は音響信号歪みに不変であり、正常音声の自動音声認識システムにうまく組み込まれている。
本稿では,15時間 TORGO コーパスの並列音響・調音データをモデルトレーニングに用いるクロスドメイン音響・調音(A2A)インバージョン手法を提案する。
クロスドメインは102.7時間のUASpeechコーパスに適応し、調音的特徴を生産する。
論文 参考訳(メタデータ) (2022-03-19T08:47:18Z) - Investigation of Data Augmentation Techniques for Disordered Speech
Recognition [69.50670302435174]
本稿では,不規則音声認識のための一連のデータ拡張手法について検討する。
正常な音声と無秩序な音声の両方が増強過程に利用された。
UASpeechコーパスを用いた最終話者適応システムと、最大2.92%の絶対単語誤り率(WER)の速度摂動に基づく最良の拡張アプローチ
論文 参考訳(メタデータ) (2022-01-14T17:09:22Z) - Assessing clinical utility of Machine Learning and Artificial
Intelligence approaches to analyze speech recordings in Multiple Sclerosis: A
Pilot Study [1.6582693134062305]
本研究の目的は, 音声記録を用いた多発性硬化症の診断, バイオマーカー抽出, 進展モニタリングを支援するための機械学習と深層学習/AIアプローチの臨床的有用性を検討することである。
ランダムフォレストモデルは、バリデーションデータセットの精度0.82、トレーニングデータセットの5k倍サイクルの面積0.76の精度を達成した。
論文 参考訳(メタデータ) (2021-09-20T21:02:37Z) - Multi-Modal Detection of Alzheimer's Disease from Speech and Text [3.702631194466718]
本稿では,アルツハイマー病(AD)の診断に音声と対応する文字を同時に利用する深層学習手法を提案する。
提案手法は,Dementiabank Pitt corpus のトレーニングおよび評価において,85.3%のクロスバリデーション精度を実現する。
論文 参考訳(メタデータ) (2020-11-30T21:18:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。