論文の概要: Detecting Speech Abnormalities with a Perceiver-based Sequence
Classifier that Leverages a Universal Speech Model
- arxiv url: http://arxiv.org/abs/2310.13010v1
- Date: Mon, 16 Oct 2023 21:07:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-29 16:11:03.411805
- Title: Detecting Speech Abnormalities with a Perceiver-based Sequence
Classifier that Leverages a Universal Speech Model
- Title(参考訳): ユニバーサル音声モデルを利用した知覚型シーケンス分類器による音声異常検出
- Authors: Hagen Soltau, Izhak Shafran, Alex Ottenwess, Joseph R. JR Duffy, Rene
L. Utianski, Leland R. Barnard, John L. Stricker, Daniela Wiepert, David T.
Jones, Hugo Botha
- Abstract要約: いくつかの神経疾患の音声反射異常を検出するPerceiver-based sequenceを提案する。
このシーケンスとUniversal Speech Model (USM)を組み合わせ、1200万時間に及ぶ多様な音声録音をトレーニング(教師なし)する。
我々のモデルは標準変圧器 (80.9%) および知覚器 (81.8%) モデルより優れ、平均精度は83.1%である。
- 参考スコア(独自算出の注目度): 4.503292461488901
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a Perceiver-based sequence classifier to detect abnormalities in
speech reflective of several neurological disorders. We combine this classifier
with a Universal Speech Model (USM) that is trained (unsupervised) on 12
million hours of diverse audio recordings. Our model compresses long sequences
into a small set of class-specific latent representations and a factorized
projection is used to predict different attributes of the disordered input
speech. The benefit of our approach is that it allows us to model different
regions of the input for different classes and is at the same time data
efficient. We evaluated the proposed model extensively on a curated corpus from
the Mayo Clinic. Our model outperforms standard transformer (80.9%) and
perceiver (81.8%) models and achieves an average accuracy of 83.1%. With
limited task-specific data, we find that pretraining is important and
surprisingly pretraining with the unrelated automatic speech recognition (ASR)
task is also beneficial. Encodings from the middle layers provide a mix of both
acoustic and phonetic information and achieve best prediction results compared
to just using the final layer encodings (83.1% vs. 79.6%). The results are
promising and with further refinements may help clinicians detect speech
abnormalities without needing access to highly specialized speech-language
pathologists.
- Abstract(参考訳): 本稿では,複数の神経疾患の音声反射の異常を検出する知覚器に基づくシーケンス分類器を提案する。
この分類器を、1200万時間に及ぶ様々な音声録音で訓練(教師なし)されたユニバーサル音声モデル(usm)と組み合わせる。
本モデルでは,長い列をクラス固有の潜在表現の小さなセットに圧縮し,不規則な入力音声の異なる属性を予測するために,分解プロジェクションを用いる。
私たちのアプローチの利点は、異なるクラスの入力の異なる領域をモデル化できると同時に、データ効率も良いことです。
マヨクリニックのキュレートコーパスを用いて,提案モデルを広範囲に評価した。
我々のモデルは標準変圧器 (80.9%) および知覚器 (81.8%) モデルより優れ、平均精度は83.1%である。
タスク固有の限られたデータでは、非関連自動音声認識(ASR)タスクで事前訓練が重要であり、驚くほど事前訓練することが有用である。
中間層からのエンコーディングは音響情報と音声情報の両方を提供し、最終層エンコーディング(83.1%対79.6%)のみを使用して最高の予測結果を得る。
結果は有望であり、さらなる改善により、臨床医は高度に専門化された言語病理学者にアクセスすることなく、音声異常を検出することができる。
関連論文リスト
- Reproducible Machine Learning-based Voice Pathology Detection: Introducing the Pitch Difference Feature [1.1455937444848385]
本稿では,音声病理診断における現代的実践の徹底的な研究から得られた,ロバストな特徴セットを提案する。
K-Means Synthetic Minority Over-Sampling Technique(K-Means Synthetic Over-Sampling Technique)アルゴリズムを用いて,Sarbr"ucken Voice Database(SVD)のデータを含むこの機能セットを組み合わせる。
提案手法は,音声病理診断における非重み付き平均リコールによって測定された最先端の性能を達成している。
論文 参考訳(メタデータ) (2024-10-14T14:17:52Z) - Speaker-Independent Dysarthria Severity Classification using
Self-Supervised Transformers and Multi-Task Learning [2.7706924578324665]
本研究では, 生音声データから難聴度を自動的に評価するトランスフォーマーに基づく枠組みを提案する。
話者非依存型遅発性重度分類のための多タスク学習目標とコントラスト学習を組み込んだ,話者非依存型遅発性正規化(SALR)と呼ばれるフレームワークを開発した。
我々のモデルは従来の機械学習手法よりも優れた性能を示し、精度は70.48%$、F1スコアは59.23%$である。
論文 参考訳(メタデータ) (2024-02-29T18:30:52Z) - Show from Tell: Audio-Visual Modelling in Clinical Settings [58.88175583465277]
臨床環境でのオーディオ・ビジュアル・モデリングを考察し、人間の専門的アノテーションを使わずに医学的表現を学習するためのソリューションを提供する。
この目的のために, 単純かつ効果的なマルチモーダル自己教師型学習フレームワークを提案する。
提案手法は,音声のみを基準として,超音波画像中の解剖学的関心領域をローカライズすることができる。
論文 参考訳(メタデータ) (2023-10-25T08:55:48Z) - Exploring Speech Recognition, Translation, and Understanding with
Discrete Speech Units: A Comparative Study [68.88536866933038]
音声信号は、通常、毎秒数万のレートでサンプリングされ、冗長性を含んでいる。
近年の研究では、自己教師型学習表現から派生した離散音声単位の使用が提案されている。
復号化やサブワードモデリングなどの様々な手法を適用することで、さらに音声列の長さを圧縮することができる。
論文 参考訳(メタデータ) (2023-09-27T17:21:13Z) - Automatically measuring speech fluency in people with aphasia: first
achievements using read-speech data [55.84746218227712]
本研究の目的は,言語習得の分野で開発された信号処理algorithmの関連性を評価することである。
論文 参考訳(メタデータ) (2023-08-09T07:51:40Z) - Exploiting Cross-domain And Cross-Lingual Ultrasound Tongue Imaging
Features For Elderly And Dysarthric Speech Recognition [55.25565305101314]
調音機能は音響信号歪みに不変であり、音声認識システムにうまく組み込まれている。
本稿では,A2Aモデルにおける24時間TaLコーパスの並列音声・超音波舌画像(UTI)データを利用したクロスドメインおよびクロスランガルA2Aインバージョン手法を提案する。
生成した調音機能を組み込んだ3つのタスクの実験は、ベースラインのTDNNとコンフォーマーASRシステムより一貫して優れていた。
論文 参考訳(メタデータ) (2022-06-15T07:20:28Z) - A Highly Adaptive Acoustic Model for Accurate Multi-Dialect Speech
Recognition [80.87085897419982]
単一AMを用いた高精度多言語音声認識のための新しい音響モデリング手法を提案する。
提案するAMは、方言情報とその内部表現に基づいて動的に適応し、複数の方言を同時に扱うための高度適応型AMとなる。
大規模音声データセットにおける実験結果から,提案したAMは,方言固有のAMと比較して,単語誤り率(WER)が8.11%,方言固有のAMに比べて7.31%向上していることがわかった。
論文 参考訳(メタデータ) (2022-05-06T06:07:09Z) - Continuous Speech for Improved Learning Pathological Voice Disorders [12.867900671251395]
本研究では,単一母音の代わりに連続マンダリン音声を用いて4つの共通音声障害を分類する手法を提案する。
提案手法では, 音響信号をメル周波数ケプストラム係数に変換し, 双方向長周期メモリネットワーク(BiLSTM)を採用して, 逐次的特徴をモデル化する。
論文 参考訳(メタデータ) (2022-02-22T09:58:31Z) - Self-Normalized Importance Sampling for Neural Language Modeling [97.96857871187052]
本研究では, 自己正規化重要度サンプリングを提案し, これまでの研究と比較すると, 本研究で考慮された基準は自己正規化されており, さらに修正を行う必要はない。
提案する自己正規化重要度サンプリングは,研究指向と生産指向の両方の自動音声認識タスクにおいて競合することを示す。
論文 参考訳(メタデータ) (2021-11-11T16:57:53Z) - Audio Interval Retrieval using Convolutional Neural Networks [0.0]
本稿では,自然言語クエリに基づく音声イベント検索の可能性を検討することを目的とする。
特に、オーディオサンプルを自動的に分類するために、YamNet、AlexNet、ResNet-50の事前訓練モデルに焦点を当てます。
結果,ベンチマークモデルの性能は同等であり,YamNetは他の2モデルよりも若干優れていた。
論文 参考訳(メタデータ) (2021-09-21T01:32:18Z) - Multi-Modal Detection of Alzheimer's Disease from Speech and Text [3.702631194466718]
本稿では,アルツハイマー病(AD)の診断に音声と対応する文字を同時に利用する深層学習手法を提案する。
提案手法は,Dementiabank Pitt corpus のトレーニングおよび評価において,85.3%のクロスバリデーション精度を実現する。
論文 参考訳(メタデータ) (2020-11-30T21:18:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。