論文の概要: Detecting Vocal Fatigue with Neural Embeddings
- arxiv url: http://arxiv.org/abs/2204.03428v1
- Date: Thu, 7 Apr 2022 13:18:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-08 15:21:53.537275
- Title: Detecting Vocal Fatigue with Neural Embeddings
- Title(参考訳): ニューラルエンベディングによる声帯疲労の検出
- Authors: Sebastian P. Bayerl, Dominik Wagner, Ilja Baumann, Korbinian
Riedhammer, Tobias Bocklet
- Abstract要約: 発声疲労(Vocal exhaust)とは、使用量の増加による疲労感と発声の弱さをいう。
本稿では, 発声疲労検出のための神経埋め込みの有効性について検討する。
- 参考スコア(独自算出の注目度): 6.823142431539457
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vocal fatigue refers to the feeling of tiredness and weakness of voice due to
extended utilization. This paper investigates the effectiveness of neural
embeddings for the detection of vocal fatigue. We compare x-vectors,
ECAPA-TDNN, and wav2vec 2.0 embeddings on a corpus of academic spoken English.
Low-dimensional mappings of the data reveal that neural embeddings capture
information about the change in vocal characteristics of a speaker during
prolonged voice usage. We show that vocal fatigue can be reliably predicted
using all three kinds of neural embeddings after only 50 minutes of continuous
speaking when temporal smoothing and normalization are applied to the extracted
embeddings. We employ support vector machines for classification and achieve
accuracy scores of 81% using x-vectors, 85% using ECAPA-TDNN embeddings, and
82% using wav2vec 2.0 embeddings as input features. We obtain an accuracy score
of 76%, when the trained system is applied to a different speaker and recording
environment without any adaptation.
- Abstract(参考訳): 声の疲労は、拡張使用による疲労感と音声の弱さを指す。
本稿では, 発声疲労検出のための神経埋め込みの有効性について検討する。
x-vectors, ecapa-tdnn, wav2vec 2.0を学術英語コーパスで比較した。
データの低次元マッピングは、ニューラルネットワークが話者の発声特性の変化に関する情報を長い音声使用中にキャプチャすることを示している。
抽出した埋め込みに時間的平滑化と正規化を適用した場合, 連続発話後50分で3種類のニューラル埋め込みを用いて発声疲労を確実に予測できることを示す。
我々は,x-ベクトルを用いて81%,ecapa-tdnn組込みで85%,入力特徴としてwav2vec 2.0組込みを用いて82%の精度スコアを得た。
学習したシステムが異なる話者と記録環境に適用された場合、適応せずに76%の精度スコアを得る。
関連論文リスト
- EchoVest: Real-Time Sound Classification and Depth Perception Expressed
through Transcutaneous Electrical Nerve Stimulation [0.0]
我々は、視覚障害者や聴覚障害者が自分の環境をより直感的に認識できるように、新しい補助デバイス、EchoVestを開発した。
EchoVestは、音の音源に基づいて経皮的電気神経刺激(TENS)を利用して、ユーザの身体に振動を伝達する。
我々は、CNNベースの機械学習モデルよりも精度と計算コストにおいて、分類タスクに最もよく使用される機械学習モデルより優れていることを目指していた。
論文 参考訳(メタデータ) (2023-07-10T14:43:32Z) - A New Benchmark of Aphasia Speech Recognition and Detection Based on
E-Branchformer and Multi-task Learning [29.916793641951507]
本稿では,最新の音声認識技術を用いた失語症音声認識のための新しいベンチマークを提案する。
CTC/Attentionアーキテクチャに基づく2つのマルチタスク学習手法を導入し、両方のタスクを同時に実行する。
当システムでは,中等度失語症患者に対して,最先端の話者レベル検出精度(97.3%)と相対的なWER低下率(1%)を達成している。
論文 参考訳(メタデータ) (2023-05-19T15:10:36Z) - Nonwords Pronunciation Classification in Language Development Tests for
Preschool Children [7.224391516694955]
本研究の目的は,子どもの言語発達が年齢的に適切かどうかを自動評価することである。
本研究の課題は、発話された非単語が正しく発声されたかどうかを判断することである。
特定の言語構造をモデル化する動機付けの異なるアプローチを比較する。
論文 参考訳(メタデータ) (2022-06-16T10:19:47Z) - Detecting Dysfluencies in Stuttering Therapy Using wav2vec 2.0 [0.22940141855172028]
英語コーパスのスタブリング分類のための微調整wav2vec 2.0は、汎用的特徴の有効性を高める。
本稿では、Fluencybankとドイツのセラピー中心のKassel State of Fluencyデータセットについて評価する。
論文 参考訳(メタデータ) (2022-04-07T13:02:12Z) - Investigation of Data Augmentation Techniques for Disordered Speech
Recognition [69.50670302435174]
本稿では,不規則音声認識のための一連のデータ拡張手法について検討する。
正常な音声と無秩序な音声の両方が増強過程に利用された。
UASpeechコーパスを用いた最終話者適応システムと、最大2.92%の絶対単語誤り率(WER)の速度摂動に基づく最良の拡張アプローチ
論文 参考訳(メタデータ) (2022-01-14T17:09:22Z) - Speech Tasks Relevant to Sleepiness Determined with Deep Transfer
Learning [4.051599961895359]
注意を要する文脈での過度な眠気は、自動車事故などの有害事象を引き起こすことがある。
本稿では、Voiceomeデータセットを用いて、1,828人の参加者から音声を抽出し、HuBERT(Hidden-Unit BERT)音声表現を用いた深層移動学習モデルを構築し、個人の眠気を検出する。
論文 参考訳(メタデータ) (2021-11-29T16:46:29Z) - Real-time Speaker counting in a cocktail party scenario using
Attention-guided Convolutional Neural Network [60.99112031408449]
重なり合う音声におけるアクティブ話者数を推定するために,CNN(Real-time, Single-channel attention-guided Convolutional Neural Network)を提案する。
提案システムは,CNNモデルを用いて音声スペクトルから高レベル情報を抽出する。
WSJコーパスを用いた重畳音声のシミュレーション実験により,従来の時間平均プーリングに比べて,注意解がほぼ3%向上することが示されている。
論文 参考訳(メタデータ) (2021-10-30T19:24:57Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z) - Preliminary study on using vector quantization latent spaces for TTS/VC
systems with consistent performance [55.10864476206503]
本稿では,潜在言語埋め込みをモデル化するための量子化ベクトルの利用について検討する。
トレーニングにおいて、潜伏空間上の異なるポリシーを強制することにより、潜伏言語埋め込みを得ることができる。
実験の結果,ベクトル量子化法で構築した音声クローニングシステムは,知覚的評価の点でわずかに劣化していることがわかった。
論文 参考訳(メタデータ) (2021-06-25T07:51:35Z) - Pushing the Limits of Semi-Supervised Learning for Automatic Speech
Recognition [97.44056170380726]
我々は,半教師付き学習と自動音声認識の組み合わせを用いて,LibriSpeechの最先端結果を得る。
我々は,wav2vec 2.0事前学習を用いた巨大コンフォーマーモデルを用いてSpecAugmentを用いたノイズの多い学生訓練を行う。
We can able to achieve word-error-rates (WERs) 1.4%/2.6% on the LibriSpeech test/test-other set against the current-of-the-art WERs 1.7%/3.3%。
論文 参考訳(メタデータ) (2020-10-20T17:58:13Z) - Characterizing Speech Adversarial Examples Using Self-Attention U-Net
Enhancement [102.48582597586233]
本稿では,U-Net$_At$という,U-Netに基づくアテンションモデルを提案する。
対戦型音声アタックを用いた自動音声認識(ASR)タスクの実験を行った。
論文 参考訳(メタデータ) (2020-03-31T02:16:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。