論文の概要: Stuttering Detection Using Speaker Representations and Self-supervised
Contextual Embeddings
- arxiv url: http://arxiv.org/abs/2306.00689v1
- Date: Thu, 1 Jun 2023 14:00:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 15:55:56.427339
- Title: Stuttering Detection Using Speaker Representations and Self-supervised
Contextual Embeddings
- Title(参考訳): 話者表現と自己教師付き文脈埋め込みを用いた発声検出
- Authors: Shakeel A. Sheikh, Md Sahidullah, Fabrice Hirsch, Slim Ouni
- Abstract要約: 本稿では,大規模音声データセットを訓練した事前学習したディープラーニングモデルから抽出した音声埋め込みの適用について紹介する。
限られたSEP-28kデータセットでのみトレーニングされた標準SDシステムと比較して、ベースラインを上回る平均リコール(UAR)で12.08%、28.71%、37.9%の相対的な改善が得られた。
- 参考スコア(独自算出の注目度): 7.42741711946564
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: The adoption of advanced deep learning architectures in stuttering detection
(SD) tasks is challenging due to the limited size of the available datasets. To
this end, this work introduces the application of speech embeddings extracted
from pre-trained deep learning models trained on large audio datasets for
different tasks. In particular, we explore audio representations obtained using
emphasized channel attention, propagation, and aggregation time delay neural
network (ECAPA-TDNN) and Wav2Vec2.0 models trained on VoxCeleb and LibriSpeech
datasets respectively. After extracting the embeddings, we benchmark with
several traditional classifiers, such as the K-nearest neighbour (KNN),
Gaussian naive Bayes, and neural network, for the SD tasks. In comparison to
the standard SD systems trained only on the limited SEP-28k dataset, we obtain
a relative improvement of 12.08%, 28.71%, 37.9% in terms of unweighted average
recall (UAR) over the baselines. Finally, we have shown that combining two
embeddings and concatenating multiple layers of Wav2Vec2.0 can further improve
the UAR by up to 2.60% and 6.32% respectively.
- Abstract(参考訳): stuttering detection(sd)タスクにおける高度なディープラーニングアーキテクチャの採用は、利用可能なデータセットのサイズが限られているため、難しい。
そこで本研究では,大規模音声データセットで学習した事前学習深層学習モデルから抽出した音声埋め込みの適用について紹介する。
特に,voxceleb と librispeech データセットで学習した音声表現を,強調されたチャネル注意,伝播,集約時間遅延ニューラルネットワーク (ecapa-tdnn) と wav2vec2.0 モデルを用いて検討した。
埋め込みを抽出した後、SDタスクのためにK-nearest neighbor(KNN)、Gaussian naive Bayes(英語版)、ニューラルネットワークなどの従来の分類器をベンチマークする。
sep-28kデータセットでのみトレーニングされた標準sdシステムと比較すると、ベースライン上でのuar(unweighted average recall)の相対的な改善率は12.08%、28.71%、37.9%である。
最後に、Wav2Vec2.0の2つの埋め込みと複数のレイヤを結合することで、UARをさらに2.60%と6.32%改善できることを示した。
関連論文リスト
- SparseVSR: Lightweight and Noise Robust Visual Speech Recognition [100.43280310123784]
我々は,高密度モデルよりも高い性能を実現する軽量モデルを生成する。
その結果,疎結合ネットワークは高密度ネットワークよりもノイズに耐性があることが確認された。
論文 参考訳(メタデータ) (2023-07-10T13:34:13Z) - Audio-Visual Efficient Conformer for Robust Speech Recognition [91.3755431537592]
本稿では,近年提案されている高能率コンバータ接続性時間分類アーキテクチャの雑音を,音声と視覚の両方を処理して改善することを提案する。
実験の結果,音声と視覚のモダリティを用いることで,環境騒音の存在下での音声の認識が向上し,トレーニングが大幅に加速し,WERが4倍のトレーニングステップで低下することが確認された。
論文 参考訳(メタデータ) (2023-01-04T05:36:56Z) - Introducing ECAPA-TDNN and Wav2Vec2.0 Embeddings to Stuttering Detection [7.42741711946564]
本研究は,大規模音声データセットに基づいて学習した訓練済みの深層モデルから抽出した音声埋め込みの応用を紹介する。
制限されたSEP-28kデータセットのみに基づいてトレーニングされた標準的な散乱検出システムと比較して、ベースラインの全体的な精度に関して、相対的な改善は16.74%である。
論文 参考訳(メタデータ) (2022-04-04T15:12:25Z) - Training speaker recognition systems with limited data [2.3148470932285665]
この研究は、現代の研究に比べてデータセットサイズがはるかに小さい話者認識のためのニューラルネットワークのトレーニングを検討する。
一般的なVoxCeleb2データセットの3つのサブセットを提案することで、データの量を人工的に制限する。
トレーニングデータに制限がある場合,wav2vec2の自己教師付き事前訓練重量が有意に向上することを示す。
論文 参考訳(メタデータ) (2022-03-28T12:41:41Z) - Multi-turn RNN-T for streaming recognition of multi-party speech [2.899379040028688]
この研究は、モデル設計における第一優先事項としてリアルタイム適用性を求め、マルチスピーカリカレントニューラルネットワークトランスデューサ(MS-RNN-T)に関する以前の研究におけるいくつかの課題に対処する。
トレーニング中に重なり合う音声シミュレーションを導入し、LibriSpeechMixテストセットの相対単語誤り率(WER)を14%改善した。
本稿では,モデルアーキテクチャの変更を伴わずに任意の話者数に一般化する重畳型ターゲットアレンジメント戦略を備えた,新しいマルチターンRNN-T(MT-RNN-T)モデルを提案する。
論文 参考訳(メタデータ) (2021-12-19T17:22:58Z) - STC speaker recognition systems for the NIST SRE 2021 [56.05258832139496]
本稿では,NIST 2021話者認識評価に提出されたSTCシステムについて述べる。
これらのシステムは、ディープニューラルネットワークを特徴抽出器として利用する様々なサブシステムで構成されている。
ビデオモダリティのために、大きな顔画像データセットに基づいて訓練されたRetinaFace顔検出器と深層ResNet顔埋め込み抽出器を用いた最良のソリューションを開発した。
論文 参考訳(メタデータ) (2021-11-03T15:31:01Z) - BigSSL: Exploring the Frontier of Large-Scale Semi-Supervised Learning
for Automatic Speech Recognition [126.5605160882849]
事前学習,自己学習,モデルサイズのスケールアップの組み合わせによって,データの効率が大幅に向上することがわかった。
本稿では,大規模な下流タスクに対して,事前学習モデルと自己学習モデルを使用することによって得られる普遍的なメリットについて報告する。
論文 参考訳(メタデータ) (2021-09-27T17:59:19Z) - Device-Robust Acoustic Scene Classification Based on Two-Stage
Categorization and Data Augmentation [63.98724740606457]
我々は,GT,USTC,Tencent,UKEの4つのグループからなる共同で,DCASE 2020 Challengeの第1タスク - 音響シーン分類(ASC)に取り組む。
タスク1aは、複数の(実とシミュレートされた)デバイスで記録されたオーディオ信号のASCを10種類の微細なクラスにフォーカスする。
Task 1bは、低複雑さのソリューションを使用して、データを3つの上位クラスに分類することに関心がある。
論文 参考訳(メタデータ) (2020-07-16T15:07:14Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。