論文の概要: Introducing ECAPA-TDNN and Wav2Vec2.0 Embeddings to Stuttering Detection
- arxiv url: http://arxiv.org/abs/2204.01564v1
- Date: Mon, 4 Apr 2022 15:12:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-05 17:25:58.393031
- Title: Introducing ECAPA-TDNN and Wav2Vec2.0 Embeddings to Stuttering Detection
- Title(参考訳): ECAPA-TDNNとWav2Vec2.0のスタッタ検出への埋め込みの導入
- Authors: Shakeel Ahmad Sheikh, Md Sahidullah, Fabrice Hirsch, Slim Ouni
- Abstract要約: 本研究は,大規模音声データセットに基づいて学習した訓練済みの深層モデルから抽出した音声埋め込みの応用を紹介する。
制限されたSEP-28kデータセットのみに基づいてトレーニングされた標準的な散乱検出システムと比較して、ベースラインの全体的な精度に関して、相対的な改善は16.74%である。
- 参考スコア(独自算出の注目度): 7.42741711946564
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The adoption of advanced deep learning (DL) architecture in stuttering
detection (SD) tasks is challenging due to the limited size of the available
datasets. To this end, this work introduces the application of speech
embeddings extracted with pre-trained deep models trained on massive audio
datasets for different tasks. In particular, we explore audio representations
obtained using emphasized channel attention, propagation, and
aggregation-time-delay neural network (ECAPA-TDNN) and Wav2Vec2.0 model trained
on VoxCeleb and LibriSpeech datasets respectively. After extracting the
embeddings, we benchmark with several traditional classifiers, such as a
k-nearest neighbor, Gaussian naive Bayes, and neural network, for the
stuttering detection tasks. In comparison to the standard SD system trained
only on the limited SEP-28k dataset, we obtain a relative improvement of 16.74%
in terms of overall accuracy over baseline. Finally, we have shown that
combining two embeddings and concatenating multiple layers of Wav2Vec2.0 can
further improve SD performance up to 1% and 2.64% respectively.
- Abstract(参考訳): スタッタリング検出(SD)タスクにおける高度なディープラーニング(DL)アーキテクチャの採用は、利用可能なデータセットのサイズが限られているため、難しい。
そこで本研究では,大量の音声データセットで学習した学習済み深層モデルを用いて抽出した音声埋め込みの応用について紹介する。
特に,voxceleb と librispeech データセットで学習した音声表現を,強調されたチャネル注意,伝播,集約時間遅延ニューラルネットワーク (ecapa-tdnn) と wav2vec2.0 モデルを用いて検討した。
埋め込みを抽出した後,k-nearest近傍,gaussian naive bayes,ニューラルネットワークなどの従来の分類器でベンチマークを行った。
制限されたSEP-28kデータセットでのみトレーニングされた標準SDシステムと比較して、ベースラインの全体的な精度に関して、相対的な改善は16.74%である。
最後に、2つの埋め込みと複数のwav2vec2.0の結合を組み合わせることで、それぞれ1%と2.64%のsdパフォーマンスがさらに向上することを示した。
関連論文リスト
- Spanning Training Progress: Temporal Dual-Depth Scoring (TDDS) for Enhanced Dataset Pruning [50.809769498312434]
我々は、時間的デュアルディープス・スコーリング(TDDS)と呼ばれる新しいデータセット・プルーニング手法を提案する。
本手法は,10%のトレーニングデータで54.51%の精度を達成し,ランダム選択を7.83%以上,他の比較手法を12.69%以上上回る結果を得た。
論文 参考訳(メタデータ) (2023-11-22T03:45:30Z) - Stuttering Detection Using Speaker Representations and Self-supervised
Contextual Embeddings [7.42741711946564]
本稿では,大規模音声データセットを訓練した事前学習したディープラーニングモデルから抽出した音声埋め込みの適用について紹介する。
限られたSEP-28kデータセットでのみトレーニングされた標準SDシステムと比較して、ベースラインを上回る平均リコール(UAR)で12.08%、28.71%、37.9%の相対的な改善が得られた。
論文 参考訳(メタデータ) (2023-06-01T14:00:47Z) - LEAN: Light and Efficient Audio Classification Network [1.5070398746522742]
音声分類のための軽量デバイス深層学習モデルLEANを提案する。
LEANは、ウェーブニアライメント(Wave realignment)と呼ばれる生波形ベースの時間的特徴抽出器と、ログメルベースの事前学習YAMNetから構成される。
トレーニング可能なウェーブエンコーダと事前学習されたYAMNetとクロスアテンションに基づく時間的アライメントを組み合わせることで、より少ないメモリフットプリントを持つ下流オーディオ分類タスクにおける競合性能が得られることを示す。
論文 参考訳(メタデータ) (2023-05-22T04:45:04Z) - BiFSMNv2: Pushing Binary Neural Networks for Keyword Spotting to
Real-Network Performance [54.214426436283134]
Deep-FSMNのようなディープニューラルネットワークはキーワードスポッティング(KWS)アプリケーションのために広く研究されている。
我々は、KWS、すなわちBiFSMNv2のための強力で効率的なバイナリニューラルネットワークを提示し、それを実ネットワーク精度のパフォーマンスにプッシュする。
小型アーキテクチャと最適化されたハードウェアカーネルの利点により、BiFSMNv2は25.1倍のスピードアップと20.2倍のストレージ節約を実現できる。
論文 参考訳(メタデータ) (2022-11-13T18:31:45Z) - Training speaker recognition systems with limited data [2.3148470932285665]
この研究は、現代の研究に比べてデータセットサイズがはるかに小さい話者認識のためのニューラルネットワークのトレーニングを検討する。
一般的なVoxCeleb2データセットの3つのサブセットを提案することで、データの量を人工的に制限する。
トレーニングデータに制限がある場合,wav2vec2の自己教師付き事前訓練重量が有意に向上することを示す。
論文 参考訳(メタデータ) (2022-03-28T12:41:41Z) - STC speaker recognition systems for the NIST SRE 2021 [56.05258832139496]
本稿では,NIST 2021話者認識評価に提出されたSTCシステムについて述べる。
これらのシステムは、ディープニューラルネットワークを特徴抽出器として利用する様々なサブシステムで構成されている。
ビデオモダリティのために、大きな顔画像データセットに基づいて訓練されたRetinaFace顔検出器と深層ResNet顔埋め込み抽出器を用いた最良のソリューションを開発した。
論文 参考訳(メタデータ) (2021-11-03T15:31:01Z) - Self-supervised Audiovisual Representation Learning for Remote Sensing Data [96.23611272637943]
遠隔センシングにおける深層ニューラルネットワークの事前学習のための自己教師型アプローチを提案する。
ジオタグ付きオーディオ記録とリモートセンシングの対応を利用して、これは完全にラベルなしの方法で行われる。
提案手法は,既存のリモートセンシング画像の事前学習方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-02T07:50:50Z) - A Deep Neural Network for SSVEP-based Brain-Computer Interfaces [3.0595138995552746]
脳-コンピュータインターフェース(BCI)のスペルのターゲット識別(英: Target Identification)とは、被験者がスペルを意図したターゲット特性を予測する脳波分類(EEG)を指す。
この設定では、ターゲット同定に対処し、新しいディープニューラルネットワーク(DNN)アーキテクチャを提案する。
提案したDNNは、マルチチャネルSSVEPを、ハーモニック、チャンネル、時間、および完全に接続された層で分類されたサブバンド間の畳み込みで処理する。
論文 参考訳(メタデータ) (2020-11-17T11:11:19Z) - Device-Robust Acoustic Scene Classification Based on Two-Stage
Categorization and Data Augmentation [63.98724740606457]
我々は,GT,USTC,Tencent,UKEの4つのグループからなる共同で,DCASE 2020 Challengeの第1タスク - 音響シーン分類(ASC)に取り組む。
タスク1aは、複数の(実とシミュレートされた)デバイスで記録されたオーディオ信号のASCを10種類の微細なクラスにフォーカスする。
Task 1bは、低複雑さのソリューションを使用して、データを3つの上位クラスに分類することに関心がある。
論文 参考訳(メタデータ) (2020-07-16T15:07:14Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。