論文の概要: Convoifilter: A case study of doing cocktail party speech recognition
- arxiv url: http://arxiv.org/abs/2308.11380v3
- Date: Sun, 7 Apr 2024 13:27:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-10 04:47:47.158293
- Title: Convoifilter: A case study of doing cocktail party speech recognition
- Title(参考訳): Convoifilter : カクテルパーティー音声認識の事例
- Authors: Thai-Binh Nguyen, Alexander Waibel,
- Abstract要約: このモデルは、このアプローチにより、ASRの単語誤り率(WER)を80%から26.4%に下げることができる。
我々はオープンに事前学習モデルを共有し、hf.co/nguyenvulebinh/voice-filterのさらなる研究を促進する。
- 参考スコア(独自算出の注目度): 59.80042864360884
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents an end-to-end model designed to improve automatic speech recognition (ASR) for a particular speaker in a crowded, noisy environment. The model utilizes a single-channel speech enhancement module that isolates the speaker's voice from background noise (ConVoiFilter) and an ASR module. The model can decrease ASR's word error rate (WER) from 80% to 26.4% through this approach. Typically, these two components are adjusted independently due to variations in data requirements. However, speech enhancement can create anomalies that decrease ASR efficiency. By implementing a joint fine-tuning strategy, the model can reduce the WER from 26.4% in separate tuning to 14.5% in joint tuning. We openly share our pre-trained model to foster further research hf.co/nguyenvulebinh/voice-filter.
- Abstract(参考訳): 本稿では、混み合った雑音環境下で、特定の話者に対する音声認識(ASR)を改善するために設計されたエンドツーエンドモデルを提案する。
このモデルは、話者の声を背景雑音(ConVoiFilter)とASRモジュールから分離する単一チャンネル音声強調モジュールを利用する。
このモデルは、このアプローチにより、ASRの単語誤り率(WER)を80%から26.4%に下げることができる。
通常、これらの2つのコンポーネントはデータ要求の変化のために独立して調整される。
しかし、音声強調は、ASR効率を低下させる異常を引き起こす可能性がある。
ジョイントファインチューニング戦略を実装することで、WERを26.4%の個別チューニングから14.5%のジョイントチューニングに削減することができる。
我々はオープンに事前学習モデルを共有し、hf.co/nguyenvulebinh/voice-filterのさらなる研究を促進する。
関連論文リスト
- D4AM: A General Denoising Framework for Downstream Acoustic Models [45.04967351760919]
音声強調(SE)は、自動音声認識(ASR)システムを支援するフロントエンド戦略として用いられる。
既存のSE手法の訓練目的は、未知のASRシステムに向けたトレーニングのために、音声テキストとノイズクリーンなペアデータを統合するのに完全には有効ではない。
そこで我々は,様々な下流音響モデルのための一般的なデノベーションフレームワークD4AMを提案する。
論文 参考訳(メタデータ) (2023-11-28T08:27:27Z) - Disentangling Voice and Content with Self-Supervision for Speaker
Recognition [57.446013973449645]
本稿では,音声における話者の特性と内容の変動を同時にモデル化するアンタングル化フレームワークを提案する。
実験はVoxCelebとSITWのデータセットで実施され、EERとminDCFの平均減少率は9.56%と8.24%である。
論文 参考訳(メタデータ) (2023-10-02T12:02:07Z) - Audio-visual End-to-end Multi-channel Speech Separation, Dereverberation
and Recognition [52.11964238935099]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
ビデオ入力は、マスクベースのMVDR音声分離、DNN-WPEまたはスペクトルマッピング(SpecM)ベースの音声残響フロントエンドで一貫して実証される。
オックスフォードLSS2データセットのシミュレーションや再生を用いて合成した重畳および残響音声データについて実験を行った。
論文 参考訳(メタデータ) (2023-07-06T10:50:46Z) - Unifying Speech Enhancement and Separation with Gradient Modulation for
End-to-End Noise-Robust Speech Separation [23.758202121043805]
本稿では,音声の強調と分離を勾配変調で統一し,ノイズ・ロバスト性を改善する新しいネットワークを提案する。
実験結果から,大規模Libri2Mix-およびLibri3Mix-noisyデータセットの最先端化が得られた。
論文 参考訳(メタデータ) (2023-02-22T03:54:50Z) - Unified End-to-End Speech Recognition and Endpointing for Fast and
Efficient Speech Systems [17.160006765475988]
本稿では,単一エンドツーエンド (E2E) モデルを用いて, ASR と EP タスクを協調訓練する手法を提案する。
我々は、EPにオーディオフレームを直接消費するか、ASRモデルから低レベルの潜在表現を消費するよう訓練する「スウィッチ」接続を導入する。
これにより、推論中にフレームフィルタリングを低コストで行うことができる単一のE2Eモデルが得られる。
論文 参考訳(メタデータ) (2022-11-01T23:43:15Z) - An Experimental Study on Private Aggregation of Teacher Ensemble
Learning for End-to-End Speech Recognition [51.232523987916636]
差分プライバシー(DP)は、プライバシーデータにノイズのある歪みを課すことで、深層モデルのトレーニングに使用されるユーザー情報を保護するための1つのデータ保護手段である。
本研究では、PATE学習を動的パターン、すなわち音声を扱うように拡張し、音響データの漏洩を避けるために、ASRに関する最初の実験を行う。
論文 参考訳(メタデータ) (2022-10-11T16:55:54Z) - Acoustic-to-articulatory Inversion based on Speech Decomposition and
Auxiliary Feature [7.363994037183394]
我々は、音声分解ネットワークを事前訓練し、音声を話者埋め込みとコンテンツ埋め込みに分解する。
次に、パーソナライズされた音声特徴から唇補助特徴を推定する新しい補助特徴ネットワークを提案する。
実験結果から,提案手法は,音声特徴のみを用いた最先端の手法と比較して平均RMSEを0.25削減し,平均相関係数を2.0%向上させることがわかった。
論文 参考訳(メタデータ) (2022-04-02T14:47:19Z) - A Conformer Based Acoustic Model for Robust Automatic Speech Recognition [63.242128956046024]
提案手法は,二方向長短期記憶(BLSTM)モデルと発話ワイドドロップアウトと反復話者適応を用いて,最先端の音声認識システムを構築した。
コンフォーマーエンコーダは、音響モデリングに畳み込み強化されたアテンションメカニズムを使用する。
提案システムはCHiME-4コーパスの単調なASRタスクに基づいて評価される。
論文 参考訳(メタデータ) (2022-03-01T20:17:31Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - A Unified Speaker Adaptation Approach for ASR [37.76683818356052]
本稿では,特徴適応とモデル適応からなる統一話者適応手法を提案する。
特徴適応には話者認識型永続記憶モデルを用い、未確認話者に対してより良く一般化する。
モデル適応には、モデルアーキテクチャを変更することなく、新たな段階的なプルーニング手法を用いてターゲット話者に適応する。
論文 参考訳(メタデータ) (2021-10-16T10:48:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。