論文の概要: Task-aware Warping Factors in Mask-based Speech Enhancement
- arxiv url: http://arxiv.org/abs/2108.12128v1
- Date: Fri, 27 Aug 2021 05:57:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-30 14:05:10.362525
- Title: Task-aware Warping Factors in Mask-based Speech Enhancement
- Title(参考訳): マスク型音声強調におけるタスク認識のワープ要因
- Authors: Qiongqiong Wang, Kong Aik Lee, Takafumi Koshinaka, Koji Okabe, Hitoshi
Yamamoto
- Abstract要約: マスクベース音声強調(SE)における2つのタスク認識ワープ要素の利用を提案する。
1つは訓練段階における音声維持とノイズ除去のバランスを制御し、もう1つは特定の下流タスクに適用されたSEパワーを制御する。
マスクベースのSE法に提案した2重ウォーピング因子アプローチを適用することは容易である。
- 参考スコア(独自算出の注目度): 31.913984833849753
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes the use of two task-aware warping factors in mask-based
speech enhancement (SE). One controls the balance between speech-maintenance
and noise-removal in training phases, while the other controls SE power applied
to specific downstream tasks in testing phases. Our intention is to alleviate
the problem that SE systems trained to improve speech quality often fail to
improve other downstream tasks, such as automatic speaker verification (ASV)
and automatic speech recognition (ASR), because they do not share the same
objects. It is easy to apply the proposed dual-warping factors approach to any
mask-based SE method, and it allows a single SE system to handle multiple tasks
without task-dependent training. The effectiveness of our proposed approach has
been confirmed on the SITW dataset for ASV evaluation and the LibriSpeech
dataset for ASR and speech quality evaluations of 0-20dB. We show that
different warping values are necessary for a single SE to achieve optimal
performance w.r.t. the three tasks. With the use of task-dependent warping
factors, speech quality was improved by an 84.7% PESQ increase, ASV had a 22.4%
EER reduction, and ASR had a 52.2% WER reduction, on 0dB speech. The
effectiveness of the task-dependent warping factors were also cross-validated
on VoxCeleb-1 test set for ASV and LibriSpeech dev-clean set for ASV and
quality evaluations. The proposed method is highly effective and easy to apply
in practice.
- Abstract(参考訳): 本稿では,マスクベース音声強調(SE)における2つのタスク認識ワープ要素の利用を提案する。
1つは、トレーニングフェーズにおける音声保守とノイズ除去のバランスを制御し、もう1つはテストフェーズにおける特定の下流タスクに適用されるse電力を制御する。
我々の意図は、SEシステムが音声品質を改善するために訓練された問題は、同じオブジェクトを共有しないため、自動話者検証(ASV)や自動音声認識(ASR)など、他の下流タスクの改善に失敗することが多いことである。
提案手法を任意のマスクベースのse法に適用することは容易であり、単一のseシステムがタスクに依存しないトレーニングなしで複数のタスクを処理できる。
提案手法の有効性は,ASV評価のためのSITWデータセットとASRのためのLibriSpeechデータセット,および0-20dBの音声品質評価において確認されている。
一つのseが最適な性能を達成するためには、異なる反り値が必要であることを示す。
3つのタスク。
タスク依存のワープ要因を用いることで、音声品質は84.7%向上し、ASVは22.4%削減、ASRは52.2%低下した。
また, ASV用VoxCeleb-1テストセットと, ASV用LibriSpeech開発クリーンセットと品質評価用VoxCeleb-1テストセットに対して, タスク依存のワープ係数の有効性をクロスバリデーションした。
提案手法は極めて有効であり,実用化が容易である。
関連論文リスト
- Diffusion Conditional Expectation Model for Efficient and Robust Target
Speech Extraction [73.43534824551236]
ターゲット音声抽出(TSE)のための条件拡散予測モデル(DCEM)という効率的な生成手法を提案する。
ノイズとクリーンな条件の両方で、マルチとシングルスピーカーのシナリオを処理できる。
本手法は,従来の手法よりも侵入的指標と非侵入的指標の両方で優れていた。
論文 参考訳(メタデータ) (2023-09-25T04:58:38Z) - SVVAD: Personal Voice Activity Detection for Speaker Verification [24.57668015470307]
話者検証(SV)において最も有用な音声特徴に適応できる話者検証に基づく音声活動検出(SVVAD)フレームワークを提案する。
実験により、SVVADは、他の話者が異なる比率で混合される条件下で、同じ誤差率(EER)でベースラインを著しく上回ることが示された。
論文 参考訳(メタデータ) (2023-05-31T05:59:33Z) - Use of Speech Impairment Severity for Dysarthric Speech Recognition [37.93801885333925]
本稿では, 難易度と話者識別性を両立させる新しい手法を提案する。
UASpeechの実験では、最先端のハイブリッドDNN、E2E Conformer、事前訓練されたWav2vec 2.0 ASRシステムに音声障害の重大度を組み込むことが提案されている。
論文 参考訳(メタデータ) (2023-05-18T02:42:59Z) - Gradient Remedy for Multi-Task Learning in End-to-End Noise-Robust
Speech Recognition [23.042478625584653]
グラデーション・レメディ(GR)はノイズロス音声認識におけるタスク・グラデーション間の干渉を解決するためのシンプルで効果的な手法である。
提案手法は,マルチタスク学習ベースラインに対して,勾配干渉と相対単語誤り率(WER)を9.3%,11.1%削減する。
論文 参考訳(メタデータ) (2023-02-22T13:31:13Z) - Sequence-level self-learning with multiple hypotheses [53.04725240411895]
我々は、自動音声認識(ASR)のためのアテンションベースシーケンス・ツー・シーケンス(seq2seq)モデルを用いた新しい自己学習手法を開発した。
従来の教師なし学習手法とは対照的に,我々はEmphmulti-task Learning(MTL)フレームワークを採用する。
実験の結果,本手法は,英語データのみを用いてトレーニングしたベースラインモデルと比較して,英文音声データのWERを14.55%から10.36%に削減できることがわかった。
論文 参考訳(メタデータ) (2021-12-10T20:47:58Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - NUVA: A Naming Utterance Verifier for Aphasia Treatment [49.114436579008476]
失語症(PWA)患者の治療介入に対する反応の診断とモニタリングの両立のための画像命名タスクを用いた音声性能評価
本稿では,失語症脳卒中患者の「正しい」と「正しくない」を分類する深層学習要素を組み込んだ発話検証システムであるNUVAについて述べる。
イギリス系英語8ヶ国語でのテストでは、システムの性能精度は83.6%から93.6%の範囲であり、10倍のクロスバリデーション平均は89.5%であった。
論文 参考訳(メタデータ) (2021-02-10T13:00:29Z) - Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。
APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。
我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文 参考訳(メタデータ) (2020-04-09T09:26:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。