論文の概要: Task-aware Warping Factors in Mask-based Speech Enhancement
- arxiv url: http://arxiv.org/abs/2108.12128v1
- Date: Fri, 27 Aug 2021 05:57:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-30 14:05:10.362525
- Title: Task-aware Warping Factors in Mask-based Speech Enhancement
- Title(参考訳): マスク型音声強調におけるタスク認識のワープ要因
- Authors: Qiongqiong Wang, Kong Aik Lee, Takafumi Koshinaka, Koji Okabe, Hitoshi
Yamamoto
- Abstract要約: マスクベース音声強調(SE)における2つのタスク認識ワープ要素の利用を提案する。
1つは訓練段階における音声維持とノイズ除去のバランスを制御し、もう1つは特定の下流タスクに適用されたSEパワーを制御する。
マスクベースのSE法に提案した2重ウォーピング因子アプローチを適用することは容易である。
- 参考スコア(独自算出の注目度): 31.913984833849753
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes the use of two task-aware warping factors in mask-based
speech enhancement (SE). One controls the balance between speech-maintenance
and noise-removal in training phases, while the other controls SE power applied
to specific downstream tasks in testing phases. Our intention is to alleviate
the problem that SE systems trained to improve speech quality often fail to
improve other downstream tasks, such as automatic speaker verification (ASV)
and automatic speech recognition (ASR), because they do not share the same
objects. It is easy to apply the proposed dual-warping factors approach to any
mask-based SE method, and it allows a single SE system to handle multiple tasks
without task-dependent training. The effectiveness of our proposed approach has
been confirmed on the SITW dataset for ASV evaluation and the LibriSpeech
dataset for ASR and speech quality evaluations of 0-20dB. We show that
different warping values are necessary for a single SE to achieve optimal
performance w.r.t. the three tasks. With the use of task-dependent warping
factors, speech quality was improved by an 84.7% PESQ increase, ASV had a 22.4%
EER reduction, and ASR had a 52.2% WER reduction, on 0dB speech. The
effectiveness of the task-dependent warping factors were also cross-validated
on VoxCeleb-1 test set for ASV and LibriSpeech dev-clean set for ASV and
quality evaluations. The proposed method is highly effective and easy to apply
in practice.
- Abstract(参考訳): 本稿では,マスクベース音声強調(SE)における2つのタスク認識ワープ要素の利用を提案する。
1つは、トレーニングフェーズにおける音声保守とノイズ除去のバランスを制御し、もう1つはテストフェーズにおける特定の下流タスクに適用されるse電力を制御する。
我々の意図は、SEシステムが音声品質を改善するために訓練された問題は、同じオブジェクトを共有しないため、自動話者検証(ASV)や自動音声認識(ASR)など、他の下流タスクの改善に失敗することが多いことである。
提案手法を任意のマスクベースのse法に適用することは容易であり、単一のseシステムがタスクに依存しないトレーニングなしで複数のタスクを処理できる。
提案手法の有効性は,ASV評価のためのSITWデータセットとASRのためのLibriSpeechデータセット,および0-20dBの音声品質評価において確認されている。
一つのseが最適な性能を達成するためには、異なる反り値が必要であることを示す。
3つのタスク。
タスク依存のワープ要因を用いることで、音声品質は84.7%向上し、ASVは22.4%削減、ASRは52.2%低下した。
また, ASV用VoxCeleb-1テストセットと, ASV用LibriSpeech開発クリーンセットと品質評価用VoxCeleb-1テストセットに対して, タスク依存のワープ係数の有効性をクロスバリデーションした。
提案手法は極めて有効であり,実用化が容易である。
関連論文リスト
- Noise-Robust Target-Speaker Voice Activity Detection Through Self-Supervised Pretraining [21.26555178371168]
ターゲット話者音声活動検出(Target-Speaker Voice Activity Detection、TS-VAD)は、音声フレーム内の既知のターゲット話者から音声の存在を検出するタスクである。
ディープニューラルネットワークベースのモデルは、このタスクで優れたパフォーマンスを示している。
雑音条件下でのTS-VAD性能を向上させるための、因果的自己監視学習(SSL)事前トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-06T18:00:14Z) - Homogeneous Speaker Features for On-the-Fly Dysarthric and Elderly Speaker Adaptation [71.31331402404662]
本稿では, 変形性関節症と高齢者の話者レベルの特徴を学習するための2つの新しいデータ効率手法を提案する。
話者規則化スペクトルベース埋め込み-SBE特徴は、特別な正規化項を利用して適応における話者特徴の均一性を強制する。
テスト時間適応において、話者レベルのデータ量に敏感であることが示されるVR-LH機能に規定されている特徴ベースの学習隠れユニットコントリビューション(f-LHUC)。
論文 参考訳(メタデータ) (2024-07-08T18:20:24Z) - CPM: Class-conditional Prompting Machine for Audio-visual Segmentation [17.477225065057993]
CPM(Class-conditional Prompting Machine)は,クラス非依存クエリとクラス条件クエリを組み合わせた学習戦略により,双方向マッチングを改善した。
我々はAVSベンチマーク実験を行い、その手法がSOTA(State-of-the-art)セグメンテーションの精度を実現することを示す。
論文 参考訳(メタデータ) (2024-07-07T13:20:21Z) - Use of Speech Impairment Severity for Dysarthric Speech Recognition [37.93801885333925]
本稿では, 難易度と話者識別性を両立させる新しい手法を提案する。
UASpeechの実験では、最先端のハイブリッドDNN、E2E Conformer、事前訓練されたWav2vec 2.0 ASRシステムに音声障害の重大度を組み込むことが提案されている。
論文 参考訳(メタデータ) (2023-05-18T02:42:59Z) - Sequence-level self-learning with multiple hypotheses [53.04725240411895]
我々は、自動音声認識(ASR)のためのアテンションベースシーケンス・ツー・シーケンス(seq2seq)モデルを用いた新しい自己学習手法を開発した。
従来の教師なし学習手法とは対照的に,我々はEmphmulti-task Learning(MTL)フレームワークを採用する。
実験の結果,本手法は,英語データのみを用いてトレーニングしたベースラインモデルと比較して,英文音声データのWERを14.55%から10.36%に削減できることがわかった。
論文 参考訳(メタデータ) (2021-12-10T20:47:58Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - NUVA: A Naming Utterance Verifier for Aphasia Treatment [49.114436579008476]
失語症(PWA)患者の治療介入に対する反応の診断とモニタリングの両立のための画像命名タスクを用いた音声性能評価
本稿では,失語症脳卒中患者の「正しい」と「正しくない」を分類する深層学習要素を組み込んだ発話検証システムであるNUVAについて述べる。
イギリス系英語8ヶ国語でのテストでは、システムの性能精度は83.6%から93.6%の範囲であり、10倍のクロスバリデーション平均は89.5%であった。
論文 参考訳(メタデータ) (2021-02-10T13:00:29Z) - Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。
APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。
我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文 参考訳(メタデータ) (2020-04-09T09:26:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。