論文の概要: Improving Speech Enhancement Performance by Leveraging Contextual Broad
Phonetic Class Information
- arxiv url: http://arxiv.org/abs/2011.07442v5
- Date: Sun, 18 Jun 2023 11:52:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-22 08:28:56.574565
- Title: Improving Speech Enhancement Performance by Leveraging Contextual Broad
Phonetic Class Information
- Title(参考訳): 文脈広い音素クラス情報を活用した音声強調性能の向上
- Authors: Yen-Ju Lu, Chia-Yu Chang, Cheng Yu, Ching-Feng Liu, Jeih-weih Hung,
Shinji Watanabe, Yu Tsao
- Abstract要約: 音声強調のための追加情報として,音節属性の文脈情報について検討する。
本稿では,エンド・ツー・エンドの自動音声認識モデルによる損失を利用してSE性能を向上させることを提案する。
その結果,文脈的BPC情報によりSE性能が向上することが確認された。
- 参考スコア(独自算出の注目度): 33.79855927394387
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Previous studies have confirmed that by augmenting acoustic features with the
place/manner of articulatory features, the speech enhancement (SE) process can
be guided to consider the broad phonetic properties of the input speech when
performing enhancement to attain performance improvements. In this paper, we
explore the contextual information of articulatory attributes as additional
information to further benefit SE. More specifically, we propose to improve the
SE performance by leveraging losses from an end-to-end automatic speech
recognition (E2E-ASR) model that predicts the sequence of broad phonetic
classes (BPCs). We also developed multi-objective training with ASR and
perceptual losses to train the SE system based on a BPC-based E2E-ASR.
Experimental results from speech denoising, speech dereverberation, and
impaired speech enhancement tasks confirmed that contextual BPC information
improves SE performance. Moreover, the SE model trained with the BPC-based
E2E-ASR outperforms that with the phoneme-based E2E-ASR. The results suggest
that objectives with misclassification of phonemes by the ASR system may lead
to imperfect feedback, and BPC could be a potentially better choice. Finally,
it is noted that combining the most-confusable phonetic targets into the same
BPC when calculating the additional objective can effectively improve the SE
performance.
- Abstract(参考訳): 従来,音声の音響的特徴を調音的特徴の場所/マンガで増大させることで,音声強調(SE)過程を導出することにより,音声の幅広い音韻特性を考慮し,性能向上を図ることができた。
本稿では,音節属性の文脈情報を付加情報として検討し,SEをさらに活用する。
より具体的には、幅広い音素クラス(bpcs)のシーケンスを予測するエンドツーエンド自動音声認識(e2e-asr)モデルによる損失を利用して、se性能を改善することを提案する。
また,BPCをベースとしたE2E-ASRに基づくSEシステムの学習において,ASRを用いた多目的トレーニングと知覚的損失も開発した。
音声の発声, 発声残響, 音声強調課題による実験結果から, 文脈的bpc情報がse性能を向上できることが確認された。
さらに、BPCベースのE2E-ASRで訓練されたSEモデルは、音素ベースのE2E-ASRよりも優れている。
その結果、ASRシステムによる音素の誤分類による目的が不完全なフィードバックにつながる可能性があり、BPCがよりよい選択である可能性が示唆された。
最後に,重畳可能な音声目標を同一のBPCに組み合わせることで,SE性能を効果的に向上できることに注意する。
関連論文リスト
- ROSE: A Recognition-Oriented Speech Enhancement Framework in Air Traffic Control Using Multi-Objective Learning [6.60571587618006]
無線音声エコー(Radio speech echo)は、空気交通制御(ATC)領域において特定の現象であり、音声品質を低下させ、自動音声認識(ASR)の精度に影響を与える。
本研究では,時間領域認識指向音声強調フレームワークを提案し,音声認識能力の向上とASR精度の向上を図る。
このフレームワークはATCシナリオのプラグイン・アンド・プレイツールとして機能し、ASRモデルのさらなる再トレーニングを必要としない。
論文 参考訳(メタデータ) (2023-12-11T04:51:41Z) - Enhancing and Adversarial: Improve ASR with Speaker Labels [49.73714831258699]
そこで本研究では,チューニングを伴わない安定かつ効果的な対向訓練のための適応的勾配反転層を提案する。
ASRニューラルネットワーク(NN)の最適な位置を示すために、詳細な分析と実験的検証を行い、話者強化と対向訓練を適用した。
最高のスピーカーベースのMTLは、Switchboard Hub5'00の相対的な改善を7%達成しています。
論文 参考訳(メタデータ) (2022-11-11T17:40:08Z) - Improving Speech Enhancement through Fine-Grained Speech Characteristics [42.49874064240742]
そこで本稿では,強調信号の知覚的品質と自然性の向上を目的とした音声強調手法を提案する。
まず,音声品質と相関する重要な音響パラメータを同定する。
次に,これらの特徴について,クリーン音声と拡張音声との差を低減することを目的とした目的関数を提案する。
論文 参考訳(メタデータ) (2022-07-01T07:04:28Z) - Towards Intelligibility-Oriented Audio-Visual Speech Enhancement [8.19144665585397]
本稿では,STOI(Modified short-time objective intelligibility)メトリックをトレーニングコスト関数として用いた完全畳み込み型AVSEモデルを提案する。
提案するI-O AV SEフレームワークは,従来の距離に基づく損失関数を訓練したオーディオ専用(AO)およびAVモデルより優れている。
論文 参考訳(メタデータ) (2021-11-18T11:47:37Z) - PL-EESR: Perceptual Loss Based END-TO-END Robust Speaker Representation
Extraction [90.55375210094995]
音声強調は、背景雑音の抑制による音声信号の知覚品質の向上を目的としている。
本稿では,頑健な話者表現抽出のためのエンドツーエンドディープラーニングフレームワークPL-EESRを提案する。
論文 参考訳(メタデータ) (2021-10-03T07:05:29Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - Improving Perceptual Quality by Phone-Fortified Perceptual Loss using
Wasserstein Distance for Speech Enhancement [23.933935913913043]
本稿では,SEモデルの訓練を考慮に入れたPFPL( Phone-fortified Perceptual Los)を提案する。
音声情報を効果的に組み込むために、wav2vecモデルの潜在表現に基づいてPFPLを演算する。
実験の結果,PFPLは信号レベルの損失に比べて知覚的評価指標と相関することがわかった。
論文 参考訳(メタデータ) (2020-10-28T18:34:28Z) - Correlating Subword Articulation with Lip Shapes for Embedding Aware
Audio-Visual Speech Enhancement [94.0676772764248]
埋め込み認識音声強調(EASE)を改善するための視覚的埋め込み手法を提案する。
視覚のみのEASE(VEASE)のための事前訓練された電話機や調音位置認識器を用いて、まず唇フレームから視覚埋め込みを抽出する。
次に,マルチモーダルEASE(MEASE)における音声・視覚的特徴の相補性を利用して,雑音の多い音声・唇ビデオからの音声・視覚的埋め込みを情報交叉方式で抽出する。
論文 参考訳(メタデータ) (2020-09-21T01:26:19Z) - Incorporating Broad Phonetic Information for Speech Enhancement [23.12902068334228]
ノイズの多い環境では、音声の内容を知ることで、聞き手は背景雑音成分をより効果的に抑制することができる。
従来の研究では、音声強調システムに音声情報を組み込むことの利点が確認されている。
本研究は,SEプロセスに広帯域音声クラス(BPC)情報を統合することを提案する。
論文 参考訳(メタデータ) (2020-08-13T09:38:08Z) - Characterizing Speech Adversarial Examples Using Self-Attention U-Net
Enhancement [102.48582597586233]
本稿では,U-Net$_At$という,U-Netに基づくアテンションモデルを提案する。
対戦型音声アタックを用いた自動音声認識(ASR)タスクの実験を行った。
論文 参考訳(メタデータ) (2020-03-31T02:16:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。