論文の概要: Speech Enhancement Guided by Contextual Articulatory Information
- arxiv url: http://arxiv.org/abs/2011.07442v3
- Date: Tue, 19 Jul 2022 19:09:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-25 07:49:17.401899
- Title: Speech Enhancement Guided by Contextual Articulatory Information
- Title(参考訳): 文脈的調音情報による音声強調
- Authors: Yen-Ju Lu, Chia-Yu Chang, Cheng Yu, Ching-Feng Liu, Jeih-weih Hung,
Shinji Watanabe, Yu Tsao
- Abstract要約: 本研究では,強調音声における文脈的調音情報の最適化による性能向上のためのSEシステムを提案する。
BPCをベースとしたASRに基づくSEシステムの学習方法として,マルチタスク学習と深層訓練という2つの戦略を開発した。
モノフォニックASRで訓練された別のSEシステムとは対照的に、BPCベースのASRは異なる信号対雑音比(SNR)レベルで優れたSE性能を達成することができる。
- 参考スコア(独自算出の注目度): 33.79855927394387
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Previous studies have confirmed that by augmenting acoustic features with the
place/manner of articulatory features, the speech enhancement (SE) process can
be guided to consider the articulatory properties of the input speech when
performing enhancement to attain performance improvements. Thus, the contextual
information of articulatory attributes has additional information that can
further benefit SE. This study proposed an SE system that improved performance
by optimizing contextual articulatory information in enhanced speech through
joint training of the SE model with an end-to-end automatic speech recognition
(E2E-ASR) model and predicting the sequence of broad phone classes (BPCs)
instead of the phoneme/word sequences. We developed two strategies to train the
SE system based on BPC-based ASR: multi-task learning and deep-feature training
strategies. Experimental results from speech denoising, speech dereverberation,
and impaired speech enhancement tasks confirmed that the contextual
articulatory information facilitates the SE system to improve enhancement
results. Moreover, in contrast to another SE system trained with monophonic
ASR, the BPC-based ASR (providing contextual articulatory information) can
achieve superior SE performance at different signal-to-noise ratio (SNR)
levels.
- Abstract(参考訳): 従来,音声の音響的特徴を調音的特徴の場所/マニピュレータで増強することにより,音声強調(SE)過程を導出することにより,音声の調音特性を考慮し,演奏性の向上を図ることができた。
したがって、調音属性の文脈情報は、SEのさらなる利益となる追加情報を持つ。
本研究では,e2e-asr(end-to-end automatic speech recognition)モデルを用いたseモデルの合同学習と,音素/単語系列の代わりに広音素クラス(bpcs)のシーケンスを予測することにより,拡張音声における文脈的調音情報を最適化し,性能を向上させるseシステムを提案する。
我々は,bpcベースのasrに基づくseシステムを学習するための2つの戦略を開発した。
発声, 発声, 音声強調タスクによる実験結果から, 文脈的調音情報によってSEシステムに促進され, 改善効果が向上することが確認された。
さらに、モノフォニックASRで訓練された別のSEシステムとは対照的に、BPCベースのASRは、異なる信号対雑音比(SNR)レベルで優れたSE性能が得られる。
関連論文リスト
- ROSE: A Recognition-Oriented Speech Enhancement Framework in Air Traffic Control Using Multi-Objective Learning [6.60571587618006]
無線音声エコー(Radio speech echo)は、空気交通制御(ATC)領域において特定の現象であり、音声品質を低下させ、自動音声認識(ASR)の精度に影響を与える。
本研究では,時間領域認識指向音声強調フレームワークを提案し,音声認識能力の向上とASR精度の向上を図る。
このフレームワークはATCシナリオのプラグイン・アンド・プレイツールとして機能し、ASRモデルのさらなる再トレーニングを必要としない。
論文 参考訳(メタデータ) (2023-12-11T04:51:41Z) - Enhancing and Adversarial: Improve ASR with Speaker Labels [49.73714831258699]
そこで本研究では,チューニングを伴わない安定かつ効果的な対向訓練のための適応的勾配反転層を提案する。
ASRニューラルネットワーク(NN)の最適な位置を示すために、詳細な分析と実験的検証を行い、話者強化と対向訓練を適用した。
最高のスピーカーベースのMTLは、Switchboard Hub5'00の相対的な改善を7%達成しています。
論文 参考訳(メタデータ) (2022-11-11T17:40:08Z) - Improving Speech Enhancement through Fine-Grained Speech Characteristics [42.49874064240742]
そこで本稿では,強調信号の知覚的品質と自然性の向上を目的とした音声強調手法を提案する。
まず,音声品質と相関する重要な音響パラメータを同定する。
次に,これらの特徴について,クリーン音声と拡張音声との差を低減することを目的とした目的関数を提案する。
論文 参考訳(メタデータ) (2022-07-01T07:04:28Z) - Towards Intelligibility-Oriented Audio-Visual Speech Enhancement [8.19144665585397]
本稿では,STOI(Modified short-time objective intelligibility)メトリックをトレーニングコスト関数として用いた完全畳み込み型AVSEモデルを提案する。
提案するI-O AV SEフレームワークは,従来の距離に基づく損失関数を訓練したオーディオ専用(AO)およびAVモデルより優れている。
論文 参考訳(メタデータ) (2021-11-18T11:47:37Z) - PL-EESR: Perceptual Loss Based END-TO-END Robust Speaker Representation
Extraction [90.55375210094995]
音声強調は、背景雑音の抑制による音声信号の知覚品質の向上を目的としている。
本稿では,頑健な話者表現抽出のためのエンドツーエンドディープラーニングフレームワークPL-EESRを提案する。
論文 参考訳(メタデータ) (2021-10-03T07:05:29Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - Improving Perceptual Quality by Phone-Fortified Perceptual Loss using
Wasserstein Distance for Speech Enhancement [23.933935913913043]
本稿では,SEモデルの訓練を考慮に入れたPFPL( Phone-fortified Perceptual Los)を提案する。
音声情報を効果的に組み込むために、wav2vecモデルの潜在表現に基づいてPFPLを演算する。
実験の結果,PFPLは信号レベルの損失に比べて知覚的評価指標と相関することがわかった。
論文 参考訳(メタデータ) (2020-10-28T18:34:28Z) - Correlating Subword Articulation with Lip Shapes for Embedding Aware
Audio-Visual Speech Enhancement [94.0676772764248]
埋め込み認識音声強調(EASE)を改善するための視覚的埋め込み手法を提案する。
視覚のみのEASE(VEASE)のための事前訓練された電話機や調音位置認識器を用いて、まず唇フレームから視覚埋め込みを抽出する。
次に,マルチモーダルEASE(MEASE)における音声・視覚的特徴の相補性を利用して,雑音の多い音声・唇ビデオからの音声・視覚的埋め込みを情報交叉方式で抽出する。
論文 参考訳(メタデータ) (2020-09-21T01:26:19Z) - Incorporating Broad Phonetic Information for Speech Enhancement [23.12902068334228]
ノイズの多い環境では、音声の内容を知ることで、聞き手は背景雑音成分をより効果的に抑制することができる。
従来の研究では、音声強調システムに音声情報を組み込むことの利点が確認されている。
本研究は,SEプロセスに広帯域音声クラス(BPC)情報を統合することを提案する。
論文 参考訳(メタデータ) (2020-08-13T09:38:08Z) - Characterizing Speech Adversarial Examples Using Self-Attention U-Net
Enhancement [102.48582597586233]
本稿では,U-Net$_At$という,U-Netに基づくアテンションモデルを提案する。
対戦型音声アタックを用いた自動音声認識(ASR)タスクの実験を行った。
論文 参考訳(メタデータ) (2020-03-31T02:16:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。