論文の概要: Incorporating Broad Phonetic Information for Speech Enhancement
- arxiv url: http://arxiv.org/abs/2008.07618v1
- Date: Thu, 13 Aug 2020 09:38:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 00:10:02.936058
- Title: Incorporating Broad Phonetic Information for Speech Enhancement
- Title(参考訳): 音声強調のための広義音声情報の統合
- Authors: Yen-Ju Lu, Chien-Feng Liao, Xugang Lu, Jeih-weih Hung and Yu Tsao
- Abstract要約: ノイズの多い環境では、音声の内容を知ることで、聞き手は背景雑音成分をより効果的に抑制することができる。
従来の研究では、音声強調システムに音声情報を組み込むことの利点が確認されている。
本研究は,SEプロセスに広帯域音声クラス(BPC)情報を統合することを提案する。
- 参考スコア(独自算出の注目度): 23.12902068334228
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In noisy conditions, knowing speech contents facilitates listeners to more
effectively suppress background noise components and to retrieve pure speech
signals. Previous studies have also confirmed the benefits of incorporating
phonetic information in a speech enhancement (SE) system to achieve better
denoising performance. To obtain the phonetic information, we usually prepare a
phoneme-based acoustic model, which is trained using speech waveforms and
phoneme labels. Despite performing well in normal noisy conditions, when
operating in very noisy conditions, however, the recognized phonemes may be
erroneous and thus misguide the SE process. To overcome the limitation, this
study proposes to incorporate the broad phonetic class (BPC) information into
the SE process. We have investigated three criteria to build the BPC, including
two knowledge-based criteria: place and manner of articulatory and one
data-driven criterion. Moreover, the recognition accuracies of BPCs are much
higher than that of phonemes, thus providing more accurate phonetic information
to guide the SE process under very noisy conditions. Experimental results
demonstrate that the proposed SE with the BPC information framework can achieve
notable performance improvements over the baseline system and an SE system
using monophonic information in terms of both speech quality intelligibility on
the TIMIT dataset.
- Abstract(参考訳): 雑音下では、音声内容を知ることで、聞き手は背景雑音成分をより効果的に抑制し、純粋な音声信号を取得することができる。
先行研究により, 音声強調(SE)システムに音声情報を組み込むことにより, より優れた発音性能を実現することが確認された。
音声情報を得るために,音声波形と音素ラベルを用いて学習する音素に基づく音響モデルを作成する。
通常の雑音条件ではよく機能するが、非常にノイズの多い条件では、認識された音素は誤りであり、SE過程を誤る可能性がある。
本研究は,この制限を克服するために,広帯域音声学級(BPC)情報をSEプロセスに組み込むことを提案する。
我々は,bpc構築のための3つの基準について検討した。2つの知識に基づく基準,すなわち,調音の場所と方法,データ駆動型基準について検討した。
さらに、BPCの認識精度は音素よりもはるかに高く、非常にノイズの多い条件下でSE処理を導くためのより正確な音声情報を提供する。
実験結果から,提案したBPC情報フレームワークを用いたSEは,TIMITデータセットにおける音声品質の両面から,ベースラインシステムとモノラル情報を用いたSEシステムに対して顕著な性能向上を達成できることが示された。
関連論文リスト
- Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - Inference and Denoise: Causal Inference-based Neural Speech Enhancement [83.4641575757706]
本研究では、雑音の存在を介入としてモデル化することにより、因果推論パラダイムにおける音声強調(SE)課題に対処する。
提案した因果推論に基づく音声強調(CISE)は,ノイズ検出器を用いて間欠雑音音声中のクリーンフレームとノイズフレームを分離し,両フレームセットを2つのマスクベース拡張モジュール(EM)に割り当て,ノイズ条件SEを実行する。
論文 参考訳(メタデータ) (2022-11-02T15:03:50Z) - Noise-robust Speech Recognition with 10 Minutes Unparalleled In-domain
Data [24.512424190830828]
クリーンスペクトル(Simu-GAN)からノイズスペクトルをシミュレートする生成逆ネットワークを提案する。
また、雑音条件下でのシステムの堅牢性を改善するために、デュアルパス音声認識システムを提案する。
論文 参考訳(メタデータ) (2022-03-29T08:06:01Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - Speech Enhancement for Wake-Up-Word detection in Voice Assistants [60.103753056973815]
キースポッティング、特にWake-Up-Word(WUW)検出は音声アシスタントにとって非常に重要なタスクである。
本稿では,WUW検出に適応した音声強調モデルを提案する。
これらのノイズの存在下で、認識率を高め、誤報を減らすことを目的としている。
論文 参考訳(メタデータ) (2021-01-29T18:44:05Z) - Improving Speech Enhancement Performance by Leveraging Contextual Broad
Phonetic Class Information [33.79855927394387]
音声強調のための追加情報として,音節属性の文脈情報について検討する。
本稿では,エンド・ツー・エンドの自動音声認識モデルによる損失を利用してSE性能を向上させることを提案する。
その結果,文脈的BPC情報によりSE性能が向上することが確認された。
論文 参考訳(メタデータ) (2020-11-15T03:56:37Z) - Correlating Subword Articulation with Lip Shapes for Embedding Aware
Audio-Visual Speech Enhancement [94.0676772764248]
埋め込み認識音声強調(EASE)を改善するための視覚的埋め込み手法を提案する。
視覚のみのEASE(VEASE)のための事前訓練された電話機や調音位置認識器を用いて、まず唇フレームから視覚埋め込みを抽出する。
次に,マルチモーダルEASE(MEASE)における音声・視覚的特徴の相補性を利用して,雑音の多い音声・唇ビデオからの音声・視覚的埋め込みを情報交叉方式で抽出する。
論文 参考訳(メタデータ) (2020-09-21T01:26:19Z) - CITISEN: A Deep Learning-Based Speech Signal-Processing Mobile
Application [63.2243126704342]
本研究では,CitisENと呼ばれる深層学習に基づく音声信号処理モバイルアプリケーションを提案する。
CitisENは、音声強調(SE)、モデル適応(MA)、背景雑音変換(BNC)の3つの機能を提供している。
雑音の多い音声信号と比較すると、改良された音声信号の約6%と33%の改善が達成された。
論文 参考訳(メタデータ) (2020-08-21T02:04:12Z) - Adversarial Feature Learning and Unsupervised Clustering based Speech
Synthesis for Found Data with Acoustic and Textual Noise [18.135965605011105]
注意に基づくシーケンス・ツー・シーケンス(seq2seq)音声合成は、異常な性能を達成している。
このようなSeq2seqシステムをトレーニングするには、手書きによるスタジオ品質のコーパスが必要である。
本稿では,高品質で安定したSeq2seqに基づく音声合成システムの構築手法を提案する。
論文 参考訳(メタデータ) (2020-04-28T15:32:45Z) - Robust Speaker Recognition Using Speech Enhancement And Attention Model [37.33388614967888]
音声強調と話者認識を個別に処理する代わりに、ディープニューラルネットワークを用いた共同最適化により、2つのモジュールを1つのフレームワークに統合する。
雑音に対するロバスト性を高めるため、時間と周波数領域のコンテキスト情報から得られた話者関連特徴を強調するために、多段階アテンション機構を用いる。
その結果,音声強調モデルと多段階アテンションモデルを用いた提案手法は,実験のほとんどの音響条件下では使用しない2つの強いベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-01-14T20:03:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。