論文の概要: Training Wake Word Detection with Synthesized Speech Data on Confusion
Words
- arxiv url: http://arxiv.org/abs/2011.01460v1
- Date: Tue, 3 Nov 2020 04:06:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 06:24:21.116318
- Title: Training Wake Word Detection with Synthesized Speech Data on Confusion
Words
- Title(参考訳): 混乱語を用いた合成音声データによる後発語検出の訓練
- Authors: Yan Jia, Zexin Cai, Murong Ma, Zeqing Zhao, Xuyang Wang, Junjie Wang,
Ming Li
- Abstract要約: エンドツーエンドKWSシステムのトレーニングのための2つのデータ拡張設定について検討する。
1つは、マルチスピーカ音声合成システムから合成されたデータである。
その他の拡張は、音響特徴にランダムノイズを付加して行う。
- 参考スコア(独自算出の注目度): 10.97664190706851
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Confusing-words are commonly encountered in real-life keyword spotting
applications, which causes severe degradation of performance due to complex
spoken terms and various kinds of words that sound similar to the predefined
keywords. To enhance the wake word detection system's robustness on such
scenarios, we investigate two data augmentation setups for training end-to-end
KWS systems. One is involving the synthesized data from a multi-speaker speech
synthesis system, and the other augmentation is performed by adding random
noise to the acoustic feature. Experimental results show that augmentations
help improve the system's robustness. Moreover, by augmenting the training set
with the synthetic data generated by the multi-speaker text-to-speech system,
we achieve a significant improvement regarding confusing words scenario.
- Abstract(参考訳): 紛らわしい単語は、実際のキーワードスポッティングアプリケーションでよく見られるため、複雑な話し言葉や、定義済みのキーワードに似た音質の様々な単語によってパフォーマンスが著しく低下する。
このようなシナリオにおけるウェイクワード検出システムの堅牢性を高めるため、エンドツーエンドKWSシステムのトレーニングのための2つのデータ拡張設定について検討する。
1つは、マルチスピーカー音声合成システムからの合成データを含み、もう1つは、音響特徴にランダムノイズを付加して行う。
実験結果から,システムの堅牢性向上に役立つことが示唆された。
さらに,多話者音声合成システムによって生成された合成データを用いて学習セットを増強することにより,混乱した単語のシナリオに関する大幅な改善を実現する。
関連論文リスト
- Exploring Speech Recognition, Translation, and Understanding with
Discrete Speech Units: A Comparative Study [68.88536866933038]
音声信号は、通常、毎秒数万のレートでサンプリングされ、冗長性を含んでいる。
近年の研究では、自己教師型学習表現から派生した離散音声単位の使用が提案されている。
復号化やサブワードモデリングなどの様々な手法を適用することで、さらに音声列の長さを圧縮することができる。
論文 参考訳(メタデータ) (2023-09-27T17:21:13Z) - Improving the Robustness of Summarization Systems with Dual Augmentation [68.53139002203118]
頑健な要約システムは、入力中の特定の単語の選択やノイズに関わらず、文書のギストをキャプチャできるべきである。
まず,単語レベルの同義語置換や雑音を含む摂動に対する要約モデルの頑健性について検討する。
SummAttackerを提案する。これは言語モデルに基づく対数サンプルを生成するための効率的な手法である。
論文 参考訳(メタデータ) (2023-06-01T19:04:17Z) - A Vector Quantized Approach for Text to Speech Synthesis on Real-World
Spontaneous Speech [94.64927912924087]
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。
最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。
近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-08T17:34:32Z) - Combining Automatic Speaker Verification and Prosody Analysis for
Synthetic Speech Detection [15.884911752869437]
本稿では,人間の声の2つの高レベルな意味的特性を組み合わせた合成音声検出手法を提案する。
一方, 話者識別手法に着目し, 自動話者検証タスクの最先端手法を用いて抽出した話者埋め込みとして表現する。
一方、リズム、ピッチ、アクセントの変化を意図した音声韻律は、特殊なエンコーダによって抽出される。
論文 参考訳(メタデータ) (2022-10-31T11:03:03Z) - Improving Natural-Language-based Audio Retrieval with Transfer Learning
and Audio & Text Augmentations [7.817685358710508]
本稿では,録音やテキストによる記述を共有音声空間に投影するシステムを提案する。
以上の結果から, 使用済み拡張戦略は過剰適合を低減し, 検索性能の向上を図っている。
さらに、AudioCapsデータセットで事前トレーニングを行うことで、さらなる改善がもたらされることを示す。
論文 参考訳(メタデータ) (2022-08-24T11:54:42Z) - Short-Term Word-Learning in a Dynamically Changing Environment [63.025297637716534]
本稿では、単語/フレーズメモリと、このメモリにアクセスして単語やフレーズを正しく認識するためのメカニズムを用いて、エンドツーエンドのASRシステムを補完する方法を示す。
誤報がわずかに増加しただけで, 単語の検出速度が大幅に向上した。
論文 参考訳(メタデータ) (2022-03-29T10:05:39Z) - An Overview of Deep-Learning-Based Audio-Visual Speech Enhancement and
Separation [57.68765353264689]
音声強調と音声分離は関連する2つの課題である。
伝統的に、これらのタスクは信号処理と機械学習技術を使って取り組まれてきた。
ディープラーニングは強力なパフォーマンスを達成するために利用されています。
論文 参考訳(メタデータ) (2020-08-21T17:24:09Z) - Acoustic Word Embedding System for Code-Switching Query-by-example
Spoken Term Detection [17.54377669932433]
本稿では,音声単語検出の例によるコードスイッチングクエリにディープ畳み込みニューラルネットワークを用いた音響単語埋め込みシステムを提案する。
1つの言語だけを使うのではなく、2つの言語でオーディオデータを組み合わせてトレーニングします。
論文 参考訳(メタデータ) (2020-05-24T15:27:56Z) - Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis
Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。
マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。
提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文 参考訳(メタデータ) (2020-05-16T15:47:11Z) - Adversarial Feature Learning and Unsupervised Clustering based Speech
Synthesis for Found Data with Acoustic and Textual Noise [18.135965605011105]
注意に基づくシーケンス・ツー・シーケンス(seq2seq)音声合成は、異常な性能を達成している。
このようなSeq2seqシステムをトレーニングするには、手書きによるスタジオ品質のコーパスが必要である。
本稿では,高品質で安定したSeq2seqに基づく音声合成システムの構築手法を提案する。
論文 参考訳(メタデータ) (2020-04-28T15:32:45Z) - Phonetic Feedback for Speech Enhancement With and Without Parallel
Speech Data [19.66983830788521]
音声フィードバックは、貴重なトップダウン情報を含むにもかかわらず、音声強調研究ではまれである。
模擬損失の手法を用いて音素フィードバックをオフザシェルフ・エンハンスメント・システムに提供する。
パラレル音声データで訓練された最先端のニューラルエンハンスメントシステムを改善することができることを示す。
論文 参考訳(メタデータ) (2020-03-03T20:06:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。