論文の概要: Spot keywords from very noisy and mixed speech
- arxiv url: http://arxiv.org/abs/2305.17706v1
- Date: Sun, 28 May 2023 12:26:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-30 17:04:47.010174
- Title: Spot keywords from very noisy and mixed speech
- Title(参考訳): 雑音と混合音声からのスポットキーワード
- Authors: Ying Shi, Dong Wang, Lantian Li, Jiqing Han and Shi Yin
- Abstract要約: 本稿では,雑音と混合音声から低エネルギーのキーワードを発見することをモデルに促す新しい混合訓練手法を提案する。
その結果、提案した混合訓練手法は有効であり、標準データ拡張および混合訓練より優れていた。
- 参考スコア(独自算出の注目度): 30.765209199871773
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most existing keyword spotting research focuses on conditions with slight or
moderate noise. In this paper, we try to tackle a more challenging task:
detecting keywords buried under strong interfering speech (10 times higher than
the keyword in amplitude), and even worse, mixed with other keywords. We
propose a novel Mix Training (MT) strategy that encourages the model to
discover low-energy keywords from noisy and mixed speech. Experiments were
conducted with a vanilla CNN and two EfficientNet (B0/B2) architectures. The
results evaluated with the Google Speech Command dataset demonstrated that the
proposed mix training approach is highly effective and outperforms standard
data augmentation and mixup training.
- Abstract(参考訳): 現存するほとんどのキーワードスポッティング研究は、わずかまたは中程度の雑音のある条件に焦点を当てている。
本稿では,強い干渉音声の下に埋もれたキーワード(振幅の10倍)を検出し,さらにさらに悪いことに,他のキーワードと混在する,より困難な課題に取り組むことを試みる。
本稿では,雑音と混合音声から低エネルギーのキーワードを発見することをモデルに促す新しい混合訓練手法を提案する。
バニラCNNと2つのEfficientNet (B0/B2)アーキテクチャで実験を行った。
google speech commandデータセットで評価された結果は、提案されたmix trainingアプローチが極めて効果的であり、標準データ拡張とmixupトレーニングを上回っていることを示している。
関連論文リスト
- An Analysis of BPE Vocabulary Trimming in Neural Machine Translation [56.383793805299234]
語彙トリミング(vocabulary trimming)は、まれなサブワードをコンポーネントサブワードに置き換える後処理のステップである。
ボキャブラリトリミングは性能向上に失敗し,さらに大きな劣化を招きやすいことを示す。
論文 参考訳(メタデータ) (2024-03-30T15:29:49Z) - Open-vocabulary Keyword-spotting with Adaptive Instance Normalization [18.250276540068047]
本稿では,キーワード条件付き正規化パラメータを出力するためにテキストエンコーダを訓練するキーワードスポッティングの新しい手法であるAdaKWSを提案する。
近年のキーワードスポッティングやASRベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-09-13T13:49:42Z) - Automatic Counterfactual Augmentation for Robust Text Classification
Based on Word-Group Search [12.894936637198471]
一般に、ラベルと表面的関連を生じると、キーワードはショートカットと見なされ、結果として誤った予測となる。
キーワードの組み合わせの因果効果を捉え,予測に最も影響を与える組み合わせを注文する,新しいWord-Groupマイニング手法を提案する。
提案手法は,効率的なポストホック解析とビームサーチに基づいて,マイニング効果の確保と複雑さの低減を図っている。
論文 参考訳(メタデータ) (2023-07-01T02:26:34Z) - Improving the Robustness of Summarization Systems with Dual Augmentation [68.53139002203118]
頑健な要約システムは、入力中の特定の単語の選択やノイズに関わらず、文書のギストをキャプチャできるべきである。
まず,単語レベルの同義語置換や雑音を含む摂動に対する要約モデルの頑健性について検討する。
SummAttackerを提案する。これは言語モデルに基づく対数サンプルを生成するための効率的な手法である。
論文 参考訳(メタデータ) (2023-06-01T19:04:17Z) - Learning Audio-Text Agreement for Open-vocabulary Keyword Spotting [23.627625026135505]
本稿では,ユーザ定義キーワードスポッティング手法を提案する。
提案手法は,入力クエリをテキストキーワードシーケンスと比較する。
本稿ではキーワードスポッティングモデルを効率的にトレーニングするためのLibriPhraseデータセットを紹介する。
論文 参考訳(メタデータ) (2022-06-30T16:40:31Z) - On the Efficiency of Integrating Self-supervised Learning and
Meta-learning for User-defined Few-shot Keyword Spotting [51.41426141283203]
ユーザ定義キーワードスポッティングは、ユーザが定義する新しい音声用語を検出するタスクである。
これまでの研究は、自己教師付き学習モデルを取り入れたり、メタ学習アルゴリズムを適用しようとするものだった。
この結果から,HuBERTとMatching Networkを組み合わせることで,最適な結果が得られることがわかった。
論文 参考訳(メタデータ) (2022-04-01T10:59:39Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z) - MixSpeech: Data Augmentation for Low-resource Automatic Speech
Recognition [54.84624870942339]
MixSpeechは、自動音声認識(ASR)のためのミックスアップに基づくシンプルで効果的なデータ拡張方法です。
mixspeechをlas(listen, attend, spell)とtransformerを含む2つのポピュラーなエンドツーエンド音声認識モデルに適用した。
実験の結果,MixSpeechはデータ拡張のないベースラインモデルよりも精度が高いことがわかった。
論文 参考訳(メタデータ) (2021-02-25T03:40:43Z) - Speech Enhancement for Wake-Up-Word detection in Voice Assistants [60.103753056973815]
キースポッティング、特にWake-Up-Word(WUW)検出は音声アシスタントにとって非常に重要なタスクである。
本稿では,WUW検出に適応した音声強調モデルを提案する。
これらのノイズの存在下で、認識率を高め、誤報を減らすことを目的としている。
論文 参考訳(メタデータ) (2021-01-29T18:44:05Z) - Training Wake Word Detection with Synthesized Speech Data on Confusion
Words [10.97664190706851]
エンドツーエンドKWSシステムのトレーニングのための2つのデータ拡張設定について検討する。
1つは、マルチスピーカ音声合成システムから合成されたデータである。
その他の拡張は、音響特徴にランダムノイズを付加して行う。
論文 参考訳(メタデータ) (2020-11-03T04:06:04Z) - Few-Shot Keyword Spotting With Prototypical Networks [3.6930948691311016]
キーワードスポッティングは、AmazonのAlexaやGoogle Homeなど、多くの音声インターフェースで広く使用されている。
まず、この問題を数発のキーワードスポッティングとして定式化し、メートル法学習を用いてアプローチする。
そこで我々は,ネットワーク上の時間的および拡張的畳み込みを用いたプロトタイプ的な数ショットキーワードスポッティング問題に対する解を提案する。
論文 参考訳(メタデータ) (2020-07-25T20:17:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。