論文の概要: Speech Enhancement for Wake-Up-Word detection in Voice Assistants
- arxiv url: http://arxiv.org/abs/2101.12732v1
- Date: Fri, 29 Jan 2021 18:44:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-01 15:06:00.924948
- Title: Speech Enhancement for Wake-Up-Word detection in Voice Assistants
- Title(参考訳): 音声アシスタントにおけるモークアップワード検出のための音声強調
- Authors: David Bonet, Guillermo C\'ambara, Fernando L\'opez, Pablo G\'omez,
Carlos Segura, Jordi Luque
- Abstract要約: キースポッティング、特にWake-Up-Word(WUW)検出は音声アシスタントにとって非常に重要なタスクである。
本稿では,WUW検出に適応した音声強調モデルを提案する。
これらのノイズの存在下で、認識率を高め、誤報を減らすことを目的としている。
- 参考スコア(独自算出の注目度): 60.103753056973815
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Keyword spotting and in particular Wake-Up-Word (WUW) detection is a very
important task for voice assistants. A very common issue of voice assistants is
that they get easily activated by background noise like music, TV or background
speech that accidentally triggers the device. In this paper, we propose a
Speech Enhancement (SE) model adapted to the task of WUW detection that aims at
increasing the recognition rate and reducing the false alarms in the presence
of these types of noises. The SE model is a fully-convolutional denoising
auto-encoder at waveform level and is trained using a log-Mel Spectrogram and
waveform reconstruction losses together with the BCE loss of a simple WUW
classification network. A new database has been purposely prepared for the task
of recognizing the WUW in challenging conditions containing negative samples
that are very phonetically similar to the keyword. The database is extended
with public databases and an exhaustive data augmentation to simulate different
noises and environments. The results obtained by concatenating the SE with a
simple and state-of-the-art WUW detectors show that the SE does not have a
negative impact on the recognition rate in quiet environments while increasing
the performance in the presence of noise, especially when the SE and WUW
detector are trained jointly end-to-end.
- Abstract(参考訳): キースポッティング、特にWake-Up-Word(WUW)検出は音声アシスタントにとって非常に重要なタスクである。
音声アシスタントの非常に一般的な問題は、音楽、テレビ、バックグラウンド音声などのバックグラウンドノイズによってアクティベートされ、デバイスが誤って起動してしまうことだ。
本稿では,これらのノイズの存在下での認識率の向上と誤報の低減を目的とした,WUW検出タスクに適応した音声強調(SE)モデルを提案する。
SEモデルは、波形レベルでの完全畳み込み復調自動エンコーダであり、単純なWUW分類ネットワークのBCE損失とともに、ログメルスペクトログラムおよび波形復元損失を使用して訓練される。
キーワードに非常に音素的に類似している負のサンプルを含む困難な条件でWUWを認識するタスクのために、新しいデータベースが意図的に準備されました。
データベースは、公開データベースと、さまざまなノイズや環境をシミュレートする徹底的なデータ拡張によって拡張される。
単純で最先端のWUW検出器とSEを結合することによって得られた結果は、SEとWUW検出器がエンドツーエンドで訓練されている場合に特に、ノイズの存在下でのパフォーマンスを高めながら、静的な環境における認識率にSEが負の影響を及ぼさないことを示しています。
関連論文リスト
- VoxWatch: An open-set speaker recognition benchmark on VoxCeleb [10.84962993456577]
オープンセット話者識別(OSI)は、テスト音声サンプルが事前登録された個人(セット内)の話者であるかどうか、またはアウトオブセット話者の話者であるかどうかを決定する。
インセット話者人口が増加するにつれて、アウト・オブ・セットのスコアが大きくなり、誤警報率が増加する。
我々は,VoxCelebデータセットを用いて開発したOSIの最初の公開ベンチマークを示す。
論文 参考訳(メタデータ) (2023-06-30T23:11:38Z) - NLIP: Noise-robust Language-Image Pre-training [95.13287735264937]
雑音調和と雑音補完という2つの手法を用いて事前学習の安定化を図るため,NLIPの原理的手法を提案する。
我々のNLIPは、画像テキスト事前学習における一般的なノイズ効果をより効率的に軽減することができる。
論文 参考訳(メタデータ) (2022-12-14T08:19:30Z) - Device-Directed Speech Detection: Regularization via Distillation for
Weakly-Supervised Models [13.456066434598155]
我々は、特定のウェイクワードを含まないデバイスに向けられた音声を検出する問題に対処する。
具体的には、タッチベースの呼び出しによるオーディオに焦点を当てます。
論文 参考訳(メタデータ) (2022-03-30T01:27:39Z) - Implicit Acoustic Echo Cancellation for Keyword Spotting and
Device-Directed Speech Detection [2.7393821783237184]
多くの音声対応のヒューマンマシンインタラクションシナリオでは、ユーザ音声はデバイスがオーディオを再生するときに重複する可能性がある。
そこで我々は,ニューラルネットワークをトレーニングし,参照マイクロホンチャネルからの付加情報を利用する暗黙の音響エコーキャンセリングフレームワークを提案する。
デバイス再生条件下でDDDタスクの偽リジェクト率を56%削減することを示す。
論文 参考訳(メタデータ) (2021-11-20T17:21:16Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - CITISEN: A Deep Learning-Based Speech Signal-Processing Mobile
Application [63.2243126704342]
本研究では,CitisENと呼ばれる深層学習に基づく音声信号処理モバイルアプリケーションを提案する。
CitisENは、音声強調(SE)、モデル適応(MA)、背景雑音変換(BNC)の3つの機能を提供している。
雑音の多い音声信号と比較すると、改良された音声信号の約6%と33%の改善が達成された。
論文 参考訳(メタデータ) (2020-08-21T02:04:12Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z) - Multi-task self-supervised learning for Robust Speech Recognition [75.11748484288229]
本稿では,雑音および残響環境下での頑健な音声認識のためのPASE+を提案する。
我々は、様々なランダムな乱れで入力信号を汚染するオンライン音声歪みモジュールを用いる。
次に,再帰型ネットワークと畳み込み型ネットワークを効率よく組み合わせて,短時間および長期の音声力学をよりよく学習する改良型エンコーダを提案する。
論文 参考訳(メタデータ) (2020-01-25T00:24:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。