論文の概要: Behavior of Keyword Spotting Networks Under Noisy Conditions
- arxiv url: http://arxiv.org/abs/2109.07930v1
- Date: Wed, 15 Sep 2021 10:02:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-18 11:05:09.621631
- Title: Behavior of Keyword Spotting Networks Under Noisy Conditions
- Title(参考訳): 雑音下におけるキーワードスポッティングネットワークの挙動
- Authors: Anwesh Mohanty, Adrian Frischknecht, Christoph Gerum and Oliver
Bringmann
- Abstract要約: キーワードスポッティング(KWS)は、人工知能とスマートデバイスの発展とともに、ユビキタスなニーズになりつつある。
この分野での最近の研究は、低音から中音のデータセットに対して良い結果を得るために、いくつかの異なるアーキテクチャに焦点を当てている。
本稿では,様々な雑音条件下での最先端KWSネットワークの比較について述べる。
- 参考スコア(独自算出の注目度): 1.5425424751424208
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Keyword spotting (KWS) is becoming a ubiquitous need with the advancement in
artificial intelligence and smart devices. Recent work in this field have
focused on several different architectures to achieve good results on datasets
with low to moderate noise. However, the performance of these models
deteriorates under high noise conditions as shown by our experiments. In our
paper, we present an extensive comparison between state-of-the-art KWS networks
under various noisy conditions. We also suggest adaptive batch normalization as
a technique to improve the performance of the networks when the noise files are
unknown during the training phase. The results of such high noise
characterization enable future work in developing models that perform better in
the aforementioned conditions.
- Abstract(参考訳): キーワードスポッティング(KWS)は、人工知能とスマートデバイスの発展とともに、ユビキタスなニーズになりつつある。
この分野での最近の研究は、低音から中音のデータセットで良い結果を得るため、いくつかの異なるアーキテクチャに焦点を当てている。
しかし,これらのモデルの性能は,実験で示されたような高騒音条件下で劣化する。
本稿では,様々な雑音条件下での最先端KWSネットワークの比較について述べる。
また,学習段階でノイズファイルが未知である場合のネットワークの性能向上のための手法として,適応バッチ正規化を提案する。
このような高ノイズ特性の結果として、前述の条件でより優れた性能を持つモデルの開発が期待できる。
関連論文リスト
- Towards Robust Transcription: Exploring Noise Injection Strategies for Training Data Augmentation [55.752737615873464]
本研究では,SNR(Signal-to-Noise Ratio)レベルにおける白色雑音の影響について検討した。
この研究は、様々な音環境における一貫した性能を維持する転写モデルの開発に向けた予備的な研究として、貴重な洞察を与えてくれることを願っている。
論文 参考訳(メタデータ) (2024-10-18T02:31:36Z) - Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Understanding and Mitigating the Label Noise in Pre-training on
Downstream Tasks [91.15120211190519]
本稿では、事前学習データセットにおけるノイズの性質を理解し、下流タスクへの影響を軽減することを目的とする。
雑音の悪影響を軽減するために特徴空間に適応する軽量ブラックボックスチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2023-09-29T06:18:15Z) - Machine learning of network inference enhancement from noisy measurements [13.0533106097336]
観測された時系列データからネットワークを推定すると、ノード間の相互接続が明らかになる。
実世界のオープンケースを扱うネットワーク推論モデルは、パフォーマンスの大幅な低下を経験します。
モデルベースおよびモデルフリーなネットワーク推論モデルの能力を増幅するための、エレガントで効率的なモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-05T08:51:40Z) - Noise-aware Speech Enhancement using Diffusion Probabilistic Model [35.17225451626734]
拡散モデルにおける逆過程を導出する雑音固有情報を抽出する雑音認識音声強調(NASE)手法を提案する。
NASEは任意の拡散SEモデルに一般化できるプラグイン・アンド・プレイモジュールであることが示されている。
論文 参考訳(メタデータ) (2023-07-16T12:46:11Z) - SparseVSR: Lightweight and Noise Robust Visual Speech Recognition [100.43280310123784]
我々は,高密度モデルよりも高い性能を実現する軽量モデルを生成する。
その結果,疎結合ネットワークは高密度ネットワークよりもノイズに耐性があることが確認された。
論文 参考訳(メタデータ) (2023-07-10T13:34:13Z) - Realistic Noise Synthesis with Diffusion Models [68.48859665320828]
Deep Image Denoisingモデルは、しばしば高品質なパフォーマンスのために大量のトレーニングデータに依存します。
本稿では,拡散モデル,すなわちRealistic Noise Synthesize Diffusor(RNSD)を用いて現実的な雑音を合成する新しい手法を提案する。
RNSDは、より現実的なノイズや空間的相関を複数の周波数で生成できるような、ガイド付きマルチスケールコンテンツを組み込むことができる。
論文 参考訳(メタデータ) (2023-05-23T12:56:01Z) - Conditional Denoising Diffusion for Sequential Recommendation [62.127862728308045]
GAN(Generative Adversarial Networks)とVAE(VAE)の2つの顕著な生成モデル
GANは不安定な最適化に苦しむ一方、VAEは後続の崩壊と過度に平らな世代である。
本稿では,シーケンスエンコーダ,クロスアテンティブデノナイジングデコーダ,ステップワイズディフューザを含む条件付きデノナイジング拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T15:32:59Z) - Variational Autoencoder for Speech Enhancement with a Noise-Aware
Encoder [30.318947721658862]
本稿では,ノイズ対応エンコーダを用いて,学習段階での雑音情報を含むことを提案する。
提案するノイズ認識vaeは,モデルパラメータ数を増加させることなく,全体的な歪みの観点から標準vaeを上回っている。
論文 参考訳(メタデータ) (2021-02-17T11:40:42Z) - Dynamic Layer Customization for Noise Robust Speech Emotion Recognition
in Heterogeneous Condition Training [16.807298318504156]
ノイズ条件毎に,サンプルを特殊特徴エンコーダに動的にルーティングすることで,性能を向上できることを示す。
時間的順序付けを動的にルーティングすることで,これらの改善をマルチモーダル設定に拡張する。
論文 参考訳(メタデータ) (2020-10-21T18:07:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。