論文の概要: Adaptive Noise Resilient Keyword Spotting Using One-Shot Learning
- arxiv url: http://arxiv.org/abs/2505.09304v1
- Date: Wed, 14 May 2025 11:39:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-15 21:44:09.435885
- Title: Adaptive Noise Resilient Keyword Spotting Using One-Shot Learning
- Title(参考訳): ワンショット学習を用いた適応型雑音耐性キーワードスポッティング
- Authors: Luciano Sebastian Martinez-Rau, Quynh Nguyen Phuong Vu, Yuxuan Zhang, Bengt Oelmann, Sebastian Bader,
- Abstract要約: キーワードスポッティング(KWS)はスマートデバイスのキーコンポーネントであり、効率的で直感的なオーディオインタラクションを可能にする。
KWSシステムは実環境下での性能劣化に悩まされることが多い。
そこで本研究では,KWS分類に用いる事前学習ニューラルネットワークの連続雑音適応に対する低計算手法を提案する。
- 参考スコア(独自算出の注目度): 5.967661928760498
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Keyword spotting (KWS) is a key component of smart devices, enabling efficient and intuitive audio interaction. However, standard KWS systems deployed on embedded devices often suffer performance degradation under real-world operating conditions. Resilient KWS systems address this issue by enabling dynamic adaptation, with applications such as adding or replacing keywords, adjusting to specific users, and improving noise robustness. However, deploying resilient, standalone KWS systems with low latency on resource-constrained devices remains challenging due to limited memory and computational resources. This study proposes a low computational approach for continuous noise adaptation of pretrained neural networks used for KWS classification, requiring only 1-shot learning and one epoch. The proposed method was assessed using two pretrained models and three real-world noise sources at signal-to-noise ratios (SNRs) ranging from 24 to -3 dB. The adapted models consistently outperformed the pretrained models across all scenarios, especially at SNR $\leq$ 18 dB, achieving accuracy improvements of 4.9% to 46.0%. These results highlight the efficacy of the proposed methodology while being lightweight enough for deployment on resource-constrained devices.
- Abstract(参考訳): キーワードスポッティング(KWS)はスマートデバイスのキーコンポーネントであり、効率的で直感的なオーディオインタラクションを可能にする。
しかしながら、組み込みデバイスにデプロイされる標準的なKWSシステムは、実世界の運用条件下での性能劣化に悩まされることが多い。
回復力のあるKWSシステムは、キーワードの追加や置換、特定のユーザへの調整、ノイズの堅牢性の改善など、動的適応を可能にすることでこの問題に対処する。
しかしながら、リソース制限されたデバイスに低レイテンシでレジリエントでスタンドアロンなKWSシステムをデプロイすることは、メモリと計算資源が限られているため、依然として困難である。
そこで本研究では,KWS分類に使用する事前学習ニューラルネットワークの連続雑音適応に対する低次計算手法を提案する。
提案手法は,2つの事前学習モデルと3つの実環境ノイズ源を用いて,24~3dBの信号-雑音比(SNR)を用いて評価した。
適応モデルは全てのシナリオ、特にSNR$\leq$ 18 dBにおいて、常に事前訓練されたモデルより優れ、精度は4.9%から46.0%向上した。
これらの結果は,資源制約されたデバイスへの展開に十分軽量であると同時に,提案手法の有効性を浮き彫りにしている。
関連論文リスト
- Meta-Learning-Based Delayless Subband Adaptive Filter using Complex Self-Attention for Active Noise Control [11.118668841431562]
アクティブノイズコントロール問題をメタ学習問題として再検討する。
深層ニューラルネットワークを用いたメタラーニングに基づく遅延レスサブバンド適応フィルタを提案する。
本モデルでは従来の手法に比べてノイズ低減性能が優れている。
論文 参考訳(メタデータ) (2024-12-27T05:51:40Z) - D4AM: A General Denoising Framework for Downstream Acoustic Models [45.04967351760919]
音声強調(SE)は、自動音声認識(ASR)システムを支援するフロントエンド戦略として用いられる。
既存のSE手法の訓練目的は、未知のASRシステムに向けたトレーニングのために、音声テキストとノイズクリーンなペアデータを統合するのに完全には有効ではない。
そこで我々は,様々な下流音響モデルのための一般的なデノベーションフレームワークD4AMを提案する。
論文 参考訳(メタデータ) (2023-11-28T08:27:27Z) - Improve Noise Tolerance of Robust Loss via Noise-Awareness [60.34670515595074]
本稿では,NARL-Adjuster(NARL-Adjuster for brevity)と呼ばれる,ハイパーパラメータ予測関数を適応的に学習するメタラーニング手法を提案する。
4つのSOTAロバストな損失関数を我々のアルゴリズムに統合し,提案手法の一般性および性能をノイズ耐性と性能の両面で検証した。
論文 参考訳(メタデータ) (2023-01-18T04:54:58Z) - Audio-Visual Efficient Conformer for Robust Speech Recognition [91.3755431537592]
本稿では,近年提案されている高能率コンバータ接続性時間分類アーキテクチャの雑音を,音声と視覚の両方を処理して改善することを提案する。
実験の結果,音声と視覚のモダリティを用いることで,環境騒音の存在下での音声の認識が向上し,トレーニングが大幅に加速し,WERが4倍のトレーニングステップで低下することが確認された。
論文 参考訳(メタデータ) (2023-01-04T05:36:56Z) - Efficient acoustic feature transformation in mismatched environments
using a Guided-GAN [1.495380389108477]
本稿では,資源共有環境における音声認識システムを改善するための新しいフレームワークを提案する。
音響入力機能を利用したGAN(Generative Adversarial Network)を用いて、ミスマッチしたデータの特徴を高める。
1時間未満のデータで、高品質なデータに基づいて訓練され、一致しないオーディオで評価されたASRシステムは、11.5%から19.7%の相対的な単語誤り率(WER)によって改善される。
論文 参考訳(メタデータ) (2022-10-03T05:33:28Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - LCS: Learning Compressible Subspaces for Adaptive Network Compression at
Inference Time [57.52251547365967]
本稿では,ニューラルネットワークの「圧縮可能な部分空間」を訓練する手法を提案する。
構造的・非構造的空間に対する推定時間における微粒な精度・効率のトレードオフを任意に達成するための結果を示す。
我々のアルゴリズムは、可変ビット幅での量子化にまで拡張し、個別に訓練されたネットワークと同等の精度を実現する。
論文 参考訳(メタデータ) (2021-10-08T17:03:34Z) - Bayesian Learning for Deep Neural Network Adaptation [57.70991105736059]
音声認識システムにおける重要な課題は、しばしば話者差に起因する訓練データと評価データとのミスマッチを減らすことである。
モデルに基づく話者適応手法は、ロバスト性を確保するために十分な量のターゲット話者データを必要とすることが多い。
本稿では,話者依存型(SD)パラメータの不確かさをモデル化するための,ベイズ学習に基づくDNN話者適応フレームワークを提案する。
論文 参考訳(メタデータ) (2020-12-14T12:30:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。