論文の概要: Filterbank Learning for Small-Footprint Keyword Spotting Robust to Noise
- arxiv url: http://arxiv.org/abs/2211.10565v1
- Date: Sat, 19 Nov 2022 02:20:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 23:32:57.951742
- Title: Filterbank Learning for Small-Footprint Keyword Spotting Robust to Noise
- Title(参考訳): 雑音に頑健な小文字キーワードに対するフィルタバンク学習
- Authors: Iv\'an L\'opez-Espejo and Ram C. M. C. Shekar and Zheng-Hua Tan and
Jesper Jensen and John H. L. Hansen
- Abstract要約: フィルタバンク学習は,フィルタバンクチャネルの数が大幅に減少すると,手作りのKWS音声特徴よりも優れる。
通常使われる40チャンネルのログメル機能から8チャンネルの学習機能に切り替えると、相対的なKWS精度の低下はわずか3.5%となる。
- 参考スコア(独自算出の注目度): 48.447830888836805
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the context of keyword spotting (KWS), the replacement of handcrafted
speech features by learnable features has not yielded superior KWS performance.
In this study, we demonstrate that filterbank learning outperforms handcrafted
speech features for KWS whenever the number of filterbank channels is severely
decreased. Reducing the number of channels might yield certain KWS performance
drop, but also a substantial energy consumption reduction, which is key when
deploying common always-on KWS on low-resource devices. Experimental results on
a noisy version of the Google Speech Commands Dataset show that filterbank
learning adapts to noise characteristics to provide a higher degree of
robustness to noise, especially when dropout is integrated. Thus, switching
from typically used 40-channel log-Mel features to 8-channel learned features
leads to a relative KWS accuracy loss of only 3.5% while simultaneously
achieving a 6.3x energy consumption reduction.
- Abstract(参考訳): キーワードスポッティング(KWS)の文脈では、学習可能な特徴による手作り音声特徴の置き換えは、優れたKWS性能を与えていない。
本研究では,フィルタバンクのチャネル数が大幅に減少するたびに,フィルタバンク学習がKWSの手作り音声特性より優れていることを示す。
チャネル数を減らすことで、特定のKWS性能が低下する可能性があるが、低リソースデバイスに常時オンのKWSをデプロイする際には、かなりのエネルギー消費が減少する。
Google Speech Commands Datasetのノイズバージョンの実験結果によると、特にドロップアウトが統合された場合、フィルタバンク学習はノイズ特性に適応し、ノイズに対する高い堅牢性を提供する。
したがって、通常使われる40チャンネルのログメル機能から8チャンネルの学習機能に切り替えると、相対的なKWS精度の損失は3.5%に過ぎず、同時に6.3倍のエネルギー消費削減を実現している。
関連論文リスト
- Disentangled Training with Adversarial Examples For Robust Small-footprint Keyword Spotting [18.456711824241978]
KWSのロバスト性を改善するために,逆例を用いたデータソース対応不整合学習を提案する。
実験結果から,提案手法は偽拒絶率を40.31%,偽受け入れ率1%で改善することが示された。
我々の最高のパフォーマンスシステムは、Google Speech Commands V1データセットで9,8.06%の精度を達成する。
論文 参考訳(メタデータ) (2024-08-23T20:03:51Z) - SparseVSR: Lightweight and Noise Robust Visual Speech Recognition [100.43280310123784]
我々は,高密度モデルよりも高い性能を実現する軽量モデルを生成する。
その結果,疎結合ネットワークは高密度ネットワークよりもノイズに耐性があることが確認された。
論文 参考訳(メタデータ) (2023-07-10T13:34:13Z) - Audio-Visual Efficient Conformer for Robust Speech Recognition [91.3755431537592]
本稿では,近年提案されている高能率コンバータ接続性時間分類アーキテクチャの雑音を,音声と視覚の両方を処理して改善することを提案する。
実験の結果,音声と視覚のモダリティを用いることで,環境騒音の存在下での音声の認識が向上し,トレーニングが大幅に加速し,WERが4倍のトレーニングステップで低下することが確認された。
論文 参考訳(メタデータ) (2023-01-04T05:36:56Z) - Simple Pooling Front-ends For Efficient Audio Classification [56.59107110017436]
入力音声特徴量における時間的冗長性を排除することは,効率的な音声分類に有効な方法である可能性が示唆された。
本稿では、単純な非パラメトリックプーリング操作を用いて冗長な情報を削減する単純なプールフロントエンド(SimPFs)のファミリーを提案する。
SimPFは、市販オーディオニューラルネットワークの浮動小数点演算数の半数以上を削減できる。
論文 参考訳(メタデータ) (2022-10-03T14:00:41Z) - Spiking Cochlea with System-level Local Automatic Gain Control [13.532394494130468]
本稿では,シリコンスパイクコクランにチャネル特異的自動ゲイン制御(AGC)を実装したシステムレベルアルゴリズムを提案する。
AGCメカニズムは演算のカウントと追加のみを必要とするため、将来の設計ではハードウェアコストの低い実装が可能である。
入力信号が32dB以上の入力範囲で変化する分類タスクに対する局所的なAGCアルゴリズムの影響を評価する。
論文 参考訳(メタデータ) (2022-02-14T13:58:13Z) - Weight, Block or Unit? Exploring Sparsity Tradeoffs for Speech
Enhancement on Tiny Neural Accelerators [4.1070979067056745]
我々は、低消費電力マイクロコントローラベースのニューラルアクセラレータ(microNPU)の新世代のための最適構成まで、ニューラルネットワーク拡張(SE)を圧縮する目的で、ネットワークスペーシフィケーション戦略を検討する。
本研究は, 軽量刈り, ブロック刈り, ユニット刈りの3つの特異な空間構造について検討し, SEに適用した場合の利点と欠点について考察する。
論文 参考訳(メタデータ) (2021-11-03T17:06:36Z) - CITISEN: A Deep Learning-Based Speech Signal-Processing Mobile
Application [63.2243126704342]
本研究では,CitisENと呼ばれる深層学習に基づく音声信号処理モバイルアプリケーションを提案する。
CitisENは、音声強調(SE)、モデル適応(MA)、背景雑音変換(BNC)の3つの機能を提供している。
雑音の多い音声信号と比較すると、改良された音声信号の約6%と33%の改善が達成された。
論文 参考訳(メタデータ) (2020-08-21T02:04:12Z) - Neural Network Virtual Sensors for Fuel Injection Quantities with
Provable Performance Specifications [71.1911136637719]
証明可能な保証が、他の現実世界の設定にどのように自然に適用できるかを示す。
本研究では, 燃料噴射量を一定範囲で最大化するために, 特定の間隔の燃料噴射量を目標にする方法を示す。
論文 参考訳(メタデータ) (2020-06-30T23:33:17Z) - Exploring Filterbank Learning for Keyword Spotting [27.319236923928205]
本稿ではキーワードスポッティングのためのフィルタバンク学習について検討する。
パワースペクトル領域におけるフィルタバンク行列学習と、精神音響的に動機付けられたガンマチャープフィルタバンクのパラメータ学習の2つの手法について検討した。
実験結果から,学習したフィルタバンクと手作り音声の特徴との間には,KWSの精度において統計的に有意な差はないことが明らかとなった。
論文 参考訳(メタデータ) (2020-05-30T08:11:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。