論文の概要: Exploring Filterbank Learning for Keyword Spotting
- arxiv url: http://arxiv.org/abs/2006.00217v1
- Date: Sat, 30 May 2020 08:11:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-26 18:17:01.474581
- Title: Exploring Filterbank Learning for Keyword Spotting
- Title(参考訳): キーワードスポッティングのためのフィルタバンク学習の探索
- Authors: Iv\'an L\'opez-Espejo and Zheng-Hua Tan and Jesper Jensen
- Abstract要約: 本稿ではキーワードスポッティングのためのフィルタバンク学習について検討する。
パワースペクトル領域におけるフィルタバンク行列学習と、精神音響的に動機付けられたガンマチャープフィルタバンクのパラメータ学習の2つの手法について検討した。
実験結果から,学習したフィルタバンクと手作り音声の特徴との間には,KWSの精度において統計的に有意な差はないことが明らかとなった。
- 参考スコア(独自算出の注目度): 27.319236923928205
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite their great performance over the years, handcrafted speech features
are not necessarily optimal for any particular speech application.
Consequently, with greater or lesser success, optimal filterbank learning has
been studied for different speech processing tasks. In this paper, we fill in a
gap by exploring filterbank learning for keyword spotting (KWS). Two approaches
are examined: filterbank matrix learning in the power spectral domain and
parameter learning of a psychoacoustically-motivated gammachirp filterbank.
Filterbank parameters are optimized jointly with a modern deep residual neural
network-based KWS back-end. Our experimental results reveal that, in general,
there are no statistically significant differences, in terms of KWS accuracy,
between using a learned filterbank and handcrafted speech features. Thus, while
we conclude that the latter are still a wise choice when using modern KWS
back-ends, we also hypothesize that this could be a symptom of information
redundancy, which opens up new research possibilities in the field of
small-footprint KWS.
- Abstract(参考訳): 長年にわたる優れたパフォーマンスにもかかわらず、手作りの音声機能は必ずしも特定の音声アプリケーションに最適ではない。
その結果,様々な音声処理タスクにおいてフィルタバンク学習の最適化が研究されている。
本稿では,キーワードスポッティング(KWS)のためのフィルタバンク学習を探索することによって,ギャップを埋める。
パワースペクトル領域におけるフィルタバンク行列学習と,精神音響的動機づけによるガンマチャープフィルタバンクのパラメータ学習の2つのアプローチを検討した。
フィルタバンクパラメータは、現代のディープニューラルネットワークベースのKWSバックエンドと共同で最適化される。
実験結果から,学習したフィルタバンクと手作り音声の特徴との間には,KWSの精度において統計的に有意な差はないことが明らかとなった。
したがって、現代のKWSバックエンドを使用する際には、後者が依然として賢明な選択であると結論づける一方で、情報冗長性の症状である可能性も仮説を立て、小規模なKWS分野における新たな研究可能性を開く。
関連論文リスト
- On filter design in deep convolutional neural network [0.0]
コンピュータビジョンにおけるディープ畳み込みニューラルネットワーク(DCNN)は、有望な結果をもたらした。
フィルタやウェイトはDCNNで学習する上で重要な要素である。
過去10年間に、半監督的、自己監督的、そして非監督的手法に関する様々な研究がなされてきた。
論文 参考訳(メタデータ) (2024-10-29T01:13:22Z) - Multitaper mel-spectrograms for keyword spotting [42.82842124247846]
そこで本研究では,KWSの改良機能を実現するために,マルチタッパー技術を用いた手法について検討する。
提案した改良機能を使用することの利点を実験により確認した。
論文 参考訳(メタデータ) (2024-07-05T17:18:25Z) - Filterbank Learning for Small-Footprint Keyword Spotting Robust to Noise [48.447830888836805]
フィルタバンク学習は,フィルタバンクチャネルの数が大幅に減少すると,手作りのKWS音声特徴よりも優れる。
通常使われる40チャンネルのログメル機能から8チャンネルの学習機能に切り替えると、相対的なKWS精度の低下はわずか3.5%となる。
論文 参考訳(メタデータ) (2022-11-19T02:20:14Z) - Unrolled Compressed Blind-Deconvolution [77.88847247301682]
sparse multi channel blind deconvolution (S-MBD) はレーダー/ソナー/超音波イメージングなどの多くの工学的応用で頻繁に発生する。
そこで本研究では,受信した全信号に対して,はるかに少ない測定値からブラインドリカバリを可能にする圧縮手法を提案する。
論文 参考訳(メタデータ) (2022-09-28T15:16:58Z) - Batch Normalization Tells You Which Filter is Important [49.903610684578716]
我々は,事前学習したCNNのBNパラメータに基づいて,各フィルタの重要性を評価することによって,簡易かつ効果的なフィルタ刈取法を提案する。
CIFAR-10とImageNetの実験結果から,提案手法が優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2021-12-02T12:04:59Z) - Learning Filterbanks for End-to-End Acoustic Beamforming [8.721077261941234]
モノラル音源分離に関する最近の研究は, 窓が短い完全学習フィルタバンクを用いることで, 性能を向上できることを示した。
一方、従来のビームフォーミング技術では、長い解析ウィンドウで性能が向上する。
この研究では、これらの2つの世界のギャップを埋め、完全なエンドツーエンドのハイブリッド・ニューラルビームフォーミングを探求する。
論文 参考訳(メタデータ) (2021-11-08T16:36:34Z) - Learning Versatile Convolution Filters for Efficient Visual Recognition [125.34595948003745]
本稿では,効率的な畳み込みニューラルネットワーク構築のための多目的フィルタを提案する。
本稿では,ネットワークの複雑性に関する理論的解析を行い,効率的な畳み込み手法を提案する。
ベンチマークデータセットとニューラルネットワークの実験結果は、我々の汎用フィルタが元のフィルタと同等の精度を達成できることを実証している。
論文 参考訳(メタデータ) (2021-09-20T06:07:14Z) - Learning Sparse Analytic Filters for Piano Transcription [21.352141245632247]
フィルタバンク学習は、さまざまなオーディオ関連機械学習タスクにおいて、ますます一般的な戦略になりつつある。
本研究では,ピアノの書き起こしのために,フィルタバンク学習モジュールの様々なバリエーションについて検討した。
論文 参考訳(メタデータ) (2021-08-23T19:41:11Z) - Training Interpretable Convolutional Neural Networks by Differentiating
Class-specific Filters [64.46270549587004]
畳み込みニューラルネットワーク(CNN)は、様々なタスクでうまく使われている。
CNNは、しばしば「ブラックボックス」と解釈可能性の欠如とみなされる。
本稿では,クラス固有のフィルタを奨励することで,解釈可能なCNNを訓練する新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-16T09:12:26Z) - Dependency Aware Filter Pruning [74.69495455411987]
重要でないフィルタを割ることは、推論コストを軽減するための効率的な方法である。
以前の作業は、その重み基準やそれに対応するバッチノームスケーリング要因に従ってフィルタをプルークする。
所望の空間性を達成するために,空間性誘導正規化を動的に制御する機構を提案する。
論文 参考訳(メタデータ) (2020-05-06T07:41:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。