論文の概要: Boosting keyword spotting through on-device learnable user speech
characteristics
- arxiv url: http://arxiv.org/abs/2403.07802v1
- Date: Tue, 12 Mar 2024 16:41:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 20:28:46.631348
- Title: Boosting keyword spotting through on-device learnable user speech
characteristics
- Title(参考訳): デバイス上で学習可能なユーザ音声特性によるキーワードスポッティング
- Authors: Cristian Cioflan, Lukas Cavigelli, Luca Benini
- Abstract要約: 常時オンのTinyML制約されたアプリケーションのキーワードスポッティングシステムは、オンサイトチューニングを必要とする。
ターゲットユーザの音声特異性に適応するには、多くのドメイン内サンプルが必要であり、多くの場合、現実のシナリオでは利用できない。
本稿では,事前学習されたバックボーンとユーザの音声特性を学習するユーザ認識を組み込んだ,デバイス上での新たな学習アーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 16.632185274553485
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Keyword spotting systems for always-on TinyML-constrained applications
require on-site tuning to boost the accuracy of offline trained classifiers
when deployed in unseen inference conditions. Adapting to the speech
peculiarities of target users requires many in-domain samples, often
unavailable in real-world scenarios. Furthermore, current on-device learning
techniques rely on computationally intensive and memory-hungry backbone update
schemes, unfit for always-on, battery-powered devices. In this work, we propose
a novel on-device learning architecture, composed of a pretrained backbone and
a user-aware embedding learning the user's speech characteristics. The
so-generated features are fused and used to classify the input utterance. For
domain shifts generated by unseen speakers, we measure error rate reductions of
up to 19% from 30.1% to 24.3% based on the 35-class problem of the Google
Speech Commands dataset, through the inexpensive update of the user
projections. We moreover demonstrate the few-shot learning capabilities of our
proposed architecture in sample- and class-scarce learning conditions. With
23.7 kparameters and 1 MFLOP per epoch required for on-device training, our
system is feasible for TinyML applications aimed at battery-powered
microcontrollers.
- Abstract(参考訳): 常時オンのTinyML制約のあるアプリケーションのためのキーワードスポッティングシステムは、オフラインでトレーニングされた分類器の精度を高めるために、オンサイトチューニングを必要とする。
ターゲットユーザの音声特異性に適応するには、多くのドメイン内サンプルが必要である。
さらに、現在のオンデバイス学習技術は、常時オンのバッテリー駆動デバイスには適さない、計算集約的でメモリ不足のバックボーン更新スキームに依存している。
本研究では,事前学習されたバックボーンと,ユーザの発話特性を学習するユーザ対応組込みからなる,新しいオンデバイス学習アーキテクチャを提案する。
生成された特徴は融合され、入力発話の分類に用いられる。
google speech commandデータセットの35クラスの問題に基づいて,未認識話者によるドメインシフトを30.1%から24.3%まで,最大19%の誤差率低減率を,ユーザ予測の安価な更新を通じて測定する。
さらに,提案アーキテクチャのサンプル・クラス・スカース学習条件における数発の学習能力を実証した。
オンデバイストレーニングには23.7kパラメータと1mflop/epochが必要であり,バッテリ駆動のマイクロコントローラを対象としたtinymlアプリケーションに適用可能である。
関連論文リスト
- A Multimodal Approach to Device-Directed Speech Detection with Large Language Models [41.37311266840156]
我々は、ユーザが各コマンドをトリガーフレーズで開始しなければならないという要求を省くことが可能かどうかを探る。
音声波形から得られた音響情報のみを用いて分類器を訓練する。
本研究では,1-best仮説などの自動音声認識システムのデコーダ出力を,大規模言語モデルへの入力特徴とみなす。
論文 参考訳(メタデータ) (2024-03-21T14:44:03Z) - The Gift of Feedback: Improving ASR Model Quality by Learning from User
Corrections through Federated Learning [20.643270151774182]
フェデレートラーニング(FL)を通じてデバイス上でのユーザ修正から継続的に学習することを目指す。
我々は、モデルがこれまで遭遇していなかった新しい用語をターゲットとして、長い尾の単語を学習し、破滅的な忘れ事をする手法を探究する。
実験により,提案手法は,言語分布全体の品質を保ちながら,新しい用語のモデル認識を改善することが確認された。
論文 参考訳(メタデータ) (2023-09-29T21:04:10Z) - Few-Shot Open-Set Learning for On-Device Customization of KeyWord
Spotting Systems [41.24728444810133]
本稿では, 深層特徴エンコーダとプロトタイプベース分類器を組み合わせることで, オープンセットKWS分類のための数ショット学習手法について検討する。
Google Speech Commandデータセットの10クラスのユーザ定義キーワードを用いて、10ショットシナリオで最大76%の精度を報告した。
論文 参考訳(メタデータ) (2023-06-03T17:10:33Z) - Continual Learning for On-Device Speech Recognition using Disentangled
Conformers [54.32320258055716]
本稿では,LibriVoxオーディオブックから派生した話者固有領域適応のための連続学習ベンチマークを提案する。
本稿では,DistangledCLと呼ばれる計算効率のよい連続学習アルゴリズムを提案する。
実験の結果, DisConformer モデルは一般的な ASR のベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2022-12-02T18:58:51Z) - Incremental Online Learning Algorithms Comparison for Gesture and Visual
Smart Sensors [68.8204255655161]
本稿では,加速度センサデータに基づくジェスチャー認識と画像分類の2つの実例として,最先端の4つのアルゴリズムを比較した。
以上の結果から,これらのシステムの信頼性と小型メモリMCUへのデプロイの可能性が確認された。
論文 参考訳(メタデータ) (2022-09-01T17:05:20Z) - Few-Shot Cross-Lingual TTS Using Transferable Phoneme Embedding [55.989376102986654]
本稿では,言語間テキスト-音声間問題に対処するための移動可能な音素埋め込みフレームワークについて,数ショット設定で検討する。
本稿では,音素ベースのTSモデルと,異なる言語からの音素を学習潜在空間に投影するコードブックモジュールからなるフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-27T11:24:40Z) - Building a Noisy Audio Dataset to Evaluate Machine Learning Approaches
for Automatic Speech Recognition Systems [0.0]
この研究は、ノイズの多いオーディオのデータセットを構築する過程を、干渉による劣化したオーディオの特定のケースで提示することを目的としている。
また、このようなデータを評価に利用する分類器の初期結果を示し、認識者の学習プロセスでこのデータセットを使用することの利点を示す。
論文 参考訳(メタデータ) (2021-10-04T13:08:53Z) - Mobility-Aware Cluster Federated Learning in Hierarchical Wireless
Networks [81.83990083088345]
我々は,無線ネットワークにおける階層型フェデレーション学習(HFL)アルゴリズムを特徴付ける理論モデルを開発した。
分析の結果,HFLの学習性能は,ハイモービル利用者の学習能力が著しく低下していることが判明した。
これらの問題を回避するため,我々はMACFLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-08-20T10:46:58Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - A Study of Few-Shot Audio Classification [2.1989764549743476]
ファウショット学習(Few-shot learning)は、モデルが新しいクラスに一般化できるように設計された機械学習の一種である。
我々は,VoxCelebデータセットとICSI Meeting Corpusの話者識別モデルを評価し,それぞれ93.5%,54.0%の5ショット5ウェイ精度を得た。
また、Kineetics600データセットとAudioSetの少数ショットサブセットを用いてオーディオからのアクティビティ分類を評価し、それぞれ51.5%と35.2%の精度でYouTubeビデオから抽出した。
論文 参考訳(メタデータ) (2020-12-02T22:19:16Z) - Wake Word Detection with Alignment-Free Lattice-Free MMI [66.12175350462263]
音声言語インタフェース、例えばパーソナルデジタルアシスタントは、音声入力の処理を開始するためにウェイクワードに依存している。
本稿では,部分的にラベル付けされたトレーニングデータから,ハイブリッドDNN/HMM覚醒単語検出システムの学習方法を提案する。
提案手法を2つの実データ集合上で評価し, 前報よりも50%~90%の誤報率の減少率を示した。
論文 参考訳(メタデータ) (2020-05-17T19:22:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。