論文の概要: Enhancing Few-shot Keyword Spotting Performance through Pre-Trained Self-supervised Speech Models
- arxiv url: http://arxiv.org/abs/2506.17686v1
- Date: Sat, 21 Jun 2025 11:39:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.541124
- Title: Enhancing Few-shot Keyword Spotting Performance through Pre-Trained Self-supervised Speech Models
- Title(参考訳): 事前学習型自己教師型音声モデルによるフットショットキーワードスポッティング性能の向上
- Authors: Alican Gok, Oguzhan Buyuksolak, Osman Erman Okman, Murat Saraclar,
- Abstract要約: キーワードスポッティングは、バッテリー駆動エッジデバイスに対するハンズフリーインタラクションを可能にする上で重要な役割を果たす。
本研究では,自己指導型学習モデルを用いて,ロバストな特徴抽出,次元縮小,知識蒸留を行う訓練手法を提案する。
提案手法は,Multilingual Spoken Words Corpus (MSWC) とGoogle Speech Commands (GSC) データセットの英語部分に対して評価を行った。
- 参考スコア(独自算出の注目度): 3.25590215530292
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Keyword Spotting plays a critical role in enabling hands-free interaction for battery-powered edge devices. Few-Shot Keyword Spotting (FS-KWS) addresses the scalability and adaptability challenges of traditional systems by enabling recognition of custom keywords with only a few examples. However, existing FS-KWS systems achieve subpar accuracy at desirable false acceptance rates, particularly in resource-constrained edge environments. To address these issues, we propose a training scheme that leverages self-supervised learning models for robust feature extraction, dimensionality reduction, and knowledge distillation. The teacher model, based on Wav2Vec 2.0 is trained using Sub-center ArcFace loss, which enhances inter-class separability and intra-class compactness. To enable efficient deployment on edge devices, we introduce attention-based dimensionality reduction and train a standard lightweight ResNet15 student model. We evaluate the proposed approach on the English portion of the Multilingual Spoken Words Corpus (MSWC) and the Google Speech Commands (GSC) datasets. Notably, the proposed training method improves the 10-shot classification accuracy from 33.4% to 74.1% on 11 classes at 1% false alarm accuracy on the GSC dataset, thus making it significantly better-suited for a real use case scenario.
- Abstract(参考訳): キーワードスポッティングは、バッテリー駆動エッジデバイスにおけるハンズフリーインタラクションを実現する上で重要な役割を果たす。
Few-Shot Keyword Spotting (FS-KWS)は、いくつかの例でカスタムキーワードの認識を可能にすることで、従来のシステムのスケーラビリティと適応性の問題に対処する。
しかし、既存のFS-KWSシステムは、特に資源制約されたエッジ環境において、望ましい偽の受け入れ率でサブパー精度を達成する。
これらの課題に対処するために,頑健な特徴抽出,次元縮小,知識蒸留に自己教師付き学習モデルを活用する訓練手法を提案する。
Wav2Vec 2.0をベースとした教師モデルは、サブセンターのArcFaceロスを使用してトレーニングされている。
エッジデバイスへの効率的な展開を実現するため,注意に基づく次元削減を導入し,標準軽量ResNet15学生モデルを訓練する。
提案手法は,Multilingual Spoken Words Corpus (MSWC) とGoogle Speech Commands (GSC) データセットの英語部分に対して評価を行った。
特に,提案手法では,11クラスの10ショット分類精度を33.4%から74.1%に改善した。
関連論文リスト
- Adaptive Noise Resilient Keyword Spotting Using One-Shot Learning [5.967661928760498]
キーワードスポッティング(KWS)はスマートデバイスのキーコンポーネントであり、効率的で直感的なオーディオインタラクションを可能にする。
KWSシステムは実環境下での性能劣化に悩まされることが多い。
そこで本研究では,KWS分類に用いる事前学習ニューラルネットワークの連続雑音適応に対する低計算手法を提案する。
論文 参考訳(メタデータ) (2025-05-14T11:39:47Z) - Few-shot Hate Speech Detection Based on the MindSpore Framework [2.6396343924017915]
我々は,MindSporeディープラーニングプラットフォーム上に実装された数発のヘイトスピーチ検出のための,高速化されたニューラルネットワークフレームワークであるMS-Hateを提案する。
HateXplain と HSOL-demonstrate という2つのベンチマークデータセットの実験結果から、我々のアプローチは精度、リコール、F1スコアの競争ベースラインを上回っている。
これらの知見は, 素早い学習と敵対的増強を併用して, 数ショットシナリオで頑健かつ適応可能なヘイトスピーチ検出を可能にする可能性を示唆している。
論文 参考訳(メタデータ) (2025-04-22T15:42:33Z) - How to Learn a New Language? An Efficient Solution for Self-Supervised Learning Models Unseen Languages Adaption in Low-Resource Scenario [72.02391485962127]
音声認識(ASR)における音声自己監視学習(SSL)モデルの性能向上
低リソース言語 ASR では、事前訓練された言語と低リソース言語のドメインミスマッチ問題に遭遇する。
これらの問題に対処するためのアダプタに基づく従来型の効率的な微調整手法を拡張した。
論文 参考訳(メタデータ) (2024-11-27T10:51:00Z) - Disentangled Training with Adversarial Examples For Robust Small-footprint Keyword Spotting [18.456711824241978]
KWSのロバスト性を改善するために,逆例を用いたデータソース対応不整合学習を提案する。
実験結果から,提案手法は偽拒絶率を40.31%,偽受け入れ率1%で改善することが示された。
我々の最高のパフォーマンスシステムは、Google Speech Commands V1データセットで9,8.06%の精度を達成する。
論文 参考訳(メタデータ) (2024-08-23T20:03:51Z) - Enhancing Visual Continual Learning with Language-Guided Supervision [76.38481740848434]
継続的な学習は、モデルが以前獲得した知識を忘れずに新しいタスクを学習できるようにすることを目的としている。
ワンホットラベルが伝達する少ない意味情報は,タスク間の効果的な知識伝達を妨げている,と我々は主張する。
具体的には, PLM を用いて各クラスのセマンティックターゲットを生成し, 凍結し, 監視信号として機能する。
論文 参考訳(メタデータ) (2024-03-24T12:41:58Z) - Few-Shot Open-Set Learning for On-Device Customization of KeyWord
Spotting Systems [41.24728444810133]
本稿では, 深層特徴エンコーダとプロトタイプベース分類器を組み合わせることで, オープンセットKWS分類のための数ショット学習手法について検討する。
Google Speech Commandデータセットの10クラスのユーザ定義キーワードを用いて、10ショットシナリオで最大76%の精度を報告した。
論文 参考訳(メタデータ) (2023-06-03T17:10:33Z) - Contextual Squeeze-and-Excitation for Efficient Few-Shot Image
Classification [57.36281142038042]
本稿では,事前学習したニューラルネットワークを新しいタスクで調整し,性能を大幅に向上させる,Contextual Squeeze-and-Excitation (CaSE) という適応ブロックを提案する。
また、メタトレーニングされたCaSEブロックと微調整ルーチンを利用して効率よく適応する、アッパーCaSEと呼ばれるコーディネートダイスに基づく新しいトレーニングプロトコルを提案する。
論文 参考訳(メタデータ) (2022-06-20T15:25:08Z) - A Method to Reveal Speaker Identity in Distributed ASR Training, and How
to Counter It [3.18475216176047]
学習発話の話者の同一性を明らかにするための第1の手法を,勾配のみへのアクセスで設計する。
我々は、LibriSpeechデータセット上で34%のトップ1精度(51%のトップ5精度)で話者の身元を明らかにすることができることを示した。
論文 参考訳(メタデータ) (2021-04-15T23:15:12Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - Few-shot Action Recognition with Prototype-centered Attentive Learning [88.10852114988829]
2つの新しい構成要素からなるプロトタイプ中心型注意学習(pal)モデル。
まず,従来のクエリ中心学習目標を補完するために,プロトタイプ中心のコントラスト学習損失を導入する。
第二に、PALは注意深いハイブリッド学習機構を統合しており、アウトレーヤの負の影響を最小限に抑えることができる。
論文 参考訳(メタデータ) (2021-01-20T11:48:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。