論文の概要: PCOV-KWS: Multi-task Learning for Personalized Customizable Open Vocabulary Keyword Spotting
- arxiv url: http://arxiv.org/abs/2603.18023v1
- Date: Thu, 05 Mar 2026 13:57:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:42.395953
- Title: PCOV-KWS: Multi-task Learning for Personalized Customizable Open Vocabulary Keyword Spotting
- Title(参考訳): PCOV-KWS:パーソナライズされたオープン語彙キーワードスポッティングのためのマルチタスク学習
- Authors: Jianan Pan, Kejie Huang,
- Abstract要約: 本稿では、パーソナライズされたカスタマイズ可能なオープン語彙キーワードスポッティング(PCOV-KWS)のためのマルチタスク学習フレームワークを提案する。
我々は、ソフトマックスに基づく損失とは異なるトレーニング基準を統合し、マルチクラス分類を複数のバイナリ分類に変換することで、カテゴリ間の競合を排除した。
複数のデータセットでPCOV-KWSシステムを評価し,評価結果のベースラインよりも優れていることを示した。
- 参考スコア(独自算出の注目度): 7.950602766668019
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: As advancements in technologies like Internet of Things (IoT), Automatic Speech Recognition (ASR), Speaker Verification (SV), and Text-to-Speech (TTS) lead to increased usage of intelligent voice assistants, the demand for privacy and personalization has escalated. In this paper, we introduce a multi-task learning framework for personalized, customizable open-vocabulary Keyword Spotting (PCOV-KWS). This framework employs a lightweight network to simultaneously perform Keyword Spotting (KWS) and SV to address personalized KWS requirements. We have integrated a training criterion distinct from softmax-based loss, transforming multi-class classification into multiple binary classifications, which eliminates inter-category competition, while an optimization strategy for multi-task loss weighting is employed during training. We evaluated our PCOV-KWS system in multiple datasets, demonstrating that it outperforms the baselines in evaluation results, while also requiring fewer parameters and lower computational resources.
- Abstract(参考訳): モノのインターネット(IoT)、自動音声認識(ASR)、話者認証(SV)、テキスト音声アシスタント(TTS)などの技術の進歩により、インテリジェント音声アシスタントの利用が増加し、プライバシとパーソナライゼーションの需要が増大している。
本稿では、パーソナライズされたカスタマイズ可能なオープン語彙キーワードスポッティング(PCOV-KWS)のためのマルチタスク学習フレームワークを提案する。
このフレームワークは、キーワードスポッティング(KWS)とSVを同時に実行し、パーソナライズされたKWS要求に対処するために軽量ネットワークを使用する。
我々は、ソフトマックスに基づく損失とは別のトレーニング基準を統合し、マルチクラス分類を複数のバイナリ分類に変換することで、カテゴリ間競争を排除し、トレーニング中にマルチタスク損失重み付けの最適化戦略を採用する。
我々はPCOV-KWSシステムを複数のデータセットで評価し、評価結果のベースラインよりも優れており、パラメータが少なく、計算資源も少ないことを示した。
関連論文リスト
- Adapt-$\infty$: Scalable Continual Multimodal Instruction Tuning via Dynamic Data Selection [89.42023974249122]
Adapt-$infty$は、生涯のインストラクションチューニングのための、新しいマルチウェイおよびアダプティブなデータ選択アプローチである。
勾配に基づくサンプルベクトルをグループ化して擬似スキルクラスタを構築する。
セレクタエキスパートのプールから各スキルクラスタの最高のパフォーマンスデータセレクタを選択する。
このデータセレクタは、トレーニングのために各スキルクラスタから最も重要なサンプルのサブセットをサンプリングする。
論文 参考訳(メタデータ) (2024-10-14T15:48:09Z) - Semantic Meta-Split Learning: A TinyML Scheme for Few-Shot Wireless Image Classification [50.28867343337997]
本研究は,TinyMLを用いた無線画像分類のためのセマンティック・コミュニケーション・フレームワークを提案する。
我々は、プライバシ保護を確保しつつ、エンドユーザーによって実行される計算を制限するために分割学習を利用する。
メタ学習は、データ可用性の懸念を克服し、同様のトレーニングされたタスクを利用することで、トレーニングを高速化する。
論文 参考訳(メタデータ) (2024-09-03T05:56:55Z) - Efficient Spoken Language Recognition via Multilabel Classification [53.662747523872305]
我々のモデルは,現在の最先端手法よりも桁違いに小さく,高速でありながら,競争力のある結果が得られることを示す。
我々のマルチラベル戦略は、マルチクラス分類よりも非ターゲット言語の方が堅牢である。
論文 参考訳(メタデータ) (2023-06-02T23:04:19Z) - Personalized Keyword Spotting through Multi-task Learning [6.4423565043274795]
我々は、(1)ターゲットユーザバイアスドKWS(TB-KWS)と(2)ターゲットユーザのみKWS(TO-KWS)の2つの個別KWSタスクを設計する。
課題を解決するために,マルチタスク学習とタスク適応からなるマルチタスク学習(PK-MTL)によるパーソナライズされたキーワードスポッティングを提案する。
従来のシナリオとパーソナライズされたシナリオの枠組みを評価し,PK-MTLが誤警報率を大幅に低減できることを示す。
論文 参考訳(メタデータ) (2022-06-28T02:48:34Z) - Learning Decoupling Features Through Orthogonality Regularization [55.79910376189138]
音声認識におけるキースポッティング(KWS)と話者検証(SV)は2つの重要なタスクである。
我々は,同じネットワーク構造を持つ2分岐のディープネットワーク(KWSブランチとSVブランチ)を開発する。
KWS と SV のパフォーマンスを同時に向上させるために,新しいデカップリング特徴学習法を提案する。
論文 参考訳(メタデータ) (2022-03-31T03:18:13Z) - Generalizing AUC Optimization to Multiclass Classification for Audio
Segmentation With Limited Training Data [20.943224434364517]
ROC曲線(AUC)の最適化手法に基づく領域は、最近、様々な音声および音声関連タスクでその能力を実証している。
任意の数のクラスに容易に適用できるように,AUC最適化フレームワークの拡張を導入する。
論文 参考訳(メタデータ) (2021-10-27T13:36:04Z) - WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech
Processing [102.45426364965887]
そこで本研究では,フルスタックダウンストリーム音声タスクを解決するための,事前学習型モデルWavLMを提案する。
WavLMはHuBERTフレームワークに基づいて構築されており、音声コンテンツモデリングと話者アイデンティティ保存の両方に重点を置いている。
トレーニングデータセットを60k時間から94k時間までの公開オーディオデータにスケールアップし、そのトレーニング手順を最適化して表現抽出を改善する。
論文 参考訳(メタデータ) (2021-10-26T17:55:19Z) - Multi-task Learning with Cross Attention for Keyword Spotting [8.103605110339519]
キーワードスポッティング(KWS)は音声アプリケーションにとって重要な手法であり、ユーザーはキーワード句を話すことでデバイスをアクティベートすることができる。
学習基準(音素認識)と目標課題(KWS)との間にはミスマッチがある
近年,KWS にマルチタスク学習を適用し,ASR と KWS のトレーニングデータを活用している。
論文 参考訳(メタデータ) (2021-07-15T22:38:16Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - Small-Footprint Open-Vocabulary Keyword Spotting with Quantized LSTM
Networks [3.8382752162527933]
本稿では,オープン語彙のキーワードスポッティング手法に着目し,モデル全体を再トレーニングすることなく,ユーザが独自のキーワードを定義できるようにする。
ユーザ定義キーワードの任意のセットに対して,小さなデバイス上で動作可能な高速かつ小型のフットプリントシステムを実現するための,さまざまな設計選択について説明する。
論文 参考訳(メタデータ) (2020-02-25T13:27:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。