論文の概要: Personalized Keyword Spotting through Multi-task Learning
- arxiv url: http://arxiv.org/abs/2206.13708v1
- Date: Tue, 28 Jun 2022 02:48:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-02 16:53:53.229735
- Title: Personalized Keyword Spotting through Multi-task Learning
- Title(参考訳): マルチタスク学習による個人化キーワードスポッティング
- Authors: Seunghan Yang, Byeonggeun Kim, Inseop Chung, Simyung Chang
- Abstract要約: 我々は、(1)ターゲットユーザバイアスドKWS(TB-KWS)と(2)ターゲットユーザのみKWS(TO-KWS)の2つの個別KWSタスクを設計する。
課題を解決するために,マルチタスク学習とタスク適応からなるマルチタスク学習(PK-MTL)によるパーソナライズされたキーワードスポッティングを提案する。
従来のシナリオとパーソナライズされたシナリオの枠組みを評価し,PK-MTLが誤警報率を大幅に低減できることを示す。
- 参考スコア(独自算出の注目度): 6.4423565043274795
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Keyword spotting (KWS) plays an essential role in enabling speech-based user
interaction on smart devices, and conventional KWS (C-KWS) approaches have
concentrated on detecting user-agnostic pre-defined keywords. However, in
practice, most user interactions come from target users enrolled in the device
which motivates to construct personalized keyword spotting. We design two
personalized KWS tasks; (1) Target user Biased KWS (TB-KWS) and (2) Target user
Only KWS (TO-KWS). To solve the tasks, we propose personalized keyword spotting
through multi-task learning (PK-MTL) that consists of multi-task learning and
task-adaptation. First, we introduce applying multi-task learning on keyword
spotting and speaker verification to leverage user information to the keyword
spotting system. Next, we design task-specific scoring functions to adapt to
the personalized KWS tasks thoroughly. We evaluate our framework on
conventional and personalized scenarios, and the results show that PK-MTL can
dramatically reduce the false alarm rate, especially in various practical
scenarios.
- Abstract(参考訳): キーワードスポッティング(KWS)は,スマートデバイス上での音声ベースのユーザインタラクションを実現する上で重要な役割を担っている。
しかし、実際には、ほとんどのユーザーインタラクションは、パーソナライズされたキーワードスポッティングを構築する動機となるデバイスに登録されたターゲットユーザーから来ている。
我々は,(1)ターゲットユーザバイアスドKWS(TB-KWS)と(2)ターゲットユーザのみKWS(TO-KWS)の2つの個別KWSタスクを設計する。
本研究では,マルチタスク学習とタスク適応からなるマルチタスク学習(pk-mtl)によるパーソナライズされたキーワードスポッティングを提案する。
まず,キーワードスポッティングと話者検証にマルチタスク学習を適用し,キーワードスポッティングシステムにユーザ情報を活用する。
次にタスク固有のスコアリング機能を設計し、パーソナライズされたkwsタスクに完全に適応する。
従来のシナリオとパーソナライズされたシナリオの枠組みを評価し,PK-MTLは,特に様々なシナリオにおいて,誤警報率を大幅に低減できることを示す。
関連論文リスト
- TAROT: A Hierarchical Framework with Multitask Co-Pretraining on
Semi-Structured Data towards Effective Person-Job Fit [60.31175803899285]
本稿では,階層型マルチタスク協調訓練フレームワークであるTAROTを提案する。
TAROTは、プロファイルとジョブにおける半構造化テキストをターゲットにしており、取得したセマンティック情報を各レベルで制限するために、複数のきめ細かい事前訓練タスクと共に保持されている。
論文 参考訳(メタデータ) (2024-01-15T07:57:58Z) - CompoSuite: A Compositional Reinforcement Learning Benchmark [20.89464587308586]
合成マルチタスク強化学習(RL)のためのオープンソースのベンチマークであるCompoSuiteを提案する。
それぞれのCompoSuiteタスクは、障害物を避けながらタスク目標を達成するために、特定のロボットアームが1つの個々のオブジェクトを操作する必要がある。
我々は,既存のシングルタスク,マルチタスク,コンポジション学習のアルゴリズムを,様々なトレーニング設定でベンチマークし,それらが目に見えないタスクに合成的に一般化する能力を評価する。
論文 参考訳(メタデータ) (2022-07-08T22:01:52Z) - Few-Shot Stance Detection via Target-Aware Prompt Distillation [48.40269795901453]
本論文は,知識ベースや少人数の学習者を対象とした事前学習型言語モデル(PLM)の可能性に着想を得たものである。
PLMは、ターゲットに対して重要なコンテキスト情報を提供し、プロンプトを介して数発の学習を可能にする。
姿勢検出タスクにおいて,対象が重要な役割を担っていることを考慮し,目標認識プロンプトを設計し,新しい言語化手法を提案する。
論文 参考訳(メタデータ) (2022-06-27T12:04:14Z) - Continual Object Detection via Prototypical Task Correlation Guided
Gating Mechanism [120.1998866178014]
pRotOtypeal taSk corrElaTion guided gaTingAnism (ROSETTA)による連続物体検出のためのフレキシブルなフレームワークを提案する。
具体的には、統一されたフレームワークはすべてのタスクで共有され、タスク対応ゲートは特定のタスクのサブモデルを自動的に選択するために導入されます。
COCO-VOC、KITTI-Kitchen、VOCのクラスインクリメンタル検出、および4つのタスクの逐次学習の実験により、ROSETTAが最先端のパフォーマンスを得ることが示された。
論文 参考訳(メタデータ) (2022-05-06T07:31:28Z) - On the Efficiency of Integrating Self-supervised Learning and
Meta-learning for User-defined Few-shot Keyword Spotting [51.41426141283203]
ユーザ定義キーワードスポッティングは、ユーザが定義する新しい音声用語を検出するタスクである。
これまでの研究は、自己教師付き学習モデルを取り入れたり、メタ学習アルゴリズムを適用しようとするものだった。
この結果から,HuBERTとMatching Networkを組み合わせることで,最適な結果が得られることがわかった。
論文 参考訳(メタデータ) (2022-04-01T10:59:39Z) - Learning Decoupling Features Through Orthogonality Regularization [55.79910376189138]
音声認識におけるキースポッティング(KWS)と話者検証(SV)は2つの重要なタスクである。
我々は,同じネットワーク構造を持つ2分岐のディープネットワーク(KWSブランチとSVブランチ)を開発する。
KWS と SV のパフォーマンスを同時に向上させるために,新しいデカップリング特徴学習法を提案する。
論文 参考訳(メタデータ) (2022-03-31T03:18:13Z) - Multi-task Learning with Cross Attention for Keyword Spotting [8.103605110339519]
キーワードスポッティング(KWS)は音声アプリケーションにとって重要な手法であり、ユーザーはキーワード句を話すことでデバイスをアクティベートすることができる。
学習基準(音素認識)と目標課題(KWS)との間にはミスマッチがある
近年,KWS にマルチタスク学習を適用し,ASR と KWS のトレーニングデータを活用している。
論文 参考訳(メタデータ) (2021-07-15T22:38:16Z) - Teaching keyword spotters to spot new keywords with limited examples [6.251896411370577]
多数のキーワードを認識するタスクに基づいて事前学習した音声埋め込みモデルであるKeySEMを提案する。
KeySEMは、デプロイ後の学習とカスタマイズの容易さが望ましいオンデバイス環境に適している。
論文 参考訳(メタデータ) (2021-06-04T12:43:36Z) - Auto-KWS 2021 Challenge: Task, Datasets, and Baselines [63.82759886293636]
Auto-KWS 2021チャレンジは、カスタマイズされたキーワードスポッティングタスクに機械学習を適用するプロセスを自動化するために、自動機械学習(AutoML)ソリューションを呼び出します。
この課題は、ターゲットデバイスが特定のキーワードで登録された話者によってのみ覚醒できる、カスタマイズされたキーワードスポッティングの問題に焦点を当てている。
論文 参考訳(メタデータ) (2021-03-31T14:56:48Z) - Few-Shot Keyword Spotting With Prototypical Networks [3.6930948691311016]
キーワードスポッティングは、AmazonのAlexaやGoogle Homeなど、多くの音声インターフェースで広く使用されている。
まず、この問題を数発のキーワードスポッティングとして定式化し、メートル法学習を用いてアプローチする。
そこで我々は,ネットワーク上の時間的および拡張的畳み込みを用いたプロトタイプ的な数ショットキーワードスポッティング問題に対する解を提案する。
論文 参考訳(メタデータ) (2020-07-25T20:17:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。