論文の概要: Multi-task Learning with Cross Attention for Keyword Spotting
- arxiv url: http://arxiv.org/abs/2107.07634v1
- Date: Thu, 15 Jul 2021 22:38:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-19 14:45:41.463167
- Title: Multi-task Learning with Cross Attention for Keyword Spotting
- Title(参考訳): キーワードスポッティングのためのクロス注意によるマルチタスク学習
- Authors: Takuya Higuchi, Anmol Gupta, Chandra Dhir
- Abstract要約: キーワードスポッティング(KWS)は音声アプリケーションにとって重要な手法であり、ユーザーはキーワード句を話すことでデバイスをアクティベートすることができる。
学習基準(音素認識)と目標課題(KWS)との間にはミスマッチがある
近年,KWS にマルチタスク学習を適用し,ASR と KWS のトレーニングデータを活用している。
- 参考スコア(独自算出の注目度): 8.103605110339519
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Keyword spotting (KWS) is an important technique for speech applications,
which enables users to activate devices by speaking a keyword phrase. Although
a phoneme classifier can be used for KWS, exploiting a large amount of
transcribed data for automatic speech recognition (ASR), there is a mismatch
between the training criterion (phoneme recognition) and the target task (KWS).
Recently, multi-task learning has been applied to KWS to exploit both ASR and
KWS training data. In this approach, an output of an acoustic model is split
into two branches for the two tasks, one for phoneme transcription trained with
the ASR data and one for keyword classification trained with the KWS data. In
this paper, we introduce a cross attention decoder in the multi-task learning
framework. Unlike the conventional multi-task learning approach with the simple
split of the output layer, the cross attention decoder summarizes information
from a phonetic encoder by performing cross attention between the encoder
outputs and a trainable query sequence to predict a confidence score for the
KWS task. Experimental results on KWS tasks show that the proposed approach
outperformed the conventional multi-task learning with split branches and a
bi-directional long short-team memory decoder by 12% on average.
- Abstract(参考訳): キーワードスポッティング(KWS)は音声アプリケーションにとって重要な手法であり、ユーザーはキーワード句を話すことでデバイスをアクティベートすることができる。
自動音声認識(ASR)のために大量の転写データを利用するKWSには音素分類器を用いることができるが、訓練基準(音素認識)と目標課題(KWS)との間にはミスマッチがある。
近年,KWS にマルチタスク学習を適用し,ASR と KWS のトレーニングデータを活用している。
本手法では,ASRデータで訓練された音素書き起こし用と,KWSデータで訓練されたキーワード分類用という2つのタスクに対して,音響モデルの出力を2つのブランチに分割する。
本稿では,マルチタスク学習フレームワークにおけるクロスアテンションデコーダを提案する。
従来のマルチタスク学習アプローチとは異なり、クロスアテンションデコーダは、エンコーダ出力と学習可能なクエリシーケンスとのクロスアテンションを行い、kwsタスクの信頼性スコアを予測することにより、音韻エンコーダからの情報を要約する。
KWSタスクの実験結果から,提案手法は従来のマルチタスク学習において,分割分岐と双方向長短値メモリデコーダを平均12%向上させた。
関連論文リスト
- Empowering Whisper as a Joint Multi-Talker and Target-Talker Speech Recognition System [73.34663391495616]
本稿では,複数話者と目標話者の音声認識タスクを併用する先駆的手法を提案する。
具体的には、Whisperを凍結し、Sidecarセパレータをエンコーダに差し込み、複数の話者に対する混合埋め込みを分離する。
AishellMix Mandarin データセット上で,マルチストーカー ASR 上で許容できるゼロショット性能を提供する。
論文 参考訳(メタデータ) (2024-07-13T09:28:24Z) - Auxiliary Tasks Enhanced Dual-affinity Learning for Weakly Supervised
Semantic Segmentation [79.05949524349005]
AuxSegNet+は、サリエンシマップから豊富な情報を探索する弱教師付き補助学習フレームワークである。
また,サリエンシとセグメンテーションの特徴マップから画素レベルの親和性を学習するためのクロスタスク親和性学習機構を提案する。
論文 参考訳(メタデータ) (2024-03-02T10:03:21Z) - Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - Representation Learning With Hidden Unit Clustering For Low Resource
Speech Applications [37.89857769906568]
本稿では,隠れ単位クラスタリング(HUC)フレームワークを用いた生音声からの自己教師付き表現学習のアプローチについて述べる。
モデルへの入力は、ウィンドウ化され、1次元畳み込み層で処理されるオーディオサンプルで構成されている。
HUCフレームワークは、表現を少数の音素のような単位に分類することができ、意味的に豊かな表現を学ぶためのモデルを訓練するために使用される。
論文 参考訳(メタデータ) (2023-07-14T13:02:10Z) - SLICER: Learning universal audio representations using low-resource
self-supervised pre-training [53.06337011259031]
ラベルなし音声データに事前学習エンコーダを組み込むための自己指導型学習手法を提案する。
我々の主な目的は、多種多様な音声および非音声タスクにまたがる一般化が可能な音声表現を学習することである。
論文 参考訳(メタデータ) (2022-11-02T23:45:33Z) - Learning Decoupling Features Through Orthogonality Regularization [55.79910376189138]
音声認識におけるキースポッティング(KWS)と話者検証(SV)は2つの重要なタスクである。
我々は,同じネットワーク構造を持つ2分岐のディープネットワーク(KWSブランチとSVブランチ)を開発する。
KWS と SV のパフォーマンスを同時に向上させるために,新しいデカップリング特徴学習法を提案する。
論文 参考訳(メタデータ) (2022-03-31T03:18:13Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Multi-Task Network for Noise-Robust Keyword Spotting and Speaker
Verification using CTC-based Soft VAD and Global Query Attention [13.883985850789443]
キーワードスポッティング(KWS)と話者検証(SV)は独立に研究されているが、音響領域と話者領域は相補的である。
KWS と SV を同時に行うマルチタスクネットワークを提案する。
論文 参考訳(メタデータ) (2020-05-08T05:58:46Z) - Multi-task Learning for Speaker Verification and Voice Trigger Detection [18.51531434428444]
両タスクを共同で行うための1つのネットワークのトレーニングについて検討する。
本研究では,数千時間のラベル付きトレーニングデータを用いてモデルを訓練する大規模実証的研究を提案する。
以上の結果から,学習表現において,両話者情報を符号化できることが示唆された。
論文 参考訳(メタデータ) (2020-01-26T21:19:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。