論文の概要: BBS-KWS:The Mandarin Keyword Spotting System Won the Video Keyword
Wakeup Challenge
- arxiv url: http://arxiv.org/abs/2112.01757v1
- Date: Fri, 3 Dec 2021 07:27:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-06 16:19:22.284177
- Title: BBS-KWS:The Mandarin Keyword Spotting System Won the Video Keyword
Wakeup Challenge
- Title(参考訳): bbs-kws:mandarinキーワードスポッティングシステムがビデオキーワードwakeup challengeで優勝
- Authors: Yuting Yang, Binbin Du, Yingxin Zhang, Wenxuan Wang, Yuke Li
- Abstract要約: 本稿では,Yidun NISPチームから提出されたビデオキーワードのウェイクアップ課題について紹介する。
マンダリンキーワードスポッティングシステム(KWS)を提案する。
VKWタスクでは、BBS-KWSシステムはベースラインよりも大幅に向上し、2トラックで1位を獲得した。
- 参考スコア(独自算出の注目度): 14.312411161892705
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces the system submitted by the Yidun NISP team to the
video keyword wakeup challenge. We propose a mandarin keyword spotting system
(KWS) with several novel and effective improvements, including a big backbone
(B) model, a keyword biasing (B) mechanism and the introduction of syllable
modeling units (S). By considering this, we term the total system BBS-KWS as an
abbreviation. The BBS-KWS system consists of an end-to-end automatic speech
recognition (ASR) module and a KWS module. The ASR module converts speech
features to text representations, which applies a big backbone network to the
acoustic model and takes syllable modeling units into consideration as well. In
addition, the keyword biasing mechanism is used to improve the recall rate of
keywords in the ASR inference stage. The KWS module applies multiple criteria
to determine the absence or presence of the keywords, such as multi-stage
matching, fuzzy matching, and connectionist temporal classification (CTC)
prefix score. To further improve our system, we conduct semi-supervised
learning on the CN-Celeb dataset for better generalization. In the VKW task,
the BBS-KWS system achieves significant gains over the baseline and won the
first place in two tracks.
- Abstract(参考訳): 本稿では,yidun nispチームがビデオキーワードwakeup challengeに提出したシステムを紹介する。
本稿では,ビッグバックボーン (b) モデル,キーワードバイアス (b) 機構,シラブルモデリングユニット (s) の導入など,いくつかの新規かつ効果的な改良を加えたマンダリンキーワードスポッティングシステム (kws) を提案する。
これを考慮し、全系BBS-KWSを略語として表現する。
BBS-KWSシステムは、エンドツーエンドの自動音声認識(ASR)モジュールとKWSモジュールで構成される。
ASRモジュールは音声特徴をテキスト表現に変換し、大きなバックボーンネットワークを音響モデルに適用し、音節モデリングユニットも考慮する。
さらに、キーワードバイアス機構を用いて、ASR推論段階におけるキーワードのリコール率を改善する。
kwsモジュールは、多段階マッチング、ファジィマッチング、コネクショニスト時間分類(ctc)プレフィックススコアなどのキーワードの有無や存在を決定するために、複数の基準を適用している。
システムをさらに改良するため,CN-Celebデータセット上で半教師付き学習を行い,より一般化した。
VKWタスクでは、BBS-KWSシステムはベースラインよりも大幅に向上し、2トラックで1位を獲得した。
関連論文リスト
- Word-wise intonation model for cross-language TTS systems [0.0]
提案手法は,自動データマークアップとテキスト音声合成システムへの応用に適している。
キーとなるアイデアは、単語中の強勢音節の異なる配置と結びついた変動性の部分的除去である。
提案モデルは,テキストから音声への韻律記述のツールとして,あるいはバックボーンとして使用することができる。
論文 参考訳(メタデータ) (2024-09-30T15:09:42Z) - Pretraining End-to-End Keyword Search with Automatically Discovered Acoustic Units [8.86336076082867]
本研究では,E2E KWS システムを非転写データで事前学習する手法を提案する。
このようなモデルの微調整は、スクラッチからトレーニングしたモデルよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2024-07-05T17:07:58Z) - Exploring Sequence-to-Sequence Transformer-Transducer Models for Keyword
Spotting [15.61189030504559]
本稿では,文字列スポッティング(KWS)タスクにシーケンス・ツー・シーケンス変換器・トランスデューサASRシステムを適用するための新しい手法を提案する。
そこで本研究では,テキスト書き起こし中のキーワードを特別なトークンkw>に置き換え,音声ストリーム中のkw>トークンを検出する訓練を行う。
我々のアプローチは、ASRベースのKWSシステムよりも大幅に優れています。
論文 参考訳(メタデータ) (2022-11-11T20:41:46Z) - Learning Decoupling Features Through Orthogonality Regularization [55.79910376189138]
音声認識におけるキースポッティング(KWS)と話者検証(SV)は2つの重要なタスクである。
我々は,同じネットワーク構造を持つ2分岐のディープネットワーク(KWSブランチとSVブランチ)を開発する。
KWS と SV のパフォーマンスを同時に向上させるために,新しいデカップリング特徴学習法を提案する。
論文 参考訳(メタデータ) (2022-03-31T03:18:13Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Extended Graph Temporal Classification for Multi-Speaker End-to-End ASR [77.82653227783447]
ニューラルネットワークによるラベル遷移とラベル遷移の両方をモデル化するための GTC の拡張を提案する。
例として,多話者音声認識タスクに拡張GTC(GTC-e)を用いる。
論文 参考訳(メタデータ) (2022-03-01T05:02:02Z) - Instant One-Shot Word-Learning for Context-Specific Neural
Sequence-to-Sequence Speech Recognition [62.997667081978825]
本稿では、単語/フレーズメモリと、このメモリにアクセスして単語やフレーズを正しく認識する機構を備えたエンドツーエンドのASRシステムを提案する。
本稿では,この機構により,これまで認識できなかった単語の85%以上を認識できることを示す。
論文 参考訳(メタデータ) (2021-07-05T21:08:34Z) - End-to-End Diarization for Variable Number of Speakers with Local-Global
Networks and Discriminative Speaker Embeddings [66.50782702086575]
本論文では,単一チャンネルの音声記録から会議ダイアリゼーションを行う,エンドツーエンドのディープネットワークモデルを提案する。
提案システムは,可変数の置換不変なクロスエントロピーに基づく損失関数を用いて,未知数の話者とのミーティングを処理するように設計されている。
論文 参考訳(メタデータ) (2021-05-05T14:55:29Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - Small-Footprint Open-Vocabulary Keyword Spotting with Quantized LSTM
Networks [3.8382752162527933]
本稿では,オープン語彙のキーワードスポッティング手法に着目し,モデル全体を再トレーニングすることなく,ユーザが独自のキーワードを定義できるようにする。
ユーザ定義キーワードの任意のセットに対して,小さなデバイス上で動作可能な高速かつ小型のフットプリントシステムを実現するための,さまざまな設計選択について説明する。
論文 参考訳(メタデータ) (2020-02-25T13:27:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。