論文の概要: Exploring Sequence-to-Sequence Transformer-Transducer Models for Keyword
Spotting
- arxiv url: http://arxiv.org/abs/2211.06478v1
- Date: Fri, 11 Nov 2022 20:41:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 20:19:49.511803
- Title: Exploring Sequence-to-Sequence Transformer-Transducer Models for Keyword
Spotting
- Title(参考訳): キーワードスポッティングのためのシーケンス-シーケンス変換トランス-トランスデューサモデルの検討
- Authors: Beltr\'an Labrador, Guanlong Zhao, Ignacio L\'opez Moreno, Angelo
Scorza Scarpati, Liam Fowl, Quan Wang
- Abstract要約: 本稿では,文字列スポッティング(KWS)タスクにシーケンス・ツー・シーケンス変換器・トランスデューサASRシステムを適用するための新しい手法を提案する。
そこで本研究では,テキスト書き起こし中のキーワードを特別なトークンkw>に置き換え,音声ストリーム中のkw>トークンを検出する訓練を行う。
我々のアプローチは、ASRベースのKWSシステムよりも大幅に優れています。
- 参考スコア(独自算出の注目度): 15.61189030504559
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present a novel approach to adapt a sequence-to-sequence
Transformer-Transducer ASR system to the keyword spotting (KWS) task. We
achieve this by replacing the keyword in the text transcription with a special
token <kw> and training the system to detect the <kw> token in an audio stream.
At inference time, we create a decision function inspired by conventional KWS
approaches, to make our approach more suitable for the KWS task. Furthermore,
we introduce a specific keyword spotting loss by adapting the
sequence-discriminative Minimum Bayes-Risk training technique. We find that our
approach significantly outperforms ASR based KWS systems. When compared with a
conventional keyword spotting system, our proposal has similar performance
while bringing the advantages and flexibility of sequence-to-sequence training.
Additionally, when combined with the conventional KWS system, our approach can
improve the performance at any operation point.
- Abstract(参考訳): 本稿では,sequence-to-sequence transformer-transducer asrをキーワードスポッティング(kws)タスクに適用する新しい手法を提案する。
テキスト転写中のキーワードを特別なトークン<kw>に置き換え,音声ストリーム中の<kw>トークンを検出するシステムをトレーニングすることで,これを実現する。
推論時に、我々は従来のKWSアプローチにインスパイアされた決定関数を作成し、我々のアプローチをよりKWSタスクに適合させる。
さらに,シーケンス識別可能な最小ベイズリスクトレーニング手法を適用し,損失を識別するキーワードを提案する。
我々のアプローチは、ASRベースのKWSシステムよりも大幅に優れています。
従来のキーワードスポッティングシステムと比較すると,シーケンス・ツー・シーケンス・トレーニングの利点と柔軟性を生かしながら,同様の性能が得られる。
さらに,従来のKWSシステムと組み合わせることで,任意の操作点における性能を向上させることができる。
関連論文リスト
- S-TREK: Sequential Translation and Rotation Equivariant Keypoints for
local feature extraction [10.598357523573382]
S-TREKは、設計による変換と回転の同変であるディープキーポイント検出器と、軽量なディープディスクリプタ抽出器を組み合わせた、新しい局所特徴抽出器である。
我々は、強化学習にインスパイアされたフレームワーク内でS-TREKキーポイント検出器を訓練し、シーケンシャルな手順を利用してキーポイントリピータビリティに関連する報酬を最大化する。
論文 参考訳(メタデータ) (2023-08-28T14:09:03Z) - Self-regulating Prompts: Foundational Model Adaptation without
Forgetting [112.66832145320434]
本稿では,PromptSRCと呼ばれる自己正規化フレームワークを提案する。
PromptSRCはタスク固有の汎用表現とタスクに依存しない汎用表現の両方に最適化するプロンプトを導く。
論文 参考訳(メタデータ) (2023-07-13T17:59:35Z) - Condition-Invariant Semantic Segmentation [84.2267063249525]
従来の研究は、ほとんどの特徴レベル適応法は、敵対的訓練を採用し、合成から現実的適応で検証されているが、条件レベル適応において限界的な利得をもたらすことを示した。
本稿では,ネットワークのエンコーダから抽出した内部ネットワーク機能を元から整列させることにより,特徴レベルの適応を行う上で,スタイリングを活用することを提案する。
本研究では,現状のドメイン適応アーキテクチャに基づいて条件-不変(Condition-Invariant, CISS)という手法を実装し,条件レベル適応の優れた結果を得る。
論文 参考訳(メタデータ) (2023-05-27T03:05:07Z) - Adaptive Multi-Agent Continuous Learning System [1.2752808844888015]
本稿では,自己教師型クラスタリング認識システムを提案する。
このシステムは、いくつかの異なる機能エージェントを使用して、環境の多様な要求に対処する適応性を改善するための接続構造を構築するように設計されている。
論文 参考訳(メタデータ) (2022-12-15T07:39:50Z) - Shift-Reduce Task-Oriented Semantic Parsing with Stack-Transformers [0.40611352512781856]
Apple SiriやAmazon Alexaのようなタスク指向のダイアログシステムは、ユーザの発話を処理し、実行するアクションを理解するために意味解析モジュールを必要とする。
タスク指向ダイアログのためのシフト・リデュース・セマンティック・パーシングの研究を前進させる。
特に,Stack-Transformerに依存する新しいシフトリデューサを実装している。
論文 参考訳(メタデータ) (2022-10-21T14:19:47Z) - Large-Scale Sequential Learning for Recommender and Engineering Systems [91.3755431537592]
本稿では,現在の状況に適応してパーソナライズされたランキングを提供する自動アルゴリズムの設計に焦点を当てる。
前者はSAROSと呼ばれる新しいアルゴリズムを提案し,インタラクションの順序を学習するためのフィードバックの種類を考慮に入れている。
提案手法は, 電力網の故障検出に対する初期アプローチと比較して, 統計的に有意な結果を示す。
論文 参考訳(メタデータ) (2022-05-13T21:09:41Z) - BBS-KWS:The Mandarin Keyword Spotting System Won the Video Keyword
Wakeup Challenge [14.312411161892705]
本稿では,Yidun NISPチームから提出されたビデオキーワードのウェイクアップ課題について紹介する。
マンダリンキーワードスポッティングシステム(KWS)を提案する。
VKWタスクでは、BBS-KWSシステムはベースラインよりも大幅に向上し、2トラックで1位を獲得した。
論文 参考訳(メタデータ) (2021-12-03T07:27:13Z) - Sequence Transduction with Graph-based Supervision [96.04967815520193]
ラベルのグラフ表現を受け入れるためにRNN-T損失を一般化するトランスデューサ目的関数を提案する。
CTC型格子を用いたトランスデューサベースのASRは,標準RNN-Tよりも優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2021-11-01T21:51:42Z) - Multi-task Learning with Cross Attention for Keyword Spotting [8.103605110339519]
キーワードスポッティング(KWS)は音声アプリケーションにとって重要な手法であり、ユーザーはキーワード句を話すことでデバイスをアクティベートすることができる。
学習基準(音素認識)と目標課題(KWS)との間にはミスマッチがある
近年,KWS にマルチタスク学習を適用し,ASR と KWS のトレーニングデータを活用している。
論文 参考訳(メタデータ) (2021-07-15T22:38:16Z) - Keyphrase Extraction with Dynamic Graph Convolutional Networks and
Diversified Inference [50.768682650658384]
キーワード抽出(KE)は、ある文書でカバーされている概念やトピックを正確に表現するフレーズの集合を要約することを目的としている。
最近のシークエンス・ツー・シークエンス(Seq2Seq)ベースの生成フレームワークはKEタスクで広く使われ、様々なベンチマークで競合性能を得た。
本稿では,この2つの問題を同時に解くために,動的グラフ畳み込みネットワーク(DGCN)を採用することを提案する。
論文 参考訳(メタデータ) (2020-10-24T08:11:23Z) - Cross-Thought for Sentence Encoder Pre-training [89.32270059777025]
Cross-Thoughtは、事前トレーニングシーケンスエンコーダに対する新しいアプローチである。
我々は、Transformerベースのシーケンスエンコーダを、多数の短いシーケンスに対してトレーニングする。
質問応答とテキストのエンコーダタスクの実験は、事前学習したエンコーダが最先端のエンコーダより優れていることを示す。
論文 参考訳(メタデータ) (2020-10-07T21:02:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。