論文の概要: Exploring Sequence-to-Sequence Transformer-Transducer Models for Keyword
Spotting
- arxiv url: http://arxiv.org/abs/2211.06478v1
- Date: Fri, 11 Nov 2022 20:41:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 20:19:49.511803
- Title: Exploring Sequence-to-Sequence Transformer-Transducer Models for Keyword
Spotting
- Title(参考訳): キーワードスポッティングのためのシーケンス-シーケンス変換トランス-トランスデューサモデルの検討
- Authors: Beltr\'an Labrador, Guanlong Zhao, Ignacio L\'opez Moreno, Angelo
Scorza Scarpati, Liam Fowl, Quan Wang
- Abstract要約: 本稿では,文字列スポッティング(KWS)タスクにシーケンス・ツー・シーケンス変換器・トランスデューサASRシステムを適用するための新しい手法を提案する。
そこで本研究では,テキスト書き起こし中のキーワードを特別なトークンkw>に置き換え,音声ストリーム中のkw>トークンを検出する訓練を行う。
我々のアプローチは、ASRベースのKWSシステムよりも大幅に優れています。
- 参考スコア(独自算出の注目度): 15.61189030504559
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present a novel approach to adapt a sequence-to-sequence
Transformer-Transducer ASR system to the keyword spotting (KWS) task. We
achieve this by replacing the keyword in the text transcription with a special
token <kw> and training the system to detect the <kw> token in an audio stream.
At inference time, we create a decision function inspired by conventional KWS
approaches, to make our approach more suitable for the KWS task. Furthermore,
we introduce a specific keyword spotting loss by adapting the
sequence-discriminative Minimum Bayes-Risk training technique. We find that our
approach significantly outperforms ASR based KWS systems. When compared with a
conventional keyword spotting system, our proposal has similar performance
while bringing the advantages and flexibility of sequence-to-sequence training.
Additionally, when combined with the conventional KWS system, our approach can
improve the performance at any operation point.
- Abstract(参考訳): 本稿では,sequence-to-sequence transformer-transducer asrをキーワードスポッティング(kws)タスクに適用する新しい手法を提案する。
テキスト転写中のキーワードを特別なトークン<kw>に置き換え,音声ストリーム中の<kw>トークンを検出するシステムをトレーニングすることで,これを実現する。
推論時に、我々は従来のKWSアプローチにインスパイアされた決定関数を作成し、我々のアプローチをよりKWSタスクに適合させる。
さらに,シーケンス識別可能な最小ベイズリスクトレーニング手法を適用し,損失を識別するキーワードを提案する。
我々のアプローチは、ASRベースのKWSシステムよりも大幅に優れています。
従来のキーワードスポッティングシステムと比較すると,シーケンス・ツー・シーケンス・トレーニングの利点と柔軟性を生かしながら,同様の性能が得られる。
さらに,従来のKWSシステムと組み合わせることで,任意の操作点における性能を向上させることができる。
関連論文リスト
- MASSFormer: Mobility-Aware Spectrum Sensing using Transformer-Driven
Tiered Structure [3.6194127685460553]
モビリティを意識したトランスフォーマー駆動構造(MASSFormer)をベースとした協調センシング手法を開発した。
本稿では,モバイルプライマリユーザ(PU)とセカンダリユーザ(SU)の動的シナリオについて考察する。
提案手法は, 堅牢性を示すために, 不完全な報告チャネルのシナリオ下で試験される。
論文 参考訳(メタデータ) (2024-09-26T05:25:25Z) - Semantic Communication for Cooperative Perception using HARQ [51.148203799109304]
我々は重要セマンティック情報を抽出するために重要地図を活用し、協調的な知覚セマンティックコミュニケーションフレームワークを導入する。
周波数分割多重化(OFDM)とチャネル推定と等化戦略を併用して,時間変化によるマルチパスフェーディングによる課題に対処する。
我々は,ハイブリッド自動繰り返し要求(HARQ)の精神において,我々の意味コミュニケーションフレームワークと統合された新しい意味エラー検出手法を提案する。
論文 参考訳(メタデータ) (2024-08-29T08:53:26Z) - Self-regulating Prompts: Foundational Model Adaptation without
Forgetting [112.66832145320434]
本稿では,PromptSRCと呼ばれる自己正規化フレームワークを提案する。
PromptSRCはタスク固有の汎用表現とタスクに依存しない汎用表現の両方に最適化するプロンプトを導く。
論文 参考訳(メタデータ) (2023-07-13T17:59:35Z) - Condition-Invariant Semantic Segmentation [77.10045325743644]
我々は現在最先端のドメイン適応アーキテクチャ上で条件不変セマンティック(CISS)を実装している。
本手法は,通常の都市景観$to$ACDCベンチマークにおいて,2番目に高い性能を実現する。
CISSはBDD100K-nightやACDC-nightのようなトレーニング中に見えない領域によく一般化している。
論文 参考訳(メタデータ) (2023-05-27T03:05:07Z) - Adaptive Multi-Agent Continuous Learning System [1.2752808844888015]
本稿では,自己教師型クラスタリング認識システムを提案する。
このシステムは、いくつかの異なる機能エージェントを使用して、環境の多様な要求に対処する適応性を改善するための接続構造を構築するように設計されている。
論文 参考訳(メタデータ) (2022-12-15T07:39:50Z) - Shift-Reduce Task-Oriented Semantic Parsing with Stack-Transformers [6.744385328015561]
Apple SiriやAmazon Alexaのようなタスク指向の対話システムは、ユーザの発話を処理し、実行するアクションを理解するために意味解析モジュールを必要とする。
この意味解析コンポーネントは最初、単純なクエリを処理するためのルールベースまたは統計的スロット補完アプローチによって実装された。
本稿では,タスク指向対話のためのニューラル・リデューサ・セマンティック・パーシングの研究を前進させる。
論文 参考訳(メタデータ) (2022-10-21T14:19:47Z) - Large-Scale Sequential Learning for Recommender and Engineering Systems [91.3755431537592]
本稿では,現在の状況に適応してパーソナライズされたランキングを提供する自動アルゴリズムの設計に焦点を当てる。
前者はSAROSと呼ばれる新しいアルゴリズムを提案し,インタラクションの順序を学習するためのフィードバックの種類を考慮に入れている。
提案手法は, 電力網の故障検出に対する初期アプローチと比較して, 統計的に有意な結果を示す。
論文 参考訳(メタデータ) (2022-05-13T21:09:41Z) - BBS-KWS:The Mandarin Keyword Spotting System Won the Video Keyword
Wakeup Challenge [14.312411161892705]
本稿では,Yidun NISPチームから提出されたビデオキーワードのウェイクアップ課題について紹介する。
マンダリンキーワードスポッティングシステム(KWS)を提案する。
VKWタスクでは、BBS-KWSシステムはベースラインよりも大幅に向上し、2トラックで1位を獲得した。
論文 参考訳(メタデータ) (2021-12-03T07:27:13Z) - Multi-task Learning with Cross Attention for Keyword Spotting [8.103605110339519]
キーワードスポッティング(KWS)は音声アプリケーションにとって重要な手法であり、ユーザーはキーワード句を話すことでデバイスをアクティベートすることができる。
学習基準(音素認識)と目標課題(KWS)との間にはミスマッチがある
近年,KWS にマルチタスク学習を適用し,ASR と KWS のトレーニングデータを活用している。
論文 参考訳(メタデータ) (2021-07-15T22:38:16Z) - Keyphrase Extraction with Dynamic Graph Convolutional Networks and
Diversified Inference [50.768682650658384]
キーワード抽出(KE)は、ある文書でカバーされている概念やトピックを正確に表現するフレーズの集合を要約することを目的としている。
最近のシークエンス・ツー・シークエンス(Seq2Seq)ベースの生成フレームワークはKEタスクで広く使われ、様々なベンチマークで競合性能を得た。
本稿では,この2つの問題を同時に解くために,動的グラフ畳み込みネットワーク(DGCN)を採用することを提案する。
論文 参考訳(メタデータ) (2020-10-24T08:11:23Z) - Cross-Thought for Sentence Encoder Pre-training [89.32270059777025]
Cross-Thoughtは、事前トレーニングシーケンスエンコーダに対する新しいアプローチである。
我々は、Transformerベースのシーケンスエンコーダを、多数の短いシーケンスに対してトレーニングする。
質問応答とテキストのエンコーダタスクの実験は、事前学習したエンコーダが最先端のエンコーダより優れていることを示す。
論文 参考訳(メタデータ) (2020-10-07T21:02:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。