論文の概要: Teaching keyword spotters to spot new keywords with limited examples
- arxiv url: http://arxiv.org/abs/2106.02443v1
- Date: Fri, 4 Jun 2021 12:43:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-07 15:16:49.942387
- Title: Teaching keyword spotters to spot new keywords with limited examples
- Title(参考訳): 限られた例で新しいキーワードを見つけるためのキーワードスポッターを教える
- Authors: Abhijeet Awasthi, Kevin Kilgour, Hassan Rom
- Abstract要約: 多数のキーワードを認識するタスクに基づいて事前学習した音声埋め込みモデルであるKeySEMを提案する。
KeySEMは、デプロイ後の学習とカスタマイズの容易さが望ましいオンデバイス環境に適している。
- 参考スコア(独自算出の注目度): 6.251896411370577
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning to recognize new keywords with just a few examples is essential for
personalizing keyword spotting (KWS) models to a user's choice of keywords.
However, modern KWS models are typically trained on large datasets and
restricted to a small vocabulary of keywords, limiting their transferability to
a broad range of unseen keywords. Towards easily customizable KWS models, we
present KeySEM (Keyword Speech EMbedding), a speech embedding model pre-trained
on the task of recognizing a large number of keywords. Speech representations
offered by KeySEM are highly effective for learning new keywords from a limited
number of examples. Comparisons with a diverse range of related work across
several datasets show that our method achieves consistently superior
performance with fewer training examples. Although KeySEM was pre-trained only
on English utterances, the performance gains also extend to datasets from four
other languages indicating that KeySEM learns useful representations well
aligned with the task of keyword spotting. Finally, we demonstrate KeySEM's
ability to learn new keywords sequentially without requiring to re-train on
previously learned keywords. Our experimental observations suggest that KeySEM
is well suited to on-device environments where post-deployment learning and
ease of customization are often desirable.
- Abstract(参考訳): キーワードスポッティング(KWS)モデルをユーザのキーワード選択にパーソナライズするには,いくつかの例で新しいキーワードを認識することが不可欠である。
しかし、現代のKWSモデルは一般的に大規模なデータセットで訓練され、キーワードの小さな語彙に制限され、その転送可能性も幅広い未知のキーワードに制限される。
KWSモデルのカスタマイズを容易にするために,多数のキーワードを認識するタスクに事前学習した音声埋め込みモデルKeySEM(Keyword Speech EMbedding)を提案する。
KeySEMが提供する音声表現は、限られた例から新しいキーワードを学ぶのに非常に効果的である。
複数のデータセットにまたがるさまざまな関連作業との比較から,本手法はトレーニング例が少なく,一貫して優れた性能を達成できることが示された。
KeySEMは英語の発話でのみ事前訓練されているが、パフォーマンス向上は、キーワードスポッティングのタスクとよく一致した有用な表現を学習することを示す他の4つの言語からのデータセットにも及んでいる。
最後に,これまでに学習したキーワードを再学習することなく,新しいキーワードを逐次学習する能力を示す。
実験結果から,KeySEMは,デプロイ後の学習やカスタマイズが容易なオンデバイス環境に適していることが示唆された。
関連論文リスト
- Open-vocabulary Keyword-spotting with Adaptive Instance Normalization [18.250276540068047]
本稿では,キーワード条件付き正規化パラメータを出力するためにテキストエンコーダを訓練するキーワードスポッティングの新しい手法であるAdaKWSを提案する。
近年のキーワードスポッティングやASRベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-09-13T13:49:42Z) - Improving Small Footprint Few-shot Keyword Spotting with Supervision on
Auxiliary Data [19.075820340282934]
本稿では,音声データの収集が容易でラベルなしの読み出しを補助的情報源として利用するフレームワークを提案する。
次に、モデルがドメイン外補助データから表現力を向上するのに役立つマルチタスク学習を採用する。
論文 参考訳(メタデータ) (2023-08-31T07:29:42Z) - PatternRank: Leveraging Pretrained Language Models and Part of Speech
for Unsupervised Keyphrase Extraction [0.6767885381740952]
本稿では,1つの文書から教師なしキーフレーズを抽出するために,事前訓練された言語モデルとパート・オブ・音声を提供するPatternRankを提案する。
実験の結果,PatternRankは従来の最先端手法よりも高精度,リコール,F1スコアを実現していることがわかった。
論文 参考訳(メタデータ) (2022-10-11T08:23:54Z) - Multimodal Knowledge Alignment with Reinforcement Learning [103.68816413817372]
ESPERは言語のみのゼロショットモデルを拡張して、画像や音声のキャプションといったマルチモーダルタスクを未確認にする。
我々の重要な新規性は、強化学習を使用することで、直接監督することなく、多モーダル入力を言語モデル世代に整列させることである。
実験の結果、ESPERはベースラインと様々なゼロショットタスクの事前作業より優れていることが示された。
論文 参考訳(メタデータ) (2022-05-25T10:12:17Z) - On the Efficiency of Integrating Self-supervised Learning and
Meta-learning for User-defined Few-shot Keyword Spotting [51.41426141283203]
ユーザ定義キーワードスポッティングは、ユーザが定義する新しい音声用語を検出するタスクである。
これまでの研究は、自己教師付き学習モデルを取り入れたり、メタ学習アルゴリズムを適用しようとするものだった。
この結果から,HuBERTとMatching Networkを組み合わせることで,最適な結果が得られることがわかった。
論文 参考訳(メタデータ) (2022-04-01T10:59:39Z) - Short-Term Word-Learning in a Dynamically Changing Environment [63.025297637716534]
本稿では、単語/フレーズメモリと、このメモリにアクセスして単語やフレーズを正しく認識するためのメカニズムを用いて、エンドツーエンドのASRシステムを補完する方法を示す。
誤報がわずかに増加しただけで, 単語の検出速度が大幅に向上した。
論文 参考訳(メタデータ) (2022-03-29T10:05:39Z) - Representation Learning for Resource-Constrained Keyphrase Generation [78.02577815973764]
本稿では,言語モデリングの目的を導くために,有能なスパンリカバリと有能なスパン予測を導入する。
提案手法が低リソースおよびゼロショットのキーフレーズ生成に有効であることを示す。
論文 参考訳(メタデータ) (2022-03-15T17:48:04Z) - Meta-Learning with Variational Semantic Memory for Word Sense
Disambiguation [56.830395467247016]
メタ学習環境におけるWSDのセマンティックメモリモデルを提案する。
我々のモデルは階層的変動推論に基づいており、ハイパーネットワークを介して適応的なメモリ更新ルールを組み込んでいる。
極めて少ないシナリオでの効果的な学習を支援するために,本モデルがWSDで最先端の技術を数ショットで実現していることを示す。
論文 参考訳(メタデータ) (2021-06-05T20:40:01Z) - MASKER: Masked Keyword Regularization for Reliable Text Classification [73.90326322794803]
文脈に基づく予測を容易にする微調整手法であるマスク付きキーワード正規化(MASKER)を提案する。
maskerはモデルを規則化し、他の単語からキーワードを再構築し、十分な文脈なしに低信頼の予測を行う。
分類精度を低下させることなくOOD検出とクロスドメインの一般化を改善したMASKERを提案する。
論文 参考訳(メタデータ) (2020-12-17T04:54:16Z) - Few-Shot Keyword Spotting With Prototypical Networks [3.6930948691311016]
キーワードスポッティングは、AmazonのAlexaやGoogle Homeなど、多くの音声インターフェースで広く使用されている。
まず、この問題を数発のキーワードスポッティングとして定式化し、メートル法学習を用いてアプローチする。
そこで我々は,ネットワーク上の時間的および拡張的畳み込みを用いたプロトタイプ的な数ショットキーワードスポッティング問題に対する解を提案する。
論文 参考訳(メタデータ) (2020-07-25T20:17:56Z) - Small-Footprint Open-Vocabulary Keyword Spotting with Quantized LSTM
Networks [3.8382752162527933]
本稿では,オープン語彙のキーワードスポッティング手法に着目し,モデル全体を再トレーニングすることなく,ユーザが独自のキーワードを定義できるようにする。
ユーザ定義キーワードの任意のセットに対して,小さなデバイス上で動作可能な高速かつ小型のフットプリントシステムを実現するための,さまざまな設計選択について説明する。
論文 参考訳(メタデータ) (2020-02-25T13:27:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。