論文の概要: Improving Small Footprint Few-shot Keyword Spotting with Supervision on
Auxiliary Data
- arxiv url: http://arxiv.org/abs/2309.00647v1
- Date: Thu, 31 Aug 2023 07:29:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-10 03:47:21.002987
- Title: Improving Small Footprint Few-shot Keyword Spotting with Supervision on
Auxiliary Data
- Title(参考訳): 補助データに基づく小型フットプリントフットショットキーワードスポッティングの改良
- Authors: Seunghan Yang, Byeonggeun Kim, Kyuhong Shim, Simyung Chang
- Abstract要約: 本稿では,音声データの収集が容易でラベルなしの読み出しを補助的情報源として利用するフレームワークを提案する。
次に、モデルがドメイン外補助データから表現力を向上するのに役立つマルチタスク学習を採用する。
- 参考スコア(独自算出の注目度): 19.075820340282934
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Few-shot keyword spotting (FS-KWS) models usually require large-scale
annotated datasets to generalize to unseen target keywords. However, existing
KWS datasets are limited in scale and gathering keyword-like labeled data is
costly undertaking. To mitigate this issue, we propose a framework that uses
easily collectible, unlabeled reading speech data as an auxiliary source.
Self-supervised learning has been widely adopted for learning representations
from unlabeled data; however, it is known to be suitable for large models with
enough capacity and is not practical for training a small footprint FS-KWS
model. Instead, we automatically annotate and filter the data to construct a
keyword-like dataset, LibriWord, enabling supervision on auxiliary data. We
then adopt multi-task learning that helps the model to enhance the
representation power from out-of-domain auxiliary data. Our method notably
improves the performance over competitive methods in the FS-KWS benchmark.
- Abstract(参考訳): Few-shotキーワードスポッティング(FS-KWS)モデルは、通常、目に見えないターゲットキーワードに一般化するために、大規模な注釈付きデータセットを必要とする。
しかし、既存のKWSデータセットは規模が限られており、キーワードのようなラベル付きデータの収集にはコストがかかる。
この問題を緩和するために,収集が容易でラベルなしの読解音声データを補助的情報源として利用するフレームワークを提案する。
自己教師付き学習は、ラベルのないデータから表現を学習するために広く採用されているが、十分な能力を持つ大規模モデルに適していることが知られており、FS-KWSモデルの訓練には実用的ではない。
代わりに、キーワードのようなデータセットであるLibriWordを構築するために、自動的にアノテートしてフィルタリングします。
次に、モデルがドメイン外補助データから表現力を高めるのに役立つマルチタスク学習を採用する。
本手法はFS-KWSベンチマークにおける競合手法よりも優れた性能を示す。
関連論文リスト
- Reinforcement Learning with Generative Models for Compact Support Sets [10.041289551532804]
基礎モデルの制御手段として強化学習を利用する枠組みを提案する。
我々のフレームワークは優れた結果をもたらし、追加のラベル付けやデータコストを使わずにかなりのマージンで分類精度を向上した。
論文 参考訳(メタデータ) (2024-04-25T02:48:16Z) - AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators [98.11286353828525]
GPT-3.5シリーズのモデルは、様々なNLPタスクにまたがる顕著な少数ショットとゼロショットの能力を示している。
本稿では,2段階のアプローチを取り入れたAnnoLLMを提案する。
我々はAnnoLLMを用いた対話型情報検索データセットを構築した。
論文 参考訳(メタデータ) (2023-03-29T17:03:21Z) - M-Tuning: Prompt Tuning with Mitigated Label Bias in Open-Set Scenarios [103.6153593636399]
緩和ラベルバイアス(M-Tuning)を用いた視覚言語プロンプトチューニング手法を提案する。
これはWordNetからのオープンワードを導入し、クローズドセットラベルワードのみからもっと多くのプロンプトテキストを形成する単語の範囲を広げ、シミュレートされたオープンセットシナリオでプロンプトをチューニングする。
提案手法は,様々なスケールのデータセット上で最高の性能を達成し,広範囲にわたるアブレーション研究もその有効性を検証した。
論文 参考訳(メタデータ) (2023-03-09T09:05:47Z) - Improving Label-Deficient Keyword Spotting Through Self-Supervised
Pretraining [18.19207291891767]
キーワードスポッティング(KWS)モデルは、音声アシスタントなど、様々なシステムに統合されつつある。
KWSモデルは一般的に大量のラベル付きデータに依存しており、それらのアプリケーションはそのようなデータが利用可能な状況に限られる。
自己教師付き学習(SSL)メソッドは、容易に利用可能な未実装データを活用することで、そのような依存を軽減することができる。
論文 参考訳(メタデータ) (2022-10-04T15:56:27Z) - Assisted Text Annotation Using Active Learning to Achieve High Quality
with Little Effort [9.379650501033465]
研究者は、手動の注釈だけで、大規模で高品質な注釈付きデータセットを作成できるツールを提案する。
我々は、アクティブラーニング(AL)アプローチと事前訓練された言語モデルを組み合わせて、アノテーションカテゴリを半自動で識別する。
予備的な結果から,ALを用いることで,複雑なフレームや微妙なフレームを正しく分類するアノテーションの数が大幅に削減されることがわかった。
論文 参考訳(メタデータ) (2021-12-15T13:14:58Z) - On the Use of External Data for Spoken Named Entity Recognition [40.93448412171246]
近年の自己教師型音声表現の進歩により,ラベル付きデータに制限のある学習モデルを考えることが可能になった。
自己学習、知識蒸留、トランスファーラーニングなど、さまざまなアプローチを採用し、エンドツーエンドモデルとパイプラインアプローチの両方に適用性を検討する。
論文 参考訳(メタデータ) (2021-12-14T18:49:26Z) - Revisiting Self-Training for Few-Shot Learning of Language Model [61.173976954360334]
ラベル付きデータにはタスク関連情報が豊富に含まれており、言語モデルの素早い学習に有用であることが証明されている。
本研究では,言語モデルファインチューニングのための自己学習手法を再検討し,最先端のプロンプトベースの少ショット学習者,SFLMを提案する。
論文 参考訳(メタデータ) (2021-10-04T08:51:36Z) - Self-Supervision based Task-Specific Image Collection Summarization [3.115375810642661]
本稿では,意味情報と自己スーパービジョンを用いたタスク固有画像コーパス要約手法を提案する。
特徴生成ネットワークとして,分類に基づくWasserstein generation adversarial Network (WGAN) を用いる。
モデルは、セマンティック埋め込み空間におけるK平均クラスタリングを用いて、推論時に要約を生成する。
論文 参考訳(メタデータ) (2020-12-19T10:58:04Z) - Social Adaptive Module for Weakly-supervised Group Activity Recognition [143.68241396839062]
本稿では、弱教師付きグループ活動認識(GAR)と呼ばれる新しいタスクを提案する。
従来のGARタスクとは違い、ビデオレベルラベルのみが利用可能であるが、トレーニングデータにおいても、各フレーム内の重要人物は提供されない。
これにより、大規模なNBAデータセットの収集とアノテートが容易になり、GARに新たな課題が生まれます。
論文 参考訳(メタデータ) (2020-07-18T16:40:55Z) - Relation-Guided Representation Learning [53.60351496449232]
本稿では,サンプル関係を明示的にモデル化し,活用する表現学習手法を提案する。
私たちのフレームワークは、サンプル間の関係をよく保存します。
サンプルをサブスペースに埋め込むことにより,本手法が大規模なサンプル外問題に対処可能であることを示す。
論文 参考訳(メタデータ) (2020-07-11T10:57:45Z) - Learning to Count in the Crowd from Limited Labeled Data [109.2954525909007]
我々は,限られた数のラベル付きサンプルから参加者を数えることを学ぶことで,アノテーションの努力を減らすことに重点を置いている。
具体的には,未ラベルデータに対する擬似地下真理推定を含むガウス過程に基づく反復学習機構を提案する。
論文 参考訳(メタデータ) (2020-07-07T04:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。