論文の概要: Dummy Prototypical Networks for Few-Shot Open-Set Keyword Spotting
- arxiv url: http://arxiv.org/abs/2206.13691v1
- Date: Tue, 28 Jun 2022 01:56:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-02 17:19:55.855614
- Title: Dummy Prototypical Networks for Few-Shot Open-Set Keyword Spotting
- Title(参考訳): Few-Shot Open-Set Keyword Spottingのためのダミープロトタイプネットワーク
- Authors: Byeonggeun Kim, Seunghan Yang, Inseop Chung, Simyung Chang
- Abstract要約: スプリットGSCという新しいベンチマーク設定で、数ショットのオープンセットキーワードスポッティングに取り組む。
オープンセットをよりよく検出し,Dummy Prototypeal Networks(D-ProtoNets)というシンプルで強力なアプローチを導入するために,メトリック学習に基づくエピソード有名なダミープロトタイプを提案する。
また,本手法を標準ベンチマーク,miniImageNet,D-ProtoNetsで検証し,FSOSRにおける最先端のオープンセット検出率を示す。
- 参考スコア(独自算出の注目度): 6.4423565043274795
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Keyword spotting is the task of detecting a keyword in streaming audio.
Conventional keyword spotting targets predefined keywords classification, but
there is growing attention in few-shot (query-by-example) keyword spotting,
e.g., N-way classification given M-shot support samples. Moreover, in
real-world scenarios, there can be utterances from unexpected categories
(open-set) which need to be rejected rather than classified as one of the N
classes. Combining the two needs, we tackle few-shot open-set keyword spotting
with a new benchmark setting, named splitGSC. We propose episode-known dummy
prototypes based on metric learning to detect an open-set better and introduce
a simple and powerful approach, Dummy Prototypical Networks (D-ProtoNets). Our
D-ProtoNets shows clear margins compared to recent few-shot open-set
recognition (FSOSR) approaches in the suggested splitGSC. We also verify our
method on a standard benchmark, miniImageNet, and D-ProtoNets shows the
state-of-the-art open-set detection rate in FSOSR.
- Abstract(参考訳): キーワードスポッティングは、ストリーミングオーディオのキーワードを検出するタスクである。
従来のキーワードスポッティングは定義済みのキーワード分類をターゲットとしているが、Mショットのサポートサンプルが与えられた場合のNウェイ分類など、少数ショット(クエリ・バイ・サンプル)キーワードスポッティングでは注目が集まっている。
さらに、実世界のシナリオでは、Nクラスの1つに分類されるのではなく、拒絶される必要がある予期せぬカテゴリ(オープンセット)からの発声がある。
2つのニーズを組み合わせることで、splitGSCという新しいベンチマーク設定で、数ショットのオープンセットキーワードスポッティングに取り組む。
本稿では,オープンセットをよりよく検出するために,メトリック学習に基づくエピソード既知のダミープロトタイプを提案し,ダミープロトタイプネットワーク(d-protonets)を提案する。
我々のD-ProtoNetsは、最近提案されたsplitGSCにおけるFSOSRアプローチと比較して明らかなマージンを示している。
また,本手法を標準ベンチマーク,miniImageNet,D-ProtoNetsで検証し,FSOSRにおける最先端のオープンセット検出率を示す。
関連論文リスト
- Open-Vocabulary Animal Keypoint Detection with Semantic-feature Matching [77.97246496316515]
Open-Vocabulary Keypoint Detection (OVKD)タスクは、任意の種類のキーポイントを特定するためにテキストプロンプトを使用するように設計されている。
セマンティック・フェールマッチング(KDSM)を用いた開語彙キーポイント検出(Open-Vocabulary Keypoint Detection)という新しいフレームワークを開発した。
このフレームワークは視覚と言語モデルを組み合わせて、言語機能とローカルキーポイント視覚機能との相互作用を作成する。
論文 参考訳(メタデータ) (2023-10-08T07:42:41Z) - Open-vocabulary Keyword-spotting with Adaptive Instance Normalization [18.250276540068047]
本稿では,キーワード条件付き正規化パラメータを出力するためにテキストエンコーダを訓練するキーワードスポッティングの新しい手法であるAdaKWSを提案する。
近年のキーワードスポッティングやASRベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-09-13T13:49:42Z) - To Wake-up or Not to Wake-up: Reducing Keyword False Alarm by Successive
Refinement [58.96644066571205]
既存の深層キーワードスポッティング機構は逐次リファインメントにより改善可能であることを示す。
13Kパラメーターから2.41Mパラメーターまで、複数のモデルにまたがって、連続精製法はFAを最大8.5%削減する。
提案手法は"plug-and-play"であり,任意の深いキーワードスポッティングモデルに適用できる。
論文 参考訳(メタデータ) (2023-04-06T23:49:29Z) - Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection [76.5120397167247]
そこで我々は,Transformer-based detector DINO と接地事前学習を併用したオープンセット型物体検出器である Grounding DINO を提案する。
オープンセットオブジェクト検出の鍵となる解決策は、オープンセットの概念一般化のためのクローズドセット検出器に言語を導入することである。
DINOはCOCO、LVIS、ODinW、RefCOCO/+/gのベンチマークを含む3つの設定で非常によく機能する。
論文 参考訳(メタデータ) (2023-03-09T18:52:16Z) - Towards visually prompted keyword localisation for zero-resource spoken
languages [27.696096343873215]
視覚的に誘導されるキーワードローカライゼーション(VPKL)のタスクを定式化する。
VPKLにはキーワードの画像が与えられ、そのキーワードの発声箇所を検出して予測する。
これらの革新は,既存の音声ビジョンモデルよりもVPKLの改善をもたらすことを示す。
論文 参考訳(メタデータ) (2022-10-12T14:17:34Z) - MASKER: Masked Keyword Regularization for Reliable Text Classification [73.90326322794803]
文脈に基づく予測を容易にする微調整手法であるマスク付きキーワード正規化(MASKER)を提案する。
maskerはモデルを規則化し、他の単語からキーワードを再構築し、十分な文脈なしに低信頼の予測を行う。
分類精度を低下させることなくOOD検出とクロスドメインの一般化を改善したMASKERを提案する。
論文 参考訳(メタデータ) (2020-12-17T04:54:16Z) - Detection of Adversarial Supports in Few-shot Classifiers Using Feature
Preserving Autoencoders and Self-Similarity [89.26308254637702]
敵対的なサポートセットを強調するための検出戦略を提案する。
我々は,特徴保存型オートエンコーダフィルタリングと,この検出を行うサポートセットの自己相似性の概念を利用する。
提案手法は攻撃非依存であり, 最善の知識まで, 数発分類器の検出を探索する最初の方法である。
論文 参考訳(メタデータ) (2020-12-09T14:13:41Z) - Open-set Adversarial Defense [93.25058425356694]
オープンセット認識システムは敵攻撃に対して脆弱であることを示す。
本研究の目的は,OSAD(Open-Set Adrial Defense, Open-Set Adrial Defense)機構の必要性である。
本稿はOSAD問題に対する解決策として,OSDN(Open-Set Defense Network)を提案する。
論文 参考訳(メタデータ) (2020-09-02T04:35:33Z) - Few-Shot Keyword Spotting With Prototypical Networks [3.6930948691311016]
キーワードスポッティングは、AmazonのAlexaやGoogle Homeなど、多くの音声インターフェースで広く使用されている。
まず、この問題を数発のキーワードスポッティングとして定式化し、メートル法学習を用いてアプローチする。
そこで我々は,ネットワーク上の時間的および拡張的畳み込みを用いたプロトタイプ的な数ショットキーワードスポッティング問題に対する解を提案する。
論文 参考訳(メタデータ) (2020-07-25T20:17:56Z) - Small-Footprint Open-Vocabulary Keyword Spotting with Quantized LSTM
Networks [3.8382752162527933]
本稿では,オープン語彙のキーワードスポッティング手法に着目し,モデル全体を再トレーニングすることなく,ユーザが独自のキーワードを定義できるようにする。
ユーザ定義キーワードの任意のセットに対して,小さなデバイス上で動作可能な高速かつ小型のフットプリントシステムを実現するための,さまざまな設計選択について説明する。
論文 参考訳(メタデータ) (2020-02-25T13:27:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。