論文の概要: SLiCK: Exploiting Subsequences for Length-Constrained Keyword Spotting
- arxiv url: http://arxiv.org/abs/2409.09067v1
- Date: Fri, 6 Sep 2024 01:08:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-22 21:42:00.741040
- Title: SLiCK: Exploiting Subsequences for Length-Constrained Keyword Spotting
- Title(参考訳): SLiCK:長さ制限されたキーワードスポッティングのための爆発的なサブシーケンス
- Authors: Kumari Nishu, Minsik Cho, Devang Naik,
- Abstract要約: キーワードは最大キーワード長でバウンドされることが多いが、これは以前の作品ではほとんど上回っていない。
本稿では,より粒度の細かい音声テキスト関係を学習するためのサブシーケンスレベルのマッチング方式を提案する。
提案手法は、ハードデータセットのベースライン結果を改善し、AUCを88.52ドルから94.9ドルに引き上げ、EERを18.82ドルから11.1ドルに下げる。
- 参考スコア(独自算出の注目度): 5.697227044927832
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: User-defined keyword spotting on a resource-constrained edge device is challenging. However, keywords are often bounded by a maximum keyword length, which has been largely under-leveraged in prior works. Our analysis of keyword-length distribution shows that user-defined keyword spotting can be treated as a length-constrained problem, eliminating the need for aggregation over variable text length. This leads to our proposed method for efficient keyword spotting, SLiCK (exploiting Subsequences for Length-Constrained Keyword spotting). We further introduce a subsequence-level matching scheme to learn audio-text relations at a finer granularity, thus distinguishing similar-sounding keywords more effectively through enhanced context. In SLiCK, the model is trained with a multi-task learning approach using two modules: Matcher (utterance-level matching task, novel subsequence-level matching task) and Encoder (phoneme recognition task). The proposed method improves the baseline results on Libriphrase hard dataset, increasing AUC from $88.52$ to $94.9$ and reducing EER from $18.82$ to $11.1$.
- Abstract(参考訳): リソース制約のあるエッジデバイス上でのユーザ定義のキーワードスポッティングは難しい。
しかし、キーワードはしばしば最大キーワード長でバウンドされ、これは以前の作品ではほとんど過小評価されている。
キーワード長分布の解析は,ユーザ定義のキーワードスポッティングを長さ制約問題として扱えることを示す。
提案手法は,キーワードスポッティングを効率よく行うSLiCK(Longth-Constrained Keywordスポッティング用サブシーケンスの探索)である。
さらに、より粒度の細かい音声テキスト関係を学習するサブシーケンスレベルのマッチング方式を導入し、拡張された文脈を通して類似した音声キーワードをより効果的に識別する。
SLiCKでは、モデルはMatcher(音声レベルのマッチングタスク、新しいサブシーケンスレベルのマッチングタスク)とEncoder(音素認識タスク)の2つのモジュールを使ってマルチタスク学習アプローチで訓練される。
提案手法は、Libriphraseハードデータセットのベースライン結果を改善し、AUCを88.52ドルから94.9ドルに引き上げ、EERを18.82ドルから11.1ドルに下げる。
関連論文リスト
- LIST: Learning to Index Spatio-Textual Data for Embedding based Spatial Keyword Queries [53.843367588870585]
リスト K-kNN 空間キーワードクエリ (TkQ) は、空間的およびテキスト的関連性の両方を考慮したランキング関数に基づくオブジェクトのリストを返す。
効率的かつ効率的な指標、すなわち高品質なラベルの欠如とバランスの取れない結果を構築する上で、大きな課題が2つある。
この2つの課題に対処する新しい擬似ラベル生成手法を開発した。
論文 参考訳(メタデータ) (2024-03-12T05:32:33Z) - Open-vocabulary Keyword-spotting with Adaptive Instance Normalization [18.250276540068047]
本稿では,キーワード条件付き正規化パラメータを出力するためにテキストエンコーダを訓練するキーワードスポッティングの新しい手法であるAdaKWSを提案する。
近年のキーワードスポッティングやASRベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-09-13T13:49:42Z) - Automatic Counterfactual Augmentation for Robust Text Classification
Based on Word-Group Search [12.894936637198471]
一般に、ラベルと表面的関連を生じると、キーワードはショートカットと見なされ、結果として誤った予測となる。
キーワードの組み合わせの因果効果を捉え,予測に最も影響を与える組み合わせを注文する,新しいWord-Groupマイニング手法を提案する。
提案手法は,効率的なポストホック解析とビームサーチに基づいて,マイニング効果の確保と複雑さの低減を図っている。
論文 参考訳(メタデータ) (2023-07-01T02:26:34Z) - CompoundPiece: Evaluating and Improving Decompounding Performance of
Language Models [77.45934004406283]
複合語を構成語に分割する作業である「分解」を体系的に研究する。
We introduced a dataset of 255k compound and non-compound words across 56 various languages obtained from Wiktionary。
分割のための専用モデルを訓練するための新しい手法を導入する。
論文 参考訳(メタデータ) (2023-05-23T16:32:27Z) - To Wake-up or Not to Wake-up: Reducing Keyword False Alarm by Successive
Refinement [58.96644066571205]
既存の深層キーワードスポッティング機構は逐次リファインメントにより改善可能であることを示す。
13Kパラメーターから2.41Mパラメーターまで、複数のモデルにまたがって、連続精製法はFAを最大8.5%削減する。
提案手法は"plug-and-play"であり,任意の深いキーワードスポッティングモデルに適用できる。
論文 参考訳(メタデータ) (2023-04-06T23:49:29Z) - M-Tuning: Prompt Tuning with Mitigated Label Bias in Open-Set Scenarios [103.6153593636399]
緩和ラベルバイアス(M-Tuning)を用いた視覚言語プロンプトチューニング手法を提案する。
これはWordNetからのオープンワードを導入し、クローズドセットラベルワードのみからもっと多くのプロンプトテキストを形成する単語の範囲を広げ、シミュレートされたオープンセットシナリオでプロンプトをチューニングする。
提案手法は,様々なスケールのデータセット上で最高の性能を達成し,広範囲にわたるアブレーション研究もその有効性を検証した。
論文 参考訳(メタデータ) (2023-03-09T09:05:47Z) - On the Efficiency of Integrating Self-supervised Learning and
Meta-learning for User-defined Few-shot Keyword Spotting [51.41426141283203]
ユーザ定義キーワードスポッティングは、ユーザが定義する新しい音声用語を検出するタスクである。
これまでの研究は、自己教師付き学習モデルを取り入れたり、メタ学習アルゴリズムを適用しようとするものだった。
この結果から,HuBERTとMatching Networkを組み合わせることで,最適な結果が得られることがわかった。
論文 参考訳(メタデータ) (2022-04-01T10:59:39Z) - Weakly-supervised Text Classification Based on Keyword Graph [30.57722085686241]
GNN によるキーワードグラフ上のキーワードキーワード相関を探索する ClassKG という新しいフレームワークを提案する。
フレームワークは反復的なプロセスであり、各イテレーションでまずキーワードグラフを構築し、擬似ラベルをアサインするタスクをキーワードサブグラフに変換する。
サブグラフアノテータによって生成された擬似ラベルを用いて、未ラベルのテキストを分類するためにテキスト分類器を訓練する。
論文 参考訳(メタデータ) (2021-10-06T08:58:02Z) - DBTagger: Multi-Task Learning for Keyword Mapping in NLIDBs Using
Bi-Directional Recurrent Neural Networks [0.2578242050187029]
NLQのPOSタグを利用した新しいディープラーニングに基づく教師付きアプローチを提案する。
8つの異なるデータセットに対するアプローチを評価し、最新の精度結果、平均92.4%$を報告します。
論文 参考訳(メタデータ) (2021-01-11T22:54:39Z) - R$^2$-Net: Relation of Relation Learning Network for Sentence Semantic
Matching [58.72111690643359]
文意味マッチングのための関係学習ネットワーク(R2-Net)を提案する。
最初にBERTを使用して、グローバルな視点から入力文をエンコードします。
次に、cnnベースのエンコーダは、ローカルな視点からキーワードやフレーズ情報をキャプチャするように設計されている。
関係情報抽出にラベルを十分に活用するために,関係分類タスクの自己教師付き関係性を導入する。
論文 参考訳(メタデータ) (2020-12-16T13:11:30Z) - Few-Shot Keyword Spotting With Prototypical Networks [3.6930948691311016]
キーワードスポッティングは、AmazonのAlexaやGoogle Homeなど、多くの音声インターフェースで広く使用されている。
まず、この問題を数発のキーワードスポッティングとして定式化し、メートル法学習を用いてアプローチする。
そこで我々は,ネットワーク上の時間的および拡張的畳み込みを用いたプロトタイプ的な数ショットキーワードスポッティング問題に対する解を提案する。
論文 参考訳(メタデータ) (2020-07-25T20:17:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。