論文の概要: Open-vocabulary Keyword-spotting with Adaptive Instance Normalization
- arxiv url: http://arxiv.org/abs/2309.08561v1
- Date: Wed, 13 Sep 2023 13:49:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-18 13:43:55.628444
- Title: Open-vocabulary Keyword-spotting with Adaptive Instance Normalization
- Title(参考訳): 適応型インスタンス正規化を用いた開語彙キーワードスポッティング
- Authors: Aviv Navon, Aviv Shamsian, Neta Glazer, Gill Hetz, Joseph Keshet
- Abstract要約: 本稿では,キーワード条件付き正規化パラメータを出力するためにテキストエンコーダを訓練するキーワードスポッティングの新しい手法であるAdaKWSを提案する。
近年のキーワードスポッティングやASRベースラインよりも大幅に改善されている。
- 参考スコア(独自算出の注目度): 18.250276540068047
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open vocabulary keyword spotting is a crucial and challenging task in
automatic speech recognition (ASR) that focuses on detecting user-defined
keywords within a spoken utterance. Keyword spotting methods commonly map the
audio utterance and keyword into a joint embedding space to obtain some
affinity score. In this work, we propose AdaKWS, a novel method for keyword
spotting in which a text encoder is trained to output keyword-conditioned
normalization parameters. These parameters are used to process the auditory
input. We provide an extensive evaluation using challenging and diverse
multi-lingual benchmarks and show significant improvements over recent keyword
spotting and ASR baselines. Furthermore, we study the effectiveness of our
approach on low-resource languages that were unseen during the training. The
results demonstrate a substantial performance improvement compared to baseline
methods.
- Abstract(参考訳): オープン語彙キーワードスポッティングは、音声発話中のユーザ定義キーワードを検出することに焦点を当てた自動音声認識(ASR)において、重要かつ困難なタスクである。
キーワードスポッティング手法は、音声の発話とキーワードを共同埋め込み空間にマッピングして親和性スコアを得る。
本研究では,テキストエンコーダを訓練してキーワード条件付き正規化パラメータを出力するキーワードスポッティング手法であるAdaKWSを提案する。
これらのパラメータは聴覚入力を処理するために使用される。
本稿では,多言語多言語ベンチマークを用いた広範囲な評価を行い,最近のキーワードスポッティングやasrベースラインに対して有意な改善を示す。
さらに,訓練中に見つからなかった低リソース言語に対するアプローチの有効性について検討した。
その結果,ベースライン法に比べて性能が大幅に向上した。
関連論文リスト
- An Analysis of BPE Vocabulary Trimming in Neural Machine Translation [56.383793805299234]
語彙トリミング(vocabulary trimming)は、まれなサブワードをコンポーネントサブワードに置き換える後処理のステップである。
ボキャブラリトリミングは性能向上に失敗し,さらに大きな劣化を招きやすいことを示す。
論文 参考訳(メタデータ) (2024-03-30T15:29:49Z) - To Wake-up or Not to Wake-up: Reducing Keyword False Alarm by Successive
Refinement [58.96644066571205]
既存の深層キーワードスポッティング機構は逐次リファインメントにより改善可能であることを示す。
13Kパラメーターから2.41Mパラメーターまで、複数のモデルにまたがって、連続精製法はFAを最大8.5%削減する。
提案手法は"plug-and-play"であり,任意の深いキーワードスポッティングモデルに適用できる。
論文 参考訳(メタデータ) (2023-04-06T23:49:29Z) - M-Tuning: Prompt Tuning with Mitigated Label Bias in Open-Set Scenarios [103.6153593636399]
緩和ラベルバイアス(M-Tuning)を用いた視覚言語プロンプトチューニング手法を提案する。
これはWordNetからのオープンワードを導入し、クローズドセットラベルワードのみからもっと多くのプロンプトテキストを形成する単語の範囲を広げ、シミュレートされたオープンセットシナリオでプロンプトをチューニングする。
提案手法は,様々なスケールのデータセット上で最高の性能を達成し,広範囲にわたるアブレーション研究もその有効性を検証した。
論文 参考訳(メタデータ) (2023-03-09T09:05:47Z) - Learning Audio-Text Agreement for Open-vocabulary Keyword Spotting [23.627625026135505]
本稿では,ユーザ定義キーワードスポッティング手法を提案する。
提案手法は,入力クエリをテキストキーワードシーケンスと比較する。
本稿ではキーワードスポッティングモデルを効率的にトレーニングするためのLibriPhraseデータセットを紹介する。
論文 参考訳(メタデータ) (2022-06-30T16:40:31Z) - Short-Term Word-Learning in a Dynamically Changing Environment [63.025297637716534]
本稿では、単語/フレーズメモリと、このメモリにアクセスして単語やフレーズを正しく認識するためのメカニズムを用いて、エンドツーエンドのASRシステムを補完する方法を示す。
誤報がわずかに増加しただけで, 単語の検出速度が大幅に向上した。
論文 参考訳(メタデータ) (2022-03-29T10:05:39Z) - Representation Learning for Resource-Constrained Keyphrase Generation [78.02577815973764]
本稿では,言語モデリングの目的を導くために,有能なスパンリカバリと有能なスパン予測を導入する。
提案手法が低リソースおよびゼロショットのキーフレーズ生成に有効であることを示す。
論文 参考訳(メタデータ) (2022-03-15T17:48:04Z) - Spell my name: keyword boosted speech recognition [25.931897154065663]
名前や専門用語のような一般的な言葉は、会話を文脈で理解するのに重要である。
本稿では、これらの非一般的なキーワードをよりよく認識できる、単純だが強力なASR復号法を提案する。
本手法は,音響モデル予測に基づくビームサーチにおいて,与えられたキーワードの確率を高める。
本稿では,本手法の有効性を実世界の会話の内部データとLibriSpeeechテストセットで実証する。
論文 参考訳(メタデータ) (2021-10-06T14:16:57Z) - Teaching keyword spotters to spot new keywords with limited examples [6.251896411370577]
多数のキーワードを認識するタスクに基づいて事前学習した音声埋め込みモデルであるKeySEMを提案する。
KeySEMは、デプロイ後の学習とカスタマイズの容易さが望ましいオンデバイス環境に適している。
論文 参考訳(メタデータ) (2021-06-04T12:43:36Z) - Seeing wake words: Audio-visual Keyword Spotting [103.12655603634337]
KWS-Netは、類似マップ中間表現を用いてタスクをシーケンスマッチングとパターン検出に分離する新しい畳み込みアーキテクチャである。
本手法は他の言語,特にフランス語とドイツ語に一般化し,より少ない言語データで英語に匹敵する性能が得られることを示す。
論文 参考訳(メタデータ) (2020-09-02T17:57:38Z) - Few-Shot Keyword Spotting With Prototypical Networks [3.6930948691311016]
キーワードスポッティングは、AmazonのAlexaやGoogle Homeなど、多くの音声インターフェースで広く使用されている。
まず、この問題を数発のキーワードスポッティングとして定式化し、メートル法学習を用いてアプローチする。
そこで我々は,ネットワーク上の時間的および拡張的畳み込みを用いたプロトタイプ的な数ショットキーワードスポッティング問題に対する解を提案する。
論文 参考訳(メタデータ) (2020-07-25T20:17:56Z) - Keyword-Attentive Deep Semantic Matching [1.8416014644193064]
本稿では,深いセマンティックマッチングを改善するためのキーワード付きアプローチを提案する。
まず、大きなコーパスからのドメインタグを利用して、ドメインを拡張したキーワード辞書を生成する。
モデル学習中,入力ペア間のキーワードカバレッジに基づく新しいネガティブサンプリング手法を提案する。
論文 参考訳(メタデータ) (2020-03-11T10:18:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。