Fugu-MT 論文翻訳(概要): Open-vocabulary Keyword-spotting with Adaptive Instance Normalization

論文の概要: Open-vocabulary Keyword-spotting with Adaptive Instance Normalization

arxiv url: http://arxiv.org/abs/2309.08561v1
Date: Wed, 13 Sep 2023 13:49:42 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-18 13:43:55.628444
Title: Open-vocabulary Keyword-spotting with Adaptive Instance Normalization
Title（参考訳）: 適応型インスタンス正規化を用いた開語彙キーワードスポッティング
Authors: Aviv Navon, Aviv Shamsian, Neta Glazer, Gill Hetz, Joseph Keshet
Abstract要約: 本稿では,キーワード条件付き正規化パラメータを出力するためにテキストエンコーダを訓練するキーワードスポッティングの新しい手法であるAdaKWSを提案する。近年のキーワードスポッティングやASRベースラインよりも大幅に改善されている。
参考スコア（独自算出の注目度）: 18.250276540068047
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Open vocabulary keyword spotting is a crucial and challenging task in automatic speech recognition (ASR) that focuses on detecting user-defined keywords within a spoken utterance. Keyword spotting methods commonly map the audio utterance and keyword into a joint embedding space to obtain some affinity score. In this work, we propose AdaKWS, a novel method for keyword spotting in which a text encoder is trained to output keyword-conditioned normalization parameters. These parameters are used to process the auditory input. We provide an extensive evaluation using challenging and diverse multi-lingual benchmarks and show significant improvements over recent keyword spotting and ASR baselines. Furthermore, we study the effectiveness of our approach on low-resource languages that were unseen during the training. The results demonstrate a substantial performance improvement compared to baseline methods.
Abstract（参考訳）: オープン語彙キーワードスポッティングは、音声発話中のユーザ定義キーワードを検出することに焦点を当てた自動音声認識(ASR)において、重要かつ困難なタスクである。キーワードスポッティング手法は、音声の発話とキーワードを共同埋め込み空間にマッピングして親和性スコアを得る。本研究では,テキストエンコーダを訓練してキーワード条件付き正規化パラメータを出力するキーワードスポッティング手法であるAdaKWSを提案する。これらのパラメータは聴覚入力を処理するために使用される。本稿では,多言語多言語ベンチマークを用いた広範囲な評価を行い,最近のキーワードスポッティングやasrベースラインに対して有意な改善を示す。さらに,訓練中に見つからなかった低リソース言語に対するアプローチの有効性について検討した。その結果,ベースライン法に比べて性能が大幅に向上した。

関連論文リスト

WCTC-Biasing: Retraining-free Contextual Biasing ASR with Wildcard CTC-based Keyword Spotting and Inter-layer Biasing [5.50485371072671]
そこで本研究では,CTCに基づくモデルにおけるレアワードの認識精度を,追加の訓練やテキスト音声システムなしで向上させる手法を提案する。キーワード検出には,高速かつ不明瞭な一致に寛容なワイルドカードCTCを採用する。日本語音声認識の実験では,未知語に対するF1スコアが29%向上した。
論文参考訳（メタデータ） (2025-06-02T02:30:26Z)
Noise-Agnostic Multitask Whisper Training for Reducing False Alarm Errors in Call-for-Help Detection [0.0]
本稿では,ASRエンコーダにノイズ分類ヘッドを組み込んだマルチタスク学習手法を提案する。提案手法は, ノイズの多い環境に対するモデルの堅牢性を高め, 誤報を著しく低減し, 全体的なコール・フォー・ヘルプ性能を向上する。
論文参考訳（メタデータ） (2025-01-20T18:01:42Z)
An Analysis of BPE Vocabulary Trimming in Neural Machine Translation [56.383793805299234]
語彙トリミング(vocabulary trimming)は、まれなサブワードをコンポーネントサブワードに置き換える後処理のステップである。ボキャブラリトリミングは性能向上に失敗し,さらに大きな劣化を招きやすいことを示す。
論文参考訳（メタデータ） (2024-03-30T15:29:49Z)
Continuously Learning New Words in Automatic Speech Recognition [56.972851337263755]
音声認識のための自己教師付き連続学習手法を提案する。文献からのメモリ拡張型ASRモデルを用いて、スライドから新しい単語を復号する。提案手法により,新たな単語の出現頻度が高くなると,新たな単語のパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2024-01-09T10:39:17Z)
To Wake-up or Not to Wake-up: Reducing Keyword False Alarm by Successive Refinement [58.96644066571205]
既存の深層キーワードスポッティング機構は逐次リファインメントにより改善可能であることを示す。 13Kパラメーターから2.41Mパラメーターまで、複数のモデルにまたがって、連続精製法はFAを最大8.5%削減する。提案手法は"plug-and-play"であり,任意の深いキーワードスポッティングモデルに適用できる。
論文参考訳（メタデータ） (2023-04-06T23:49:29Z)
M-Tuning: Prompt Tuning with Mitigated Label Bias in Open-Set Scenarios [103.6153593636399]
緩和ラベルバイアス(M-Tuning)を用いた視覚言語プロンプトチューニング手法を提案する。これはWordNetからのオープンワードを導入し、クローズドセットラベルワードのみからもっと多くのプロンプトテキストを形成する単語の範囲を広げ、シミュレートされたオープンセットシナリオでプロンプトをチューニングする。提案手法は,様々なスケールのデータセット上で最高の性能を達成し,広範囲にわたるアブレーション研究もその有効性を検証した。
論文参考訳（メタデータ） (2023-03-09T09:05:47Z)
Learning Audio-Text Agreement for Open-vocabulary Keyword Spotting [23.627625026135505]
本稿では,ユーザ定義キーワードスポッティング手法を提案する。提案手法は,入力クエリをテキストキーワードシーケンスと比較する。本稿ではキーワードスポッティングモデルを効率的にトレーニングするためのLibriPhraseデータセットを紹介する。
論文参考訳（メタデータ） (2022-06-30T16:40:31Z)
Short-Term Word-Learning in a Dynamically Changing Environment [63.025297637716534]
本稿では、単語/フレーズメモリと、このメモリにアクセスして単語やフレーズを正しく認識するためのメカニズムを用いて、エンドツーエンドのASRシステムを補完する方法を示す。誤報がわずかに増加しただけで, 単語の検出速度が大幅に向上した。
論文参考訳（メタデータ） (2022-03-29T10:05:39Z)
Representation Learning for Resource-Constrained Keyphrase Generation [78.02577815973764]
本稿では,言語モデリングの目的を導くために,有能なスパンリカバリと有能なスパン予測を導入する。提案手法が低リソースおよびゼロショットのキーフレーズ生成に有効であることを示す。
論文参考訳（メタデータ） (2022-03-15T17:48:04Z)
Spell my name: keyword boosted speech recognition [25.931897154065663]
名前や専門用語のような一般的な言葉は、会話を文脈で理解するのに重要である。本稿では、これらの非一般的なキーワードをよりよく認識できる、単純だが強力なASR復号法を提案する。本手法は,音響モデル予測に基づくビームサーチにおいて,与えられたキーワードの確率を高める。本稿では,本手法の有効性を実世界の会話の内部データとLibriSpeeechテストセットで実証する。
論文参考訳（メタデータ） (2021-10-06T14:16:57Z)
Teaching keyword spotters to spot new keywords with limited examples [6.251896411370577]
多数のキーワードを認識するタスクに基づいて事前学習した音声埋め込みモデルであるKeySEMを提案する。 KeySEMは、デプロイ後の学習とカスタマイズの容易さが望ましいオンデバイス環境に適している。
論文参考訳（メタデータ） (2021-06-04T12:43:36Z)
Seeing wake words: Audio-visual Keyword Spotting [103.12655603634337]
KWS-Netは、類似マップ中間表現を用いてタスクをシーケンスマッチングとパターン検出に分離する新しい畳み込みアーキテクチャである。本手法は他の言語,特にフランス語とドイツ語に一般化し,より少ない言語データで英語に匹敵する性能が得られることを示す。
論文参考訳（メタデータ） (2020-09-02T17:57:38Z)
Few-Shot Keyword Spotting With Prototypical Networks [3.6930948691311016]
キーワードスポッティングは、AmazonのAlexaやGoogle Homeなど、多くの音声インターフェースで広く使用されている。まず、この問題を数発のキーワードスポッティングとして定式化し、メートル法学習を用いてアプローチする。そこで我々は,ネットワーク上の時間的および拡張的畳み込みを用いたプロトタイプ的な数ショットキーワードスポッティング問題に対する解を提案する。
論文参考訳（メタデータ） (2020-07-25T20:17:56Z)
Keyword-Attentive Deep Semantic Matching [1.8416014644193064]
本稿では,深いセマンティックマッチングを改善するためのキーワード付きアプローチを提案する。まず、大きなコーパスからのドメインタグを利用して、ドメインを拡張したキーワード辞書を生成する。モデル学習中,入力ペア間のキーワードカバレッジに基づく新しいネガティブサンプリング手法を提案する。
論文参考訳（メタデータ） (2020-03-11T10:18:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。