論文の概要: GE2E-KWS: Generalized End-to-End Training and Evaluation for Zero-shot Keyword Spotting
- arxiv url: http://arxiv.org/abs/2410.16647v1
- Date: Tue, 22 Oct 2024 02:45:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-23 14:29:28.735114
- Title: GE2E-KWS: Generalized End-to-End Training and Evaluation for Zero-shot Keyword Spotting
- Title(参考訳): GE2E-KWS: ゼロショットキーワードスポッティングのための汎用エンドツーエンドトレーニングと評価
- Authors: Pai Zhu, Jacob W. Bartel, Dhruuv Agarwal, Kurt Partridge, Hyun Jin Park, Quan Wang,
- Abstract要約: GE2E-KWSは、カスタマイズされたキーワードスポッティングのためのエンドツーエンドのトレーニングおよび評価フレームワークである。
実行時の登録と検証の段階をシミュレートし、収束安定性とトレーニング速度を改善する。
我々の419KBの量子化コンバータモデルは、7.5GBのASRエンコーダを23.6%の相対AUCで打ち負かし、同じ大きさのトリプルト損失モデルを60.7%のAUCで打ち負かした。
- 参考スコア(独自算出の注目度): 8.103855990028842
- License:
- Abstract: We propose GE2E-KWS -- a generalized end-to-end training and evaluation framework for customized keyword spotting. Specifically, enrollment utterances are separated and grouped by keywords from the training batch and their embedding centroids are compared to all other test utterance embeddings to compute the loss. This simulates runtime enrollment and verification stages, and improves convergence stability and training speed by optimizing matrix operations compared to SOTA triplet loss approaches. To benchmark different models reliably, we propose an evaluation process that mimics the production environment and compute metrics that directly measure keyword matching accuracy. Trained with GE2E loss, our 419KB quantized conformer model beats a 7.5GB ASR encoder by 23.6% relative AUC, and beats a same size triplet loss model by 60.7% AUC. Our KWS models are natively streamable with low memory footprints, and designed to continuously run on-device with no retraining needed for new keywords (zero-shot).
- Abstract(参考訳): GE2E-KWS - カスタマイズしたキーワードスポッティングのための汎用的なエンドツーエンドトレーニングおよび評価フレームワークを提案する。
具体的には、入力発話をトレーニングバッチからキーワードで分離してグループ化し、その埋め込みセントロイドを他の全てのテスト発話埋め込みと比較して損失を計算する。
これにより、実行時の登録と検証の段階をシミュレートし、SOTA三重項損失アプローチと比較して行列演算を最適化することにより収束安定性と訓練速度を向上させる。
異なるモデルを確実にベンチマークするために,生産環境を模倣し,キーワードマッチングの精度を直接測定する評価手法を提案する。
GE2Eの損失で訓練されたこの419KBの量子化コンバータモデルは、相対AUCの7.5GBのASRエンコーダを23.6%上回り、同じ大きさのトリプルト損失モデルを60.7%上回る。
私たちのKWSモデルは、メモリフットプリントが低く、ネイティブにストリーミング可能で、新しいキーワード(ゼロショット)に再トレーニングすることなく、デバイス上で継続的に実行できるように設計されています。
関連論文リスト
- A Fresh Take on Stale Embeddings: Improving Dense Retriever Training with Corrector Networks [81.2624272756733]
密集検索では、ディープエンコーダは入力とターゲットの両方に埋め込みを提供する。
我々は、古いキャッシュされたターゲット埋め込みを調整できる小さなパラメトリック補正ネットワークを訓練する。
私たちのアプローチは、トレーニング中にターゲット埋め込み更新が行われなくても、最先端の結果と一致します。
論文 参考訳(メタデータ) (2024-09-03T13:29:13Z) - Aligning GPTRec with Beyond-Accuracy Goals with Reinforcement Learning [67.71952251641545]
GPTRecはアイテム・バイ・イテムレコメンデーションのためのTop-Kモデルの代替品である。
GPTRecは,従来のグリーディ・リグレード手法よりも精度とセカンダリ・メトリクスのトレードオフが優れていることを示す。
2つのデータセットに対する実験により、GPTRecのNext-K生成アプローチは、古典的なグリージーな再ランク技術よりも精度と二次メトリクスのトレードオフが優れていることが示された。
論文 参考訳(メタデータ) (2024-03-07T19:47:48Z) - MixedNUTS: Training-Free Accuracy-Robustness Balance via Nonlinearly Mixed Classifiers [41.56951365163419]
MixedNUTSは、ロバストな分類器の出力ロジットを3つのパラメータしか持たない非線形変換で処理する訓練不要の手法である。
MixedNUTSは変換されたロジットを確率に変換し、それらを全体の出力として混合する。
CIFAR-10、CIFAR-100、ImageNetデータセットでは、MixedNUTSの精度とほぼSOTAの堅牢性を大幅に改善した。
論文 参考訳(メタデータ) (2024-02-03T21:12:36Z) - SpacTor-T5: Pre-training T5 Models with Span Corruption and Replaced
Token Detection [49.43407207482008]
SpacTorは、スパン汚職(SC)とトークン置換検出(RTD)を組み合わせたハイブリッド目標からなる新しいトレーニング手順である。
各種NLPタスクにおけるエンコーダ・デコーダアーキテクチャ(T5)による実験では、SpacTor-T5は標準のSCプリトレーニングと同じダウンストリーム性能が得られる。
論文 参考訳(メタデータ) (2024-01-24T00:36:13Z) - TeLeS: Temporal Lexeme Similarity Score to Estimate Confidence in
End-to-End ASR [1.8477401359673709]
クラス確率に基づく信頼スコアは、自信過剰なASR予測の品質を正確に表すものではない。
信頼度推定モデル(CEM)を訓練するためのTeLeS(Temporal-Lexeme similarity)の信頼性スコアを提案する。
我々は、ヒンディー語、タミル語、カナダ語という3つの言語で訓練されたASRモデルを用いて、様々なトレーニングデータサイズで実験を行う。
論文 参考訳(メタデータ) (2024-01-06T16:29:13Z) - Q-REG: End-to-End Trainable Point Cloud Registration with Surface
Curvature [81.25511385257344]
本稿では、リッチな幾何学的情報を用いて、単一の対応から剛性ポーズを推定する新しい解Q-REGを提案する。
Q-REGは、堅牢な推定を徹底的な探索として形式化し、エンドツーエンドのトレーニングを可能にする。
実験では、Q-REGは対応マッチング法に非依存であり、推論とエンドツーエンドトレーニングの両方で使用した場合に一貫した改善を提供する。
論文 参考訳(メタデータ) (2023-09-27T20:58:53Z) - Accelerating Attention through Gradient-Based Learned Runtime Pruning [9.109136535767478]
自己認識は、トランスフォーマーベースの自然言語処理モデルにおいて、最先端の精度を実現する重要な手段である。
本稿では、学習の損失関数に組み込まれたソフトな微分可能正規化器による探索を定式化する。
我々は、ビットレベルの早期終了マイクロアーキテクチャ機構を持つトランスフォーマー言語モデルに対して、LeOPArdと呼ばれるビットシリアルアーキテクチャを考案した。
論文 参考訳(メタデータ) (2022-04-07T05:31:13Z) - Exploration and Exploitation: Two Ways to Improve Chinese Spelling
Correction Models [51.744357472072416]
本稿では,モデルの弱点を継続的に識別し,より価値の高いトレーニングインスタンスを生成する手法を提案する。
実験結果から, 事前学習戦略と組み合わさって, 複数のCSCモデルの一般化とロバスト性を改善することができることがわかった。
論文 参考訳(メタデータ) (2021-05-31T09:17:33Z) - Semi-supervised Contrastive Learning with Similarity Co-calibration [72.38187308270135]
SsCL(Semi-supervised Contrastive Learning)と呼ばれる新しいトレーニング戦略を提案する。
ssclは、自己教師付き学習におけるよく知られたコントラスト損失と、半教師付き学習におけるクロスエントロピー損失を組み合わせる。
SsCLはより差別的な表現を生じさせ,ショット学習に有益であることを示す。
論文 参考訳(メタデータ) (2021-05-16T09:13:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。