論文の概要: H-PRM: A Pluggable Hotword Pre-Retrieval Module for Various Speech Recognition Systems
- arxiv url: http://arxiv.org/abs/2508.18295v1
- Date: Fri, 22 Aug 2025 13:30:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 17:42:38.499745
- Title: H-PRM: A Pluggable Hotword Pre-Retrieval Module for Various Speech Recognition Systems
- Title(参考訳): H-PRM:様々な音声認識システムのためのプラガブルホットワード事前検索モジュール
- Authors: Huangyu Dai, Lingtao Mao, Ben Chen, Zihan Wang, Zihan Liang, Ying Han, Chenyi Lei, Han Li,
- Abstract要約: 本稿では,ホットワード前検索モジュール(H-PRM)を用いて,最も関連性の高いホットワード候補を識別する新しいホットワードカスタマイズシステムを提案する。
このプラグアンドプレイソリューションは、SeACo-Paraformerのような従来のモデルに簡単に統合できる。
- 参考スコア(独自算出の注目度): 18.29946582424017
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hotword customization is crucial in ASR to enhance the accuracy of domain-specific terms. It has been primarily driven by the advancements in traditional models and Audio large language models (LLMs). However, existing models often struggle with large-scale hotwords, as the recognition rate drops dramatically with the number of hotwords increasing. In this paper, we introduce a novel hotword customization system that utilizes a hotword pre-retrieval module (H-PRM) to identify the most relevant hotword candidate by measuring the acoustic similarity between the hotwords and the speech segment. This plug-and-play solution can be easily integrated into traditional models such as SeACo-Paraformer, significantly enhancing hotwords post-recall rate (PRR). Additionally, we incorporate H-PRM into Audio LLMs through a prompt-based approach, enabling seamless customization of hotwords. Extensive testing validates that H-PRM can outperform existing methods, showing a new direction for hotword customization in ASR.
- Abstract(参考訳): ASRでは、ドメイン固有の用語の精度を高めるために、ホットワードのカスタマイズが不可欠である。
主に従来のモデルとオーディオ大言語モデル(LLM)の進歩によって推進されている。
しかし、既存のモデルは、認識率が劇的に低下し、ホットワードの数が増加するにつれて、大規模なホットワードに苦しむことが多い。
本稿では,ホットワード前検索モジュール(H-PRM)を用いて,ホットワードと音声セグメントの音響的類似度を測定することで,最も関連性の高いホットワード候補を識別する新しいホットワードカスタマイズシステムを提案する。
このプラグアンドプレイソリューションは、SeACo-Paraformerのような従来のモデルに簡単に統合することができ、ホットワードのコール後レート(PRR)を大幅に向上させる。
さらに,H-PRMをプロンプトベースアプローチによりオーディオLLMに組み込んで,ホットワードのシームレスなカスタマイズを可能にする。
大規模なテストにより、H-PRMは既存の手法よりも優れており、ASRにおけるホットワードのカスタマイズの新しい方向を示す。
関連論文リスト
- Continuously Learning New Words in Automatic Speech Recognition [56.972851337263755]
音声認識のための自己教師付き連続学習手法を提案する。
文献からのメモリ拡張型ASRモデルを用いて、スライドから新しい単語を復号する。
提案手法により,新たな単語の出現頻度が高くなると,新たな単語のパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2024-01-09T10:39:17Z) - Improved Contextual Recognition In Automatic Speech Recognition Systems
By Semantic Lattice Rescoring [4.819085609772069]
本稿では,意味的格子処理によるASRシステム内における文脈認識の高度化のための新しい手法を提案する。
提案手法は,隠れマルコフモデルとガウス混合モデル(HMM-GMM)とディープニューラルネットワーク(DNN)モデルを用いて,精度を向上する。
本稿では,実験分析によるLibriSpeechデータセット上でのフレームワークの有効性を示す。
論文 参考訳(メタデータ) (2023-10-14T23:16:05Z) - Open-vocabulary Keyword-spotting with Adaptive Instance Normalization [18.250276540068047]
本稿では,キーワード条件付き正規化パラメータを出力するためにテキストエンコーダを訓練するキーワードスポッティングの新しい手法であるAdaKWSを提案する。
近年のキーワードスポッティングやASRベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-09-13T13:49:42Z) - Prompt Tuning of Deep Neural Networks for Speaker-adaptive Visual Speech Recognition [66.94463981654216]
話者適応型視覚音声認識(VSR)のためのディープニューラルネットワーク(DNN)の即時チューニング手法を提案する。
我々は、事前訓練されたモデルパラメータを変更する代わりに、ターゲット話者の適応データを微調整する。
提案手法の有効性を単語レベルのVSRデータベースと文レベルのVSRデータベースで評価した。
論文 参考訳(メタデータ) (2023-02-16T06:01:31Z) - Short-Term Word-Learning in a Dynamically Changing Environment [63.025297637716534]
本稿では、単語/フレーズメモリと、このメモリにアクセスして単語やフレーズを正しく認識するためのメカニズムを用いて、エンドツーエンドのASRシステムを補完する方法を示す。
誤報がわずかに増加しただけで, 単語の検出速度が大幅に向上した。
論文 参考訳(メタデータ) (2022-03-29T10:05:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。