Fugu-MT 論文翻訳(概要): A Multitask Training Approach to Enhance Whisper with Contextual Biasing and Open-Vocabulary Keyword Spotting

論文の概要: A Multitask Training Approach to Enhance Whisper with Contextual Biasing and Open-Vocabulary Keyword Spotting

arxiv url: http://arxiv.org/abs/2309.09552v3
Date: Tue, 23 Jan 2024 02:59:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-24 19:21:30.972762
Title: A Multitask Training Approach to Enhance Whisper with Contextual Biasing and Open-Vocabulary Keyword Spotting
Title（参考訳）: 文脈バイアスと開語彙キーワードスポッティングを用いたマルチタスク学習によるWhisperの強化
Authors: Yuang Li, Yinglu Li, Min Zhang, Chang Su, Mengxin Ren, Xiaosong Qiao, Xiaofeng Zhao, Mengyao Piao, Jiawei Yu, Xinglin Lv, Miaomiao Ma, Yanqing Zhao, Hao Yang
Abstract要約: 本稿では,OpenAIのWhisperモデルに基づく新しいASRシステムであるContextual Biasing Whisper(CB-Whisper)を提案する。 CB-Whisperは、オープン語彙のキーワードスポッティングを実行することで、ユーザ定義の名前エンティティを認識できる。認識されたエンティティは、Whisperデコーダのプロンプトとして使用される。
参考スコア（独自算出の注目度）: 13.358603588053015
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: End-to-end automatic speech recognition (ASR) systems often struggle to recognize rare name entities, such as personal names, organizations, and terminologies not frequently encountered in the training data. This paper presents Contextual Biasing Whisper (CB-Whisper), a novel ASR system based on OpenAI's Whisper model that can recognize user-defined name entities by performing open-vocabulary keyword-spotting (OV-KWS) using the hidden states of Whisper encoder. The recognized entities are used as prompts for the Whisper decoder. We first propose a multitask training approach with OV-KWS and ASR tasks to optimize the model. Experiments show that this approach substantially improves the entity recalls compared to the original Whisper model on Chinese Aishell hot word subsets and two internal code-switch test sets. However, we observed a slight increase in mixed-error-rate (MER) on internal test sets due to catastrophic forgetting. To address this problem and use different sizes of the Whisper model without finetuning, we propose to use OV-KWS as a separate module and construct a spoken form prompt to prevent hallucination. The OV-KWS module consistently improves MER and Entity Recall for whisper-small, medium, and large models.
Abstract（参考訳）: エンド・ツー・エンド自動音声認識(asr)システムは、個人名、組織、用語など、トレーニングデータにあまり遭遇しない珍しい名前のエンティティを認識するのに苦労することが多い。本稿では,openai のwhisper モデルに基づく新しいasrシステムである context biasing whisper (cb-whisper) を提案する。認識されたエンティティは、whisperデコーダのプロンプトとして使用される。まず,OV-KWS タスクと ASR タスクを併用したマルチタスク学習手法を提案する。実験により,中国語のAishellホットワードサブセットと2つの内部コードスウィッチテストセットのWhisperモデルと比較して,エンティティリコールを大幅に改善した。しかし,大惨事による内部テストセットにおける混合エラーレート(mer)の増加がみられた。そこで本研究では, ov-kwsを別モジュールとして使用し, 幻覚を防止すべく, 発声型プロンプトを構築することを提案する。 OV-KWSモジュールは、小さめ、中、大型モデルのMERとEntity Recallを一貫して改善する。

関連論文リスト

Noise-Agnostic Multitask Whisper Training for Reducing False Alarm Errors in Call-for-Help Detection [0.0]
本稿では,ASRエンコーダにノイズ分類ヘッドを組み込んだマルチタスク学習手法を提案する。提案手法は, ノイズの多い環境に対するモデルの堅牢性を高め, 誤報を著しく低減し, 全体的なコール・フォー・ヘルプ性能を向上する。
論文参考訳（メタデータ） (2025-01-20T18:01:42Z)
Keyword-Guided Adaptation of Automatic Speech Recognition [17.011087631073863]
本稿では,Whisper ベースモデルを用いた文脈バイアスによる単語認識の改良手法を提案する。本稿では,Whisperエンコーダ表現を利用したキーワードスポッティングモデルを用いて,書き起こし処理中にデコーダを誘導するプロンプトを動的に生成する。その結果,特定のキーワードの認識精度が向上し,全体的な単語誤り率の低減が図られた。
論文参考訳（メタデータ） (2024-06-04T14:20:38Z)
Continuously Learning New Words in Automatic Speech Recognition [56.972851337263755]
本稿では,新たな単語認識のための自己教師付き連続学習手法を提案する。過去の研究から,メモリ拡張型自動音声認識モデルを用いた。提案手法により,新たな単語の出現頻度が高くなると,新たな単語のパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2024-01-09T10:39:17Z)
Improved Contextual Recognition In Automatic Speech Recognition Systems By Semantic Lattice Rescoring [4.819085609772069]
本稿では,意味的格子処理によるASRシステム内における文脈認識の高度化のための新しい手法を提案する。提案手法は,隠れマルコフモデルとガウス混合モデル(HMM-GMM)とディープニューラルネットワーク(DNN)モデルを用いて,精度を向上する。本稿では,実験分析によるLibriSpeechデータセット上でのフレームワークの有効性を示す。
論文参考訳（メタデータ） (2023-10-14T23:16:05Z)
Open-vocabulary Keyword-spotting with Adaptive Instance Normalization [18.250276540068047]
本稿では,キーワード条件付き正規化パラメータを出力するためにテキストエンコーダを訓練するキーワードスポッティングの新しい手法であるAdaKWSを提案する。近年のキーワードスポッティングやASRベースラインよりも大幅に改善されている。
論文参考訳（メタデータ） (2023-09-13T13:49:42Z)
Prompting the Hidden Talent of Web-Scale Speech Models for Zero-Shot Task Generalization [61.60501633397704]
本稿では,最近提案されたWebスケール音声モデルのWhisperの創発的能力について検討する。タスク固有のプロンプトを、別の大規模モデルを活用するか、あるいはデフォルトのプロンプトで特別なトークンを操作するだけで設計する。実験の結果,提案手法は3つのゼロショットタスクで10%から45%向上し,SotAの教師付きモデルよりも優れていることがわかった。
論文参考訳（メタデータ） (2023-05-18T16:32:58Z)
Bridging Speech and Textual Pre-trained Models with Unsupervised ASR [70.61449720963235]
この研究は、音声とテキストによる事前学習モデルを結ぶ、シンプルで効率的な教師なしのパラダイムを提案する。教師なし自動音声認識(ASR)は、音声自己教師モデルから表現を改善することができることを示す。特に、音声による質問応答では、挑戦的なNMSQAベンチマークよりも最先端の結果に到達しています。
論文参考訳（メタデータ） (2022-11-06T04:50:37Z)
Short-Term Word-Learning in a Dynamically Changing Environment [63.025297637716534]
本稿では、単語/フレーズメモリと、このメモリにアクセスして単語やフレーズを正しく認識するためのメカニズムを用いて、エンドツーエンドのASRシステムを補完する方法を示す。誤報がわずかに増加しただけで, 単語の検出速度が大幅に向上した。
論文参考訳（メタデータ） (2022-03-29T10:05:39Z)
A Comparison of Methods for OOV-word Recognition on a New Public Dataset [0.0]
我々はCommonVoiceデータセットを用いて、語彙外比の高い言語のためのテストセットを作成することを提案する。次に、ハイブリッドASRシステムのコンテキストにおいて、OOVの認識において、サブワードモデルがどの程度優れているかを評価する。 OOV単語をよりよく認識するために,サブワードベースの言語モデルを修正する新しい手法を提案する。
論文参考訳（メタデータ） (2021-07-16T19:39:30Z)
Instant One-Shot Word-Learning for Context-Specific Neural Sequence-to-Sequence Speech Recognition [62.997667081978825]
本稿では、単語/フレーズメモリと、このメモリにアクセスして単語やフレーズを正しく認識する機構を備えたエンドツーエンドのASRシステムを提案する。本稿では,この機構により,これまで認識できなかった単語の85%以上を認識できることを示す。
論文参考訳（メタデータ） (2021-07-05T21:08:34Z)
Speech Enhancement for Wake-Up-Word detection in Voice Assistants [60.103753056973815]
キースポッティング、特にWake-Up-Word(WUW)検出は音声アシスタントにとって非常に重要なタスクである。本稿では,WUW検出に適応した音声強調モデルを提案する。これらのノイズの存在下で、認識率を高め、誤報を減らすことを目的としている。
論文参考訳（メタデータ） (2021-01-29T18:44:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。