論文の概要: A Multitask Training Approach to Enhance Whisper with Contextual Biasing
and Open-Vocabulary Keyword Spotting
- arxiv url: http://arxiv.org/abs/2309.09552v3
- Date: Tue, 23 Jan 2024 02:59:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-24 19:21:30.972762
- Title: A Multitask Training Approach to Enhance Whisper with Contextual Biasing
and Open-Vocabulary Keyword Spotting
- Title(参考訳): 文脈バイアスと開語彙キーワードスポッティングを用いたマルチタスク学習によるWhisperの強化
- Authors: Yuang Li, Yinglu Li, Min Zhang, Chang Su, Mengxin Ren, Xiaosong Qiao,
Xiaofeng Zhao, Mengyao Piao, Jiawei Yu, Xinglin Lv, Miaomiao Ma, Yanqing
Zhao, Hao Yang
- Abstract要約: 本稿では,OpenAIのWhisperモデルに基づく新しいASRシステムであるContextual Biasing Whisper(CB-Whisper)を提案する。
CB-Whisperは、オープン語彙のキーワードスポッティングを実行することで、ユーザ定義の名前エンティティを認識できる。
認識されたエンティティは、Whisperデコーダのプロンプトとして使用される。
- 参考スコア(独自算出の注目度): 13.358603588053015
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end automatic speech recognition (ASR) systems often struggle to
recognize rare name entities, such as personal names, organizations, and
terminologies not frequently encountered in the training data. This paper
presents Contextual Biasing Whisper (CB-Whisper), a novel ASR system based on
OpenAI's Whisper model that can recognize user-defined name entities by
performing open-vocabulary keyword-spotting (OV-KWS) using the hidden states of
Whisper encoder. The recognized entities are used as prompts for the Whisper
decoder. We first propose a multitask training approach with OV-KWS and ASR
tasks to optimize the model. Experiments show that this approach substantially
improves the entity recalls compared to the original Whisper model on Chinese
Aishell hot word subsets and two internal code-switch test sets. However, we
observed a slight increase in mixed-error-rate (MER) on internal test sets due
to catastrophic forgetting. To address this problem and use different sizes of
the Whisper model without finetuning, we propose to use OV-KWS as a separate
module and construct a spoken form prompt to prevent hallucination. The OV-KWS
module consistently improves MER and Entity Recall for whisper-small, medium,
and large models.
- Abstract(参考訳): エンド・ツー・エンド自動音声認識(asr)システムは、個人名、組織、用語など、トレーニングデータにあまり遭遇しない珍しい名前のエンティティを認識するのに苦労することが多い。
本稿では,openai のwhisper モデルに基づく新しいasrシステムである context biasing whisper (cb-whisper) を提案する。
認識されたエンティティは、whisperデコーダのプロンプトとして使用される。
まず,OV-KWS タスクと ASR タスクを併用したマルチタスク学習手法を提案する。
実験により,中国語のAishellホットワードサブセットと2つの内部コードスウィッチテストセットのWhisperモデルと比較して,エンティティリコールを大幅に改善した。
しかし,大惨事による内部テストセットにおける混合エラーレート(mer)の増加がみられた。
そこで本研究では, ov-kwsを別モジュールとして使用し, 幻覚を防止すべく, 発声型プロンプトを構築することを提案する。
OV-KWSモジュールは、小さめ、中、大型モデルのMERとEntity Recallを一貫して改善する。
関連論文リスト
- Continuously Learning New Words in Automatic Speech Recognition [64.03177537617113]
本稿では,新たな単語認識のための自己教師付き連続学習手法を提案する。
過去の研究から,メモリ拡張型自動音声認識モデルを用いた。
提案手法により,新たな単語の出現頻度が高くなると,新たな単語のパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2024-01-09T10:39:17Z) - Distil-Whisper: Robust Knowledge Distillation via Large-Scale Pseudo
Labelling [75.74809713084282]
Distil-Whisperは投機的復号化のためにWhisperとペアで設計されており、2倍のスピードアップを実現している。
Distil-Whisperは5.8倍高速で、パラメータは51%少ない。
この領域におけるさらなる研究を促進するため、トレーニングコード、推論コード、モデルが一般に公開されています。
論文 参考訳(メタデータ) (2023-11-01T10:45:07Z) - Improved Contextual Recognition In Automatic Speech Recognition Systems
By Semantic Lattice Rescoring [4.819085609772069]
本稿では,意味的格子処理によるASRシステム内における文脈認識の高度化のための新しい手法を提案する。
提案手法は,隠れマルコフモデルとガウス混合モデル(HMM-GMM)とディープニューラルネットワーク(DNN)モデルを用いて,精度を向上する。
本稿では,実験分析によるLibriSpeechデータセット上でのフレームワークの有効性を示す。
論文 参考訳(メタデータ) (2023-10-14T23:16:05Z) - Multimodal Speech Recognition for Language-Guided Embodied Agents [5.464988285536847]
視覚的コンテキストを考慮したマルチモーダルASRモデルの訓練を行い,音声命令の書き起こしにおける誤りを低減する。
マルチモーダルASRモデルは,一助詞よりも最大30%のマスキング語を回復させることで,視覚的観察の活用によりマスキング語回復が促進されることがわかった。
論文 参考訳(メタデータ) (2023-02-27T18:41:48Z) - Short-Term Word-Learning in a Dynamically Changing Environment [63.025297637716534]
本稿では、単語/フレーズメモリと、このメモリにアクセスして単語やフレーズを正しく認識するためのメカニズムを用いて、エンドツーエンドのASRシステムを補完する方法を示す。
誤報がわずかに増加しただけで, 単語の検出速度が大幅に向上した。
論文 参考訳(メタデータ) (2022-03-29T10:05:39Z) - A Comparison of Methods for OOV-word Recognition on a New Public Dataset [0.0]
我々はCommonVoiceデータセットを用いて、語彙外比の高い言語のためのテストセットを作成することを提案する。
次に、ハイブリッドASRシステムのコンテキストにおいて、OOVの認識において、サブワードモデルがどの程度優れているかを評価する。
OOV単語をよりよく認識するために,サブワードベースの言語モデルを修正する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-07-16T19:39:30Z) - Instant One-Shot Word-Learning for Context-Specific Neural
Sequence-to-Sequence Speech Recognition [62.997667081978825]
本稿では、単語/フレーズメモリと、このメモリにアクセスして単語やフレーズを正しく認識する機構を備えたエンドツーエンドのASRシステムを提案する。
本稿では,この機構により,これまで認識できなかった単語の85%以上を認識できることを示す。
論文 参考訳(メタデータ) (2021-07-05T21:08:34Z) - A Discriminative Entity-Aware Language Model for Virtual Assistants [4.2854663014000876]
仮想アシスタント(VA)では,高品質な自動音声認識(ASR)が不可欠である。
本研究は、実世界の知識と矛盾する名前付きエンティティ上の多くのASRエラーを観察することから始める。
我々は、従来の差別的なn-gram言語モデリングアプローチを拡張し、知識グラフから現実世界の知識を取り入れた。
論文 参考訳(メタデータ) (2021-06-21T17:50:28Z) - Personalized Keyphrase Detection using Speaker and Environment
Information [24.766475943042202]
単語からなるフレーズを大きな語彙から正確に検出するために、簡単にカスタマイズできるストリーミングキーフレーズ検出システムを紹介します。
本システムは,エンドツーエンドで訓練された自動音声認識(ASR)モデルと,テキスト非依存話者検証モデルを用いて実装される。
論文 参考訳(メタデータ) (2021-04-28T18:50:19Z) - A Correspondence Variational Autoencoder for Unsupervised Acoustic Word
Embeddings [50.524054820564395]
そこで本稿では,変数分割音声セグメントを固定次元表現にマッピングするための教師なしモデルを提案する。
結果として得られる音響単語の埋め込みは、低リソース言語とゼロリソース言語のための検索、発見、インデックスシステムの基礎を形成することができる。
論文 参考訳(メタデータ) (2020-12-03T19:24:42Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。