論文の概要: Keyword-Guided Adaptation of Automatic Speech Recognition
- arxiv url: http://arxiv.org/abs/2406.02649v1
- Date: Tue, 4 Jun 2024 14:20:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 23:19:06.898478
- Title: Keyword-Guided Adaptation of Automatic Speech Recognition
- Title(参考訳): キーワード誘導による音声認識の適応
- Authors: Aviv Shamsian, Aviv Navon, Neta Glazer, Gill Hetz, Joseph Keshet,
- Abstract要約: 本稿では,Whisper ベースモデルを用いた文脈バイアスによる単語認識の改良手法を提案する。
本稿では,Whisperエンコーダ表現を利用したキーワードスポッティングモデルを用いて,書き起こし処理中にデコーダを誘導するプロンプトを動的に生成する。
その結果,特定のキーワードの認識精度が向上し,全体的な単語誤り率の低減が図られた。
- 参考スコア(独自算出の注目度): 17.011087631073863
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic Speech Recognition (ASR) technology has made significant progress in recent years, providing accurate transcription across various domains. However, some challenges remain, especially in noisy environments and specialized jargon. In this paper, we propose a novel approach for improved jargon word recognition by contextual biasing Whisper-based models. We employ a keyword spotting model that leverages the Whisper encoder representation to dynamically generate prompts for guiding the decoder during the transcription process. We introduce two approaches to effectively steer the decoder towards these prompts: KG-Whisper, which is aimed at fine-tuning the Whisper decoder, and KG-Whisper-PT, which learns a prompt prefix. Our results show a significant improvement in the recognition accuracy of specified keywords and in reducing the overall word error rates. Specifically, in unseen language generalization, we demonstrate an average WER improvement of 5.1% over Whisper.
- Abstract(参考訳): 音声認識(ASR)技術は近年大きく進歩し、様々な領域に正確に転写されている。
しかし、特にノイズの多い環境や専門用語では、いくつかの課題が残っている。
本稿では,Whisper ベースモデルを用いた文脈偏見による単語認識の改良手法を提案する。
本稿では,Whisperエンコーダ表現を利用したキーワードスポッティングモデルを用いて,書き起こし処理中にデコーダを誘導するプロンプトを動的に生成する。
提案手法は,Whisperデコーダの微調整を目的としたKG-Whisperと,プリミティブプレフィックスを学習するKG-Whisper-PTである。
その結果,特定のキーワードの認識精度が向上し,全体的な単語誤り率の低減が図られた。
具体的には、目に見えない言語一般化において、Whisperよりも平均5.1%のWER改善を示す。
関連論文リスト
- Continuously Learning New Words in Automatic Speech Recognition [56.972851337263755]
本稿では,新たな単語認識のための自己教師付き連続学習手法を提案する。
過去の研究から,メモリ拡張型自動音声認識モデルを用いた。
提案手法により,新たな単語の出現頻度が高くなると,新たな単語のパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2024-01-09T10:39:17Z) - A Multitask Training Approach to Enhance Whisper with Contextual Biasing and Open-Vocabulary Keyword Spotting [14.713947276478647]
キーワードスポッティング強化Whisper(KWS-Whisper)を導入し,ユーザ定義された名前付きエンティティを認識する。
モデル最適化のために,OV-KWSとコンテキストASRタスクを学習するマルチタスク学習手法を提案する。
我々は,OV-KWS が ASR 誤り訂正法と凍結ウィスパーモデルを強化するためのプラグイン・アンド・プレイモジュールであることが実証された。
論文 参考訳(メタデータ) (2023-09-18T08:03:54Z) - Open-vocabulary Keyword-spotting with Adaptive Instance Normalization [18.250276540068047]
本稿では,キーワード条件付き正規化パラメータを出力するためにテキストエンコーダを訓練するキーワードスポッティングの新しい手法であるAdaKWSを提案する。
近年のキーワードスポッティングやASRベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-09-13T13:49:42Z) - Introducing Semantics into Speech Encoders [91.37001512418111]
本研究では,大言語モデルからの意味情報をラベル付き音声書き起こしのない自己教師付き音声エンコーダに組み込む教師なしの手法を提案する。
提案手法は,100時間以上のラベル付き音声書き起こしにおける教師あり手法と類似した性能を実現する。
論文 参考訳(メタデータ) (2022-11-15T18:44:28Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - Short-Term Word-Learning in a Dynamically Changing Environment [63.025297637716534]
本稿では、単語/フレーズメモリと、このメモリにアクセスして単語やフレーズを正しく認識するためのメカニズムを用いて、エンドツーエンドのASRシステムを補完する方法を示す。
誤報がわずかに増加しただけで, 単語の検出速度が大幅に向上した。
論文 参考訳(メタデータ) (2022-03-29T10:05:39Z) - Guided Variational Autoencoder for Speech Enhancement With a Supervised
Classifier [20.28217079480463]
本研究では,雑音音声を別々に訓練した教師付き分類器を用いて,可変オートエンコーダの導出を提案する。
推定ラベルは、音声信号を記述する高レベルなカテゴリー変数である。
本手法は,騒音環境の異なる実記録において,異なる種類のラベルを用いて評価する。
論文 参考訳(メタデータ) (2021-02-12T11:32:48Z) - High Fidelity Speech Regeneration with Application to Speech Enhancement [96.34618212590301]
本稿では,24khz音声をリアルタイムに生成できる音声のwav-to-wav生成モデルを提案する。
音声変換法に着想を得て,音源の同一性を保ちながら音声特性を増強する訓練を行った。
論文 参考訳(メタデータ) (2021-01-31T10:54:27Z) - Multi-task self-supervised learning for Robust Speech Recognition [75.11748484288229]
本稿では,雑音および残響環境下での頑健な音声認識のためのPASE+を提案する。
我々は、様々なランダムな乱れで入力信号を汚染するオンライン音声歪みモジュールを用いる。
次に,再帰型ネットワークと畳み込み型ネットワークを効率よく組み合わせて,短時間および長期の音声力学をよりよく学習する改良型エンコーダを提案する。
論文 参考訳(メタデータ) (2020-01-25T00:24:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。