論文の概要: Emphasizing Unseen Words: New Vocabulary Acquisition for End-to-End
Speech Recognition
- arxiv url: http://arxiv.org/abs/2302.09723v2
- Date: Tue, 21 Feb 2023 09:44:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-22 11:32:22.021966
- Title: Emphasizing Unseen Words: New Vocabulary Acquisition for End-to-End
Speech Recognition
- Title(参考訳): 未知語を強調する:エンドツーエンド音声認識のための新しい語彙獲得
- Authors: Leyuan Qu, Cornelius Weber and Stefan Wermter
- Abstract要約: トレンディングワードや新しい名前を持つエンティティなど、Of-Vocabulary以外の単語は、現代のASRシステムに問題を引き起こす。
我々は,テキスト音声システムを用いてOOV語を生成することを提案し,損失を再スケールすることで,ニューラルネットワークがOOV語により多くの注意を払うことを奨励する。
- 参考スコア(独自算出の注目度): 21.61242091927018
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to the dynamic nature of human language, automatic speech recognition
(ASR) systems need to continuously acquire new vocabulary. Out-Of-Vocabulary
(OOV) words, such as trending words and new named entities, pose problems to
modern ASR systems that require long training times to adapt their large
numbers of parameters. Different from most previous research focusing on
language model post-processing, we tackle this problem on an earlier processing
level and eliminate the bias in acoustic modeling to recognize OOV words
acoustically. We propose to generate OOV words using text-to-speech systems and
to rescale losses to encourage neural networks to pay more attention to OOV
words. Specifically, we enlarge the classification loss used for training
neural networks' parameters of utterances containing OOV words
(sentence-level), or rescale the gradient used for back-propagation for OOV
words (word-level), when fine-tuning a previously trained model on synthetic
audio. To overcome catastrophic forgetting, we also explore the combination of
loss rescaling and model regularization, i.e. L2 regularization and elastic
weight consolidation (EWC). Compared with previous methods that just fine-tune
synthetic audio with EWC, the experimental results on the LibriSpeech benchmark
reveal that our proposed loss rescaling approach can achieve significant
improvement on the recall rate with only a slight decrease on word error rate.
Moreover, word-level rescaling is more stable than utterance-level rescaling
and leads to higher recall rates and precision on OOV word recognition.
Furthermore, our proposed combined loss rescaling and weight consolidation
methods can support continual learning of an ASR system.
- Abstract(参考訳): ヒト言語の動的な性質のため、自動音声認識(ASR)システムは新たな語彙を継続的に取得する必要がある。
トレンディングワードや新しい名前を持つエンティティなどのOf-Vocabulary(OOV)ワードは、多数のパラメータを適応するために長いトレーニング時間を必要とする現代のASRシステムに問題を引き起こす。
言語モデル後処理に焦点をあてたこれまでの研究とは違って、より早い処理レベルでこの問題に取り組み、音響モデリングにおけるバイアスを排除し、OOV単語を音響的に認識する。
我々は,テキスト音声システムを用いてOOV語を生成することを提案し,損失を再スケールすることで,ニューラルネットワークがOOV語により多くの注意を払うことを奨励する。
具体的には、これまでに訓練された合成音声モデルにおいて、OV単語(文レベル)を含む発話のニューラルネットワークのパラメータのトレーニングや、OOV単語(語レベル)のバックプロパゲーションに使用される勾配の再スケールに使用する分類損失を拡大する。
また, 損失再スケーリングとモデル正規化(L2正則化と弾性重み強化(EWC))の組み合わせについても検討した。
合成音声をEWCで微調整する従来の手法と比較して,提案手法による損失再スケーリング手法は,単語誤り率をわずかに低下させるだけで,リコール率を大幅に向上できることを示した。
さらに、単語レベルの再スケーリングは発話レベルの再スケーリングよりも安定しており、OOVワード認識におけるリコール率と精度が向上する。
さらに,ASRシステムの継続学習を支援するために,損失再スケーリングと重み強化を組み合わせた手法を提案する。
関連論文リスト
- Improving Neural Biasing for Contextual Speech Recognition by Early Context Injection and Text Perturbation [27.057810339120664]
文脈認識型ASRモデルを改善するための2つの手法を提案する。
LibriSpeechでは, バイアスや浅い融合に比べて, 単語誤り率を60%, 25%削減する。
SPGISpeechと実世界のデータセットConECでは、ベースラインよりも優れた改善が得られます。
論文 参考訳(メタデータ) (2024-07-14T19:32:33Z) - Continuously Learning New Words in Automatic Speech Recognition [56.972851337263755]
本稿では,新たな単語認識のための自己教師付き連続学習手法を提案する。
過去の研究から,メモリ拡張型自動音声認識モデルを用いた。
提案手法により,新たな単語の出現頻度が高くなると,新たな単語のパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2024-01-09T10:39:17Z) - Improved Contextual Recognition In Automatic Speech Recognition Systems
By Semantic Lattice Rescoring [4.819085609772069]
本稿では,意味的格子処理によるASRシステム内における文脈認識の高度化のための新しい手法を提案する。
提案手法は,隠れマルコフモデルとガウス混合モデル(HMM-GMM)とディープニューラルネットワーク(DNN)モデルを用いて,精度を向上する。
本稿では,実験分析によるLibriSpeechデータセット上でのフレームワークの有効性を示す。
論文 参考訳(メタデータ) (2023-10-14T23:16:05Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Surrogate Gradient Spiking Neural Networks as Encoders for Large
Vocabulary Continuous Speech Recognition [91.39701446828144]
スパイクニューラルネットワークは, 代理勾配法を用いて, 通常のリカレントニューラルネットワークのように訓練可能であることを示す。
彼らは音声コマンド認識タスクについて有望な結果を示した。
繰り返し発生する非スパイキングとは対照的に、ゲートを使わずに爆発する勾配問題に対して堅牢性を示す。
論文 参考訳(メタデータ) (2022-12-01T12:36:26Z) - Context-based out-of-vocabulary word recovery for ASR systems in Indian
languages [5.930734371401316]
本稿では,文脈に基づくOOV回収の性能向上のための後処理手法を提案する。
提案するコスト関数の有効性は,単語レベルと文レベルの両方で評価する。
論文 参考訳(メタデータ) (2022-06-09T06:51:31Z) - Short-Term Word-Learning in a Dynamically Changing Environment [63.025297637716534]
本稿では、単語/フレーズメモリと、このメモリにアクセスして単語やフレーズを正しく認識するためのメカニズムを用いて、エンドツーエンドのASRシステムを補完する方法を示す。
誤報がわずかに増加しただけで, 単語の検出速度が大幅に向上した。
論文 参考訳(メタデータ) (2022-03-29T10:05:39Z) - Frequency-Aware Contrastive Learning for Neural Machine Translation [24.336356651877388]
低周波ワード予測は、現代のニューラルマシン翻訳(NMT)システムにおいて依然として課題である。
低周波単語がよりコンパクトな埋め込み空間を形成するという観察に触発されて、表現学習の観点からこの問題に取り組む。
本稿では,各復号ステップの隠蔽状態を他のターゲット語から押し出す,周波数対応のトークンレベルのコントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2021-12-29T10:10:10Z) - Discretization and Re-synthesis: an alternative method to solve the
Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。
具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。
離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文 参考訳(メタデータ) (2021-12-17T08:35:40Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。