論文の概要: Continuously Learning New Words in Automatic Speech Recognition
- arxiv url: http://arxiv.org/abs/2401.04482v2
- Date: Wed, 17 Jul 2024 13:01:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-18 22:48:58.219857
- Title: Continuously Learning New Words in Automatic Speech Recognition
- Title(参考訳): 音声認識における新しい単語の連続学習
- Authors: Christian Huber, Alexander Waibel,
- Abstract要約: 本稿では,新たな単語認識のための自己教師付き連続学習手法を提案する。
過去の研究から,メモリ拡張型自動音声認識モデルを用いた。
提案手法により,新たな単語の出現頻度が高くなると,新たな単語のパフォーマンスが向上することを示す。
- 参考スコア(独自算出の注目度): 56.972851337263755
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Despite recent advances, Automatic Speech Recognition (ASR) systems are still far from perfect. Typical errors include acronyms, named entities and domain-specific special words for which little or no data is available. To address the problem of recognizing these words, we propose an self-supervised continual learning approach. Given the audio of a lecture talk with corresponding slides, we bias the model towards decoding new words from the slides by using a memory-enhanced ASR model from previous work. Then, we perform inference on the talk, collecting utterances that contain detected new words into an adaptation dataset. Continual learning is then performed on this set by adapting low-rank matrix weights added to each weight matrix of the model. The whole procedure is iterated for many talks. We show that with this approach, we obtain increasing performance on the new words when they occur more frequently (more than 80% recall) while preserving the general performance of the model.
- Abstract(参考訳): 最近の進歩にもかかわらず、自動音声認識(ASR)システムはまだ完璧には程遠い。
典型的なエラーには、頭字語、名前付きエンティティ、ほとんどまたは全くデータがないドメイン固有の特別な単語が含まれる。
本稿では,これらの単語認識の問題に対処するため,自己教師付き連続学習手法を提案する。
講演の音声とそれに対応するスライドを考慮に入れた上で,従来の記憶強調型ASRモデルを用いて,スライドから新たな単語を復号化するためのモデルに偏りがある。
そこで本研究では,新たに検出した単語を含む発話を適応データセットに収集する。
次に、モデルの各重み行列に付加される低ランク行列重みを適応させることにより、この集合上で連続的な学習を行う。
手順はすべて、多くの講演のために繰り返します。
提案手法により,モデル全体の性能を保ちながら,より頻度が高く(80%以上のリコール)新たな単語に対する性能向上が得られることを示す。
関連論文リスト
- Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
本稿では,ペア音声とテキストコーパスを使わずにASRシステムを開発するという課題に取り組む。
音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。
この革新的なモデルは、レキシコンフリー環境下での以前の教師なしASRモデルの性能を上回る。
論文 参考訳(メタデータ) (2024-06-12T16:30:58Z) - Improved Contextual Recognition In Automatic Speech Recognition Systems
By Semantic Lattice Rescoring [4.819085609772069]
本稿では,意味的格子処理によるASRシステム内における文脈認識の高度化のための新しい手法を提案する。
提案手法は,隠れマルコフモデルとガウス混合モデル(HMM-GMM)とディープニューラルネットワーク(DNN)モデルを用いて,精度を向上する。
本稿では,実験分析によるLibriSpeechデータセット上でのフレームワークの有効性を示す。
論文 参考訳(メタデータ) (2023-10-14T23:16:05Z) - The Gift of Feedback: Improving ASR Model Quality by Learning from User
Corrections through Federated Learning [20.643270151774182]
フェデレートラーニング(FL)を通じてデバイス上でのユーザ修正から継続的に学習することを目指す。
我々は、モデルがこれまで遭遇していなかった新しい用語をターゲットとして、長い尾の単語を学習し、破滅的な忘れ事をする手法を探究する。
実験により,提案手法は,言語分布全体の品質を保ちながら,新しい用語のモデル認識を改善することが確認された。
論文 参考訳(メタデータ) (2023-09-29T21:04:10Z) - Online Continual Learning of End-to-End Speech Recognition Models [29.931427687979532]
継続的な学習は、新しいデータから学び続けることを目的としています。
オンライン連続学習と選択的サンプリング戦略により,モデルをスクラッチから再学習するのと同様の精度を維持できることを示す。
論文 参考訳(メタデータ) (2022-07-11T05:35:06Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Short-Term Word-Learning in a Dynamically Changing Environment [63.025297637716534]
本稿では、単語/フレーズメモリと、このメモリにアクセスして単語やフレーズを正しく認識するためのメカニズムを用いて、エンドツーエンドのASRシステムを補完する方法を示す。
誤報がわずかに増加しただけで, 単語の検出速度が大幅に向上した。
論文 参考訳(メタデータ) (2022-03-29T10:05:39Z) - Instant One-Shot Word-Learning for Context-Specific Neural
Sequence-to-Sequence Speech Recognition [62.997667081978825]
本稿では、単語/フレーズメモリと、このメモリにアクセスして単語やフレーズを正しく認識する機構を備えたエンドツーエンドのASRシステムを提案する。
本稿では,この機構により,これまで認識できなかった単語の85%以上を認識できることを示す。
論文 参考訳(メタデータ) (2021-07-05T21:08:34Z) - Meta-Learning with Variational Semantic Memory for Word Sense
Disambiguation [56.830395467247016]
メタ学習環境におけるWSDのセマンティックメモリモデルを提案する。
我々のモデルは階層的変動推論に基づいており、ハイパーネットワークを介して適応的なメモリ更新ルールを組み込んでいる。
極めて少ないシナリオでの効果的な学習を支援するために,本モデルがWSDで最先端の技術を数ショットで実現していることを示す。
論文 参考訳(メタデータ) (2021-06-05T20:40:01Z) - Improving Proper Noun Recognition in End-to-End ASR By Customization of
the MWER Loss Criterion [33.043533068435366]
固有名詞は、エンドツーエンド(E2E)自動音声認識(ASR)システムに挑戦する。
従来のASRとは異なり、E2Eシステムは、固有名詞の発音で特別に訓練できる明示的な発音モデルを持たない。
本稿では, 単語誤り率(MWER)訓練の最近の進歩を基盤として, 固有名詞認識を特に重視する2つの新しい損失基準を開発する。
論文 参考訳(メタデータ) (2020-05-19T21:10:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。