論文の概要: Continuously Learning New Words in Automatic Speech Recognition
- arxiv url: http://arxiv.org/abs/2401.04482v2
- Date: Wed, 17 Jul 2024 13:01:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-18 22:48:58.219857
- Title: Continuously Learning New Words in Automatic Speech Recognition
- Title(参考訳): 音声認識における新しい単語の連続学習
- Authors: Christian Huber, Alexander Waibel,
- Abstract要約: 本稿では,新たな単語認識のための自己教師付き連続学習手法を提案する。
過去の研究から,メモリ拡張型自動音声認識モデルを用いた。
提案手法により,新たな単語の出現頻度が高くなると,新たな単語のパフォーマンスが向上することを示す。
- 参考スコア(独自算出の注目度): 56.972851337263755
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Despite recent advances, Automatic Speech Recognition (ASR) systems are still far from perfect. Typical errors include acronyms, named entities and domain-specific special words for which little or no data is available. To address the problem of recognizing these words, we propose an self-supervised continual learning approach. Given the audio of a lecture talk with corresponding slides, we bias the model towards decoding new words from the slides by using a memory-enhanced ASR model from previous work. Then, we perform inference on the talk, collecting utterances that contain detected new words into an adaptation dataset. Continual learning is then performed on this set by adapting low-rank matrix weights added to each weight matrix of the model. The whole procedure is iterated for many talks. We show that with this approach, we obtain increasing performance on the new words when they occur more frequently (more than 80% recall) while preserving the general performance of the model.
- Abstract(参考訳): 最近の進歩にもかかわらず、自動音声認識(ASR)システムはまだ完璧には程遠い。
典型的なエラーには、頭字語、名前付きエンティティ、ほとんどまたは全くデータがないドメイン固有の特別な単語が含まれる。
本稿では,これらの単語認識の問題に対処するため,自己教師付き連続学習手法を提案する。
講演の音声とそれに対応するスライドを考慮に入れた上で,従来の記憶強調型ASRモデルを用いて,スライドから新たな単語を復号化するためのモデルに偏りがある。
そこで本研究では,新たに検出した単語を含む発話を適応データセットに収集する。
次に、モデルの各重み行列に付加される低ランク行列重みを適応させることにより、この集合上で連続的な学習を行う。
手順はすべて、多くの講演のために繰り返します。
提案手法により,モデル全体の性能を保ちながら,より頻度が高く(80%以上のリコール)新たな単語に対する性能向上が得られることを示す。
関連論文リスト
- To Each (Textual Sequence) Its Own: Improving Memorized-Data Unlearning in Large Language Models [3.4990427823966828]
LLMは、テキスト生成期間中に、トレーニングされたテキストシーケンスを記憶し、動詞の入力シーケンスを退避させる。
この事実は、プライバシーと関連する問題(例えば、著作権)の原因として知られている。
LLMのアンラーニングは、これらの副作用に適切に対処する新しいアルゴリズムを考案する形で行われる。
論文 参考訳(メタデータ) (2024-05-06T01:21:50Z) - Self-consistent context aware conformer transducer for speech recognition [0.06008132390640294]
ニューラルネットワークアーキテクチャにおいて、再帰的なデータフローを順応的に処理する新しいニューラルネットワークモジュールを導入する。
本手法は, 単語誤り率に悪影響を及ぼすことなく, 稀な単語の認識精度を向上させる。
その結果,両手法の組み合わせにより,まれな単語を最大4.5倍の精度で検出できることが判明した。
論文 参考訳(メタデータ) (2024-02-09T18:12:11Z) - Improved Contextual Recognition In Automatic Speech Recognition Systems
By Semantic Lattice Rescoring [4.819085609772069]
本稿では,意味的格子処理によるASRシステム内における文脈認識の高度化のための新しい手法を提案する。
提案手法は,隠れマルコフモデルとガウス混合モデル(HMM-GMM)とディープニューラルネットワーク(DNN)モデルを用いて,精度を向上する。
本稿では,実験分析によるLibriSpeechデータセット上でのフレームワークの有効性を示す。
論文 参考訳(メタデータ) (2023-10-14T23:16:05Z) - Evolving Dictionary Representation for Few-shot Class-incremental
Learning [34.887690018011675]
数発クラス増分学習(FSCIL)という,挑戦的で実践的な連続学習シナリオに取り組む。
FSCILでは、ラベル付きデータはベースセッションでクラスに対して与えられるが、新しいインクリメンタルクラスでは非常に限定されたラベル付きインスタンスが利用できる。
本稿では,辞書学習と視覚表現学習を組み合わせたハイブリッド学習アーキテクチャであるディープ辞書学習を提案する。
論文 参考訳(メタデータ) (2023-05-03T04:30:34Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Short-Term Word-Learning in a Dynamically Changing Environment [63.025297637716534]
本稿では、単語/フレーズメモリと、このメモリにアクセスして単語やフレーズを正しく認識するためのメカニズムを用いて、エンドツーエンドのASRシステムを補完する方法を示す。
誤報がわずかに増加しただけで, 単語の検出速度が大幅に向上した。
論文 参考訳(メタデータ) (2022-03-29T10:05:39Z) - Self-supervised Learning with Random-projection Quantizer for Speech
Recognition [51.24368930992091]
音声認識のためのシンプルで効果的な自己教師型学習手法を提案する。
このアプローチは、離散ラベルの形で、マスキングされた音声信号を予測するモデルを学ぶ。
非ストリーミングモデルを用いた自己教師付き学習を用いて、従来の作業と同じような単語エラー率を達成する。
論文 参考訳(メタデータ) (2022-02-03T21:29:04Z) - Instant One-Shot Word-Learning for Context-Specific Neural
Sequence-to-Sequence Speech Recognition [62.997667081978825]
本稿では、単語/フレーズメモリと、このメモリにアクセスして単語やフレーズを正しく認識する機構を備えたエンドツーエンドのASRシステムを提案する。
本稿では,この機構により,これまで認識できなかった単語の85%以上を認識できることを示す。
論文 参考訳(メタデータ) (2021-07-05T21:08:34Z) - Meta-Learning with Variational Semantic Memory for Word Sense
Disambiguation [56.830395467247016]
メタ学習環境におけるWSDのセマンティックメモリモデルを提案する。
我々のモデルは階層的変動推論に基づいており、ハイパーネットワークを介して適応的なメモリ更新ルールを組み込んでいる。
極めて少ないシナリオでの効果的な学習を支援するために,本モデルがWSDで最先端の技術を数ショットで実現していることを示す。
論文 参考訳(メタデータ) (2021-06-05T20:40:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。