論文の概要: Online Continual Learning of End-to-End Speech Recognition Models
- arxiv url: http://arxiv.org/abs/2207.05071v1
- Date: Mon, 11 Jul 2022 05:35:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-13 14:01:11.541958
- Title: Online Continual Learning of End-to-End Speech Recognition Models
- Title(参考訳): エンドツーエンド音声認識モデルのオンライン連続学習
- Authors: Muqiao Yang, Ian Lane, Shinji Watanabe
- Abstract要約: 継続的な学習は、新しいデータから学び続けることを目的としています。
オンライン連続学習と選択的サンプリング戦略により,モデルをスクラッチから再学習するのと同様の精度を維持できることを示す。
- 参考スコア(独自算出の注目度): 29.931427687979532
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Continual Learning, also known as Lifelong Learning, aims to continually
learn from new data as it becomes available. While prior research on continual
learning in automatic speech recognition has focused on the adaptation of
models across multiple different speech recognition tasks, in this paper we
propose an experimental setting for \textit{online continual learning} for
automatic speech recognition of a single task. Specifically focusing on the
case where additional training data for the same task becomes available
incrementally over time, we demonstrate the effectiveness of performing
incremental model updates to end-to-end speech recognition models with an
online Gradient Episodic Memory (GEM) method. Moreover, we show that with
online continual learning and a selective sampling strategy, we can maintain an
accuracy that is similar to retraining a model from scratch while requiring
significantly lower computation costs. We have also verified our method with
self-supervised learning (SSL) features.
- Abstract(参考訳): Lifelong Learningとしても知られるContinuous Learningは、新しいデータから継続的に学習することを目的としている。
音声認識における連続学習に関する先行研究は,複数の異なる音声認識タスクにまたがるモデルの適応に焦点が当てられているが,本稿では,単一タスクの自動音声認識のための実験的な設定法を提案する。
特に,同一課題に対する追加訓練データが時間とともに段階的に利用可能になる場合に着目し,オンライン勾配エピソディックメモリ(gem)法を用いたエンドツーエンド音声認識モデルへのインクリメンタルモデル更新の有効性を実証する。
さらに,オンライン連続学習と選択的サンプリング戦略により,計算コストを大幅に削減しながら,モデルをスクラッチから再トレーニングするのと同様の精度を維持できることを示す。
また,本手法を自己教師付き学習(ssl)機能で検証した。
関連論文リスト
- Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。
音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。
本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文 参考訳(メタデータ) (2024-09-30T07:01:21Z) - Continuously Learning New Words in Automatic Speech Recognition [56.972851337263755]
本稿では,新たな単語認識のための自己教師付き連続学習手法を提案する。
過去の研究から,メモリ拡張型自動音声認識モデルを用いた。
提案手法により,新たな単語の出現頻度が高くなると,新たな単語のパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2024-01-09T10:39:17Z) - CSSL-MHTR: Continual Self-Supervised Learning for Scalable Multi-script Handwritten Text Recognition [16.987008461171065]
我々は,手書き文字認識における破滅的な忘れの問題を軽減するために,連続的な自己指導型学習の可能性を探究する。
提案手法は,各タスクにアダプタと呼ばれる中間層を追加し,現在のタスクを学習しながら,前モデルからの知識を効率的に抽出する。
私たちは英語、イタリア語、ロシア語のスクリプトで最先端のパフォーマンスを達成しましたが、タスクごとにいくつかのパラメータしか追加していません。
論文 参考訳(メタデータ) (2023-03-16T14:27:45Z) - ILASR: Privacy-Preserving Incremental Learning for AutomaticSpeech
Recognition at Production Scale [19.524894956258343]
本稿では,実運用システムのためのクラウドベースのフレームワークを用いて,自動音声認識(ILASR)のためのインクリメンタル学習のためのプライバシ保護による洞察を実証する。
提案システムでは,ヒトのアノテートラベルが欠如していても,6ヶ月の新たな期間で生産モデルを大幅に改善できることが示唆された。
論文 参考訳(メタデータ) (2022-07-19T05:24:13Z) - Lip-Listening: Mixing Senses to Understand Lips using Cross Modality
Knowledge Distillation for Word-Based Models [0.03499870393443267]
この研究は、最近の最先端の単語ベースのリリーディングモデルに基づいて、シーケンスレベルとフレームレベルの知識蒸留(KD)をシステムに統合する。
本稿では,音声音声認識システムから視覚音声認識システムへ音声認識機能を伝達する手法を提案する。
論文 参考訳(メタデータ) (2022-06-05T15:47:54Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Self-Supervised Learning for speech recognition with Intermediate layer
supervision [52.93758711230248]
自己教師付き学習(ILS-SSL)のための中間層スーパービジョンを提案する。
ILS-SSLは、中間層にSSL損失を追加することで、可能な限りコンテンツ情報に集中させます。
LibriSpeech の他のテストセットの実験により,本手法は HuBERT を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-16T10:45:05Z) - UniSpeech-SAT: Universal Speech Representation Learning with Speaker
Aware Pre-Training [72.004873454347]
教師なし話者情報抽出の2つの手法が導入された。
SUPERBベンチマークによる実験結果から,提案方式は最先端の性能を実現することが示された。
トレーニングデータセットを94万時間公開オーディオデータにスケールアップし、さらなるパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2021-10-12T05:43:30Z) - Online Continual Learning with Natural Distribution Shifts: An Empirical
Study with Visual Data [101.6195176510611]
オンライン」連続学習は、情報保持とオンライン学習の有効性の両方を評価することができる。
オンライン連続学習では、入力される各小さなデータをまずテストに使用し、次にトレーニングセットに追加し、真にオンラインにします。
本稿では,大規模かつ自然な分布変化を示すオンライン連続視覚学習のための新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2021-08-20T06:17:20Z) - Continual-wav2vec2: an Application of Continual Learning for
Self-Supervised Automatic Speech Recognition [0.23872611575805824]
自己教師付き学習(SSL)を用いた複数言語における音声表現の連続学習法を提案する。
Wav2vecモデルは、事前トレーニングフェーズで生オーディオ上でSSLを実行し、アノテートされた少数のデータに対して微調整を行う。
新しい言語タスクの事前学習を高速化するために、継続学習からのアイデアを、以前のタスクから知識を伝達するために使用します。
論文 参考訳(メタデータ) (2021-07-26T10:39:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。