論文の概要: Sequential Editing for Lifelong Training of Speech Recognition Models
- arxiv url: http://arxiv.org/abs/2406.17935v1
- Date: Tue, 25 Jun 2024 20:52:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-27 15:17:27.263055
- Title: Sequential Editing for Lifelong Training of Speech Recognition Models
- Title(参考訳): 音声認識モデルの生涯学習のための逐次編集
- Authors: Devang Kulshreshtha, Saket Dingliwal, Brady Houston, Nikolaos Pappas, Srikanth Ronanki,
- Abstract要約: 新しいドメインリスクにのみ焦点をあてた微調整(CF)
ASRシステムにおける新しい領域を継続的に学習するための新しい手法としてシーケンスモデル編集を提案する。
本研究は,最大15%の単語誤り率削減(WERR)を微調整ベースライン上で実現し,CommonVoice English Multi-accent データセット上での他のLLL手法よりも優れた効率性を示した。
- 参考スコア(独自算出の注目度): 10.770491329674401
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic Speech Recognition (ASR) traditionally assumes known domains, but adding data from a new domain raises concerns about computational inefficiencies linked to retraining models on both existing and new domains. Fine-tuning solely on new domain risks Catastrophic Forgetting (CF). To address this, Lifelong Learning (LLL) algorithms have been proposed for ASR. Prior research has explored techniques such as Elastic Weight Consolidation, Knowledge Distillation, and Replay, all of which necessitate either additional parameters or access to prior domain data. We propose Sequential Model Editing as a novel method to continually learn new domains in ASR systems. Different than previous methods, our approach does not necessitate access to prior datasets or the introduction of extra parameters. Our study demonstrates up to 15% Word Error Rate Reduction (WERR) over fine-tuning baseline, and superior efficiency over other LLL techniques on CommonVoice English multi-accent dataset.
- Abstract(参考訳): 音声認識(ASR)は従来、既知のドメインを前提としていたが、新しいドメインからのデータを追加することで、既存のドメインと新しいドメインの両方で再トレーニングモデルに関連する計算の非効率性に関する懸念が高まる。
新しいドメインにのみ焦点を合わせると、破滅的投機(CF)のリスクが生じる。
これを解決するために、生涯学習(LLL)アルゴリズムがASR向けに提案されている。
従来の研究では、Elastic Weight Consolidation、Knowledge Distillation、Replayといったテクニックが検討されている。
ASRシステムにおける新しい領域を継続的に学習するための新しい手法としてシーケンスモデル編集を提案する。
従来の手法と異なり,従来のデータセットへのアクセスや余分なパラメータの導入は不要である。
本研究は,最大15%の単語誤り率削減(WERR)を微調整ベースライン上で実現し,CommonVoice English Multi-accent データセット上での他のLLL手法よりも優れた効率性を示した。
関連論文リスト
- Understanding the Cross-Domain Capabilities of Video-Based Few-Shot Action Recognition Models [3.072340427031969]
Few-shot Action Recognition (FSAR) は、ビデオ中の新しいアクションをわずかに例を使って識別できるモデルを学ぶことを目的としている。
メタトレーニング中に見られるベースデータセットと評価に使用される新しいデータセットは、異なるドメインから得ることができると仮定すると、クロスドメインの少数ショット学習によってデータ収集とアノテーションコストが軽減される。
我々は、新しいクロスドメインタスクに対して、既存の最先端の単一ドメイン、転送ベース、およびクロスドメインFSARメソッドを体系的に評価する。
論文 参考訳(メタデータ) (2024-06-03T07:48:18Z) - Continuously Learning New Words in Automatic Speech Recognition [56.972851337263755]
本稿では,新たな単語認識のための自己教師付き連続学習手法を提案する。
過去の研究から,メモリ拡張型自動音声認識モデルを用いた。
提案手法により,新たな単語の出現頻度が高くなると,新たな単語のパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2024-01-09T10:39:17Z) - Forgetting before Learning: Utilizing Parametric Arithmetic for
Knowledge Updating in Large Language Models [53.52344131257681]
本稿では,F-Learningと呼ばれるファインチューニングのための新しいパラダイムを提案する。これはパラメトリック算術を用いて,古い知識の忘れと新しい知識の学習を容易にする。
2つの公開データセットによる実験結果から、提案したFラーニングは、完全な微調整とLoRA微調整の両方の知識更新性能を向上させることが明らかに示されている。
論文 参考訳(メタデータ) (2023-11-14T09:12:40Z) - On Generalizing Beyond Domains in Cross-Domain Continual Learning [91.56748415975683]
ディープニューラルネットワークは、新しいタスクを学んだ後、これまで学んだ知識の破滅的な忘れ込みに悩まされることが多い。
提案手法は、ドメインシフト中の新しいタスクを精度良く学習することで、DomainNetやOfficeHomeといった挑戦的なデータセットで最大10%向上する。
論文 参考訳(メタデータ) (2022-03-08T09:57:48Z) - Hyperparameter-free Continuous Learning for Domain Classification in
Natural Language Understanding [60.226644697970116]
ドメイン分類は自然言語理解(NLU)の基本課題である
既存の継続的な学習アプローチの多くは、低い精度とパフォーマンスの変動に悩まされている。
本研究では,テキストデータに対するパラメータフリー連続学習モデルを提案する。
論文 参考訳(メタデータ) (2022-01-05T02:46:16Z) - TSDAE: Using Transformer-based Sequential Denoising Auto-Encoder for
Unsupervised Sentence Embedding Learning [53.32740707197856]
TSDAE(Sequential Denoising Auto-Encoder)を用いた最新の非監視方式を提案する。
ドメイン内の監視されたアプローチのパフォーマンスの93.1%を達成することができる。
論文 参考訳(メタデータ) (2021-04-14T17:02:18Z) - Flexible deep transfer learning by separate feature embeddings and
manifold alignment [0.0]
オブジェクト認識は、業界と防衛において重要な存在である。
残念ながら、既存のラベル付きデータセットでトレーニングされたアルゴリズムは、データ分布が一致しないため、直接新しいデータに一般化しない。
本稿では,各領域の特徴抽出を個別に学習することで,この制限を克服する新しいディープラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2020-12-22T19:24:44Z) - Continual Learning for Natural Language Generation in Task-oriented
Dialog Systems [72.92029584113676]
自然言語生成(NLG)はタスク指向対話システムにおいて重要な要素である。
我々は,NLGの知識を新たなドメインや機能に段階的に拡張する"継続的学習"環境で研究する。
この目標に対する大きな課題は、破滅的な忘れことであり、継続的に訓練されたモデルは、以前に学んだ知識を忘れがちである。
論文 参考訳(メタデータ) (2020-10-02T10:32:29Z) - Data Techniques For Online End-to-end Speech Recognition [17.621967685914587]
ドメイン内データに制限があるため、多くの場合、新しいユースケースのためのASRシステムを短時間で構築する必要がある。
最近開発されたエンドツーエンドのメソッドは、モデリングパイプラインを大いに単純化するが、それでもデータ空間の問題に悩まされている。
本稿では,オンラインASRシステムをエンド・ツー・エンドで構築するための簡単な実装手法について検討する。
論文 参考訳(メタデータ) (2020-01-24T22:59:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。