論文の概要: Continual learning using lattice-free MMI for speech recognition
- arxiv url: http://arxiv.org/abs/2110.07055v1
- Date: Wed, 13 Oct 2021 22:11:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-16 07:27:28.248786
- Title: Continual learning using lattice-free MMI for speech recognition
- Title(参考訳): 格子フリーMMIを用いた連続学習による音声認識
- Authors: Hossein Hadian and Arseniy Gorin
- Abstract要約: 連続学習(CL)または領域拡張(ドメイン拡張)は、自動音声認識(ASR)音響モデリングにおいて一般的なトピックである。
格子フリー最大相互情報(LF-MMI)基準で学習したニューラルネットワーク音響モデルの正規化に基づくCLを提案する。
シーケンスレベルのLWFは、通常のLWFと比較して、全ドメインの平均単語誤り率を最大9.4%向上させることができることを示す。
- 参考スコア(独自算出の注目度): 6.802401545890963
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Continual learning (CL), or domain expansion, recently became a popular topic
for automatic speech recognition (ASR) acoustic modeling because practical
systems have to be updated frequently in order to work robustly on types of
speech not observed during initial training. While sequential adaptation allows
tuning a system to a new domain, it may result in performance degradation on
the old domains due to catastrophic forgetting. In this work we explore
regularization-based CL for neural network acoustic models trained with the
lattice-free maximum mutual information (LF-MMI) criterion. We simulate domain
expansion by incrementally adapting the acoustic model on different public
datasets that include several accents and speaking styles. We investigate two
well-known CL techniques, elastic weight consolidation (EWC) and learning
without forgetting (LWF), which aim to reduce forgetting by preserving model
weights or network outputs. We additionally introduce a sequence-level LWF
regularization, which exploits posteriors from the denominator graph of LF-MMI
to further reduce forgetting. Empirical results show that the proposed
sequence-level LWF can improve the best average word error rate across all
domains by up to 9.4% relative compared with using regular LWF.
- Abstract(参考訳): 連続学習(CL)やドメイン拡張(ドメイン拡張)は、初期訓練中に観察されていない音声の種類に頑健に取り組むためには、実用的なシステムが頻繁に更新される必要があるため、近年、自動音声認識(ASR)音響モデリングの話題となっている。
シーケンシャル適応はシステムを新しいドメインにチューニングすることを可能にするが、壊滅的な忘れによって古いドメインのパフォーマンスが低下する可能性がある。
本研究では,格子フリー最大相互情報(LF-MMI)によるニューラルネットワーク音響モデルの正規化に基づくCLについて検討する。
複数のアクセントやスピーキングスタイルを含む、さまざまなパブリックデータセットに音響モデルを段階的に適応させることで、ドメイン拡張をシミュレートする。
モデル重みやネットワーク出力の保存による忘れを少なくすることを目的とした2つのよく知られたCL手法、弾性重み付け(EWC)と学習(LWF)について検討する。
さらに、LF-MMIの分母グラフから後部を活用できるシーケンスレベルのLWF正規化を導入し、さらに忘れを減らした。
実験の結果,提案したシーケンスレベルのLWFは,通常のLWFと比較して,全ドメインの平均単語誤り率を最大9.4%向上できることがわかった。
関連論文リスト
- It's Never Too Late: Fusing Acoustic Information into Large Language
Models for Automatic Speech Recognition [70.77292069313154]
大規模言語モデル(LLM)は、自動音声認識(ASR)出力の上の生成誤り訂正(GER)に成功することができる。
本研究では,不確実性認識ダイナミックフュージョン (UADF) と呼ばれる新しい遅延融合解によって予測された転写を生成する前に,音響情報を注入することにより,そのような制限を克服することを目的とする。
論文 参考訳(メタデータ) (2024-02-08T07:21:45Z) - Ensemble Kalman Filtering Meets Gaussian Process SSM for Non-Mean-Field
and Online Inference [50.91823345296243]
我々は,非平均場(NMF)変動推定フレームワークにアンサンブルカルマンフィルタ(EnKF)を導入し,潜在状態の後方分布を近似する。
EnKFとGPSSMのこの新しい結婚は、変分分布の学習における広範なパラメータ化の必要性をなくすだけでなく、エビデンスの下限(ELBO)の解釈可能でクローズドな近似を可能にする。
得られたEnKF支援オンラインアルゴリズムは、データ適合精度を確保しつつ、モデル正規化を組み込んで過度適合を緩和し、目的関数を具現化する。
論文 参考訳(メタデータ) (2023-12-10T15:22:30Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - CLIPood: Generalizing CLIP to Out-of-Distributions [73.86353105017076]
対照的に、CLIP(Language-image Pre-training)モデルでは、印象的なゼロショット能力を示しているが、下流タスクにおけるCLIPのさらなる適応は、OODのパフォーマンスを好ましくない劣化させる。
ドメインシフトとオープンクラスの両方が見えないテストデータ上で発生する可能性があるOOD状況にCLIPモデルを適用するための微調整手法であるCLIPoodを提案する。
さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-02T04:27:54Z) - Adaptive Memory Networks with Self-supervised Learning for Unsupervised
Anomaly Detection [54.76993389109327]
教師なし異常検出は、通常のデータのみをトレーニングすることで、目に見えない異常を検出するモデルを構築することを目的としている。
本稿では,これらの課題に対処するために,自己教師付き学習(AMSL)を用いた適応記憶ネットワーク(Adaptive Memory Network)を提案する。
AMSLには、一般的な正規パターンを学ぶための自己教師付き学習モジュールと、リッチな特徴表現を学ぶための適応型メモリ融合モジュールが組み込まれている。
論文 参考訳(メタデータ) (2022-01-03T03:40:21Z) - A Mixture of Expert Based Deep Neural Network for Improved ASR [4.993304210475779]
MixNetは、音声認識(ASR)における音響モデルのための新しいディープラーニングアーキテクチャである
自然言語では、異なる音響クラスにまたがる分布の重複は避けられないため、クラス間の誤分類につながる。
提案手法は,単語誤り率の13.6%と10.0%を相対的に削減できることを示す。
論文 参考訳(メタデータ) (2021-12-02T07:26:34Z) - A Correspondence Variational Autoencoder for Unsupervised Acoustic Word
Embeddings [50.524054820564395]
そこで本稿では,変数分割音声セグメントを固定次元表現にマッピングするための教師なしモデルを提案する。
結果として得られる音響単語の埋め込みは、低リソース言語とゼロリソース言語のための検索、発見、インデックスシステムの基礎を形成することができる。
論文 参考訳(メタデータ) (2020-12-03T19:24:42Z) - Generalized Variational Continual Learning [33.194866396158005]
継続的学習の主なアプローチは、オンラインのElastic Weight Consolidationと変分連続学習である。
この修正により、オンラインEWCを制限ケースとして緩和し、2つのアプローチ間のベースラインを確保できることを示す。
VIのオーバープルーニング効果を観測するために、共通マルチタスクアーキテクチャからインスピレーションを得て、タスク固有のFiLM層によるニューラルネットワークを緩和する。
論文 参考訳(メタデータ) (2020-11-24T19:07:39Z) - Frequency-based Automated Modulation Classification in the Presence of
Adversaries [17.930854969511046]
本稿では、転送可能な対角干渉に耐えられるディープラーニングモデルからなる新しい受信アーキテクチャを提案する。
本研究では、リカレントニューラルネットワーク(RNN)では30%以上、畳み込みニューラルネットワーク(CNN)では50%以上の性能向上を示す。
論文 参考訳(メタデータ) (2020-11-02T17:12:22Z) - A Convolutional Deep Markov Model for Unsupervised Speech Representation
Learning [32.59760685342343]
確率的潜在変数モデルは、音声からの言語表現学習のための自己教師付き学習アプローチの代替を提供する。
本研究では,深いニューラルネットワークによってモデル化された非線形放出と遷移関数を持つガウス状態空間モデルであるConvDMMを提案する。
大規模音声データセット(LibriSpeech)で訓練すると、ConvDMMは複数の自己教師付き特徴抽出法よりもはるかに優れた特徴を生成する。
論文 参考訳(メタデータ) (2020-06-03T21:50:20Z) - Early Stage LM Integration Using Local and Global Log-Linear Combination [46.91755970827846]
暗黙のアライメント機構を持つシーケンス対シーケンスモデル(例えば注意)は、従来のハイブリッド隠れマルコフモデル(HMM)に対するパフォーマンスギャップを埋めている。
両方のケースで単語エラー率を改善する重要な要因は、大きなテキストのみのコーパスでトレーニングされた外部言語モデル(LM)を使用することである。
暗黙アライメントに基づくシーケンス・ツー・シーケンスモデルに言語モデルを統合する新しい手法を提案する。
論文 参考訳(メタデータ) (2020-05-20T13:49:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。