論文の概要: Continual learning using lattice-free MMI for speech recognition
- arxiv url: http://arxiv.org/abs/2110.07055v1
- Date: Wed, 13 Oct 2021 22:11:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-16 07:27:28.248786
- Title: Continual learning using lattice-free MMI for speech recognition
- Title(参考訳): 格子フリーMMIを用いた連続学習による音声認識
- Authors: Hossein Hadian and Arseniy Gorin
- Abstract要約: 連続学習(CL)または領域拡張(ドメイン拡張)は、自動音声認識(ASR)音響モデリングにおいて一般的なトピックである。
格子フリー最大相互情報(LF-MMI)基準で学習したニューラルネットワーク音響モデルの正規化に基づくCLを提案する。
シーケンスレベルのLWFは、通常のLWFと比較して、全ドメインの平均単語誤り率を最大9.4%向上させることができることを示す。
- 参考スコア(独自算出の注目度): 6.802401545890963
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Continual learning (CL), or domain expansion, recently became a popular topic
for automatic speech recognition (ASR) acoustic modeling because practical
systems have to be updated frequently in order to work robustly on types of
speech not observed during initial training. While sequential adaptation allows
tuning a system to a new domain, it may result in performance degradation on
the old domains due to catastrophic forgetting. In this work we explore
regularization-based CL for neural network acoustic models trained with the
lattice-free maximum mutual information (LF-MMI) criterion. We simulate domain
expansion by incrementally adapting the acoustic model on different public
datasets that include several accents and speaking styles. We investigate two
well-known CL techniques, elastic weight consolidation (EWC) and learning
without forgetting (LWF), which aim to reduce forgetting by preserving model
weights or network outputs. We additionally introduce a sequence-level LWF
regularization, which exploits posteriors from the denominator graph of LF-MMI
to further reduce forgetting. Empirical results show that the proposed
sequence-level LWF can improve the best average word error rate across all
domains by up to 9.4% relative compared with using regular LWF.
- Abstract(参考訳): 連続学習(CL)やドメイン拡張(ドメイン拡張)は、初期訓練中に観察されていない音声の種類に頑健に取り組むためには、実用的なシステムが頻繁に更新される必要があるため、近年、自動音声認識(ASR)音響モデリングの話題となっている。
シーケンシャル適応はシステムを新しいドメインにチューニングすることを可能にするが、壊滅的な忘れによって古いドメインのパフォーマンスが低下する可能性がある。
本研究では,格子フリー最大相互情報(LF-MMI)によるニューラルネットワーク音響モデルの正規化に基づくCLについて検討する。
複数のアクセントやスピーキングスタイルを含む、さまざまなパブリックデータセットに音響モデルを段階的に適応させることで、ドメイン拡張をシミュレートする。
モデル重みやネットワーク出力の保存による忘れを少なくすることを目的とした2つのよく知られたCL手法、弾性重み付け(EWC)と学習(LWF)について検討する。
さらに、LF-MMIの分母グラフから後部を活用できるシーケンスレベルのLWF正規化を導入し、さらに忘れを減らした。
実験の結果,提案したシーケンスレベルのLWFは,通常のLWFと比較して,全ドメインの平均単語誤り率を最大9.4%向上できることがわかった。
関連論文リスト
- Recursive Learning of Asymptotic Variational Objectives [49.69399307452126]
一般状態空間モデル(英: General State-space Model, SSM)は、統計機械学習において広く用いられ、時系列データに対して最も古典的な生成モデルの一つである。
オンラインシーケンシャルIWAE(OSIWAE)は、潜在状態の推測のためのモデルパラメータとマルコフ認識モデルの両方のオンライン学習を可能にする。
このアプローチは、最近提案されたオンライン変分SMC法よりも理論的によく確立されている。
論文 参考訳(メタデータ) (2024-11-04T16:12:37Z) - LLM-TS Integrator: Integrating LLM for Enhanced Time Series Modeling [5.853711797849859]
天気予報や異常検出などの動的システムでは時系列モデリングが不可欠である。
近年,大規模言語モデル(LLM)をTSモデリングに利用し,その強力なパターン認識機能を活用している。
論文 参考訳(メタデータ) (2024-10-21T20:29:46Z) - Temporal-Difference Variational Continual Learning [89.32940051152782]
現実世界のアプリケーションにおける機械学習モデルの重要な機能は、新しいタスクを継続的に学習する能力である。
継続的な学習設定では、モデルは以前の知識を保持することで新しいタスクの学習のバランスをとるのに苦労することが多い。
複数の先行推定の正則化効果を統合する新たな学習目標を提案する。
論文 参考訳(メタデータ) (2024-10-10T10:58:41Z) - CLIP with Generative Latent Replay: a Strong Baseline for Incremental Learning [17.614980614656407]
インクリメンタル・プロンプト学習のための連続的生成学習を提案する。
変分オートエンコーダを用いてクラス条件分布を学習する。
このような生成的リプレイアプローチは、ゼロショット機能を改善しつつ、新しいタスクに適応できることを示す。
論文 参考訳(メタデータ) (2024-07-22T16:51:28Z) - Model Inversion Attacks Through Target-Specific Conditional Diffusion Models [54.69008212790426]
モデル反転攻撃(MIA)は、ターゲット分類器のトレーニングセットからプライベートイメージを再構築することを目的としており、それによってAIアプリケーションにおけるプライバシー上の懸念が高まる。
従来のGANベースのMIAは、GANの固有の欠陥と潜伏空間における最適化の偏りにより、劣った遺伝子的忠実度に悩まされる傾向にある。
これらの問題を緩和するために拡散モデル反転(Diff-MI)攻撃を提案する。
論文 参考訳(メタデータ) (2024-07-16T06:38:49Z) - Stragglers-Aware Low-Latency Synchronous Federated Learning via Layer-Wise Model Updates [71.81037644563217]
同期フェデレーションラーニング(FL)は、協調エッジラーニングの一般的なパラダイムである。
一部のデバイスは計算資源が限られており、様々な可用性があるため、FLレイテンシはストラグラーに非常に敏感である。
本稿では,NNの最適化手法をバックプロパゲーションにより活用し,グローバルモデルを階層的に更新するストラグラー対応層対応学習(SALF)を提案する。
論文 参考訳(メタデータ) (2024-03-27T09:14:36Z) - Boosting Continual Learning of Vision-Language Models via Mixture-of-Experts Adapters [65.15700861265432]
本稿では,視覚言語モデルを用いた漸進的学習における長期的忘れを緩和するパラメータ効率の連続学習フレームワークを提案する。
提案手法では,Mixture-of-Experts (MoE)アダプタの統合により,事前学習したCLIPモデルの動的拡張を行う。
視覚言語モデルのゼロショット認識能力を維持するために,分布判別オートセレクタを提案する。
論文 参考訳(メタデータ) (2024-03-18T08:00:23Z) - CLIPood: Generalizing CLIP to Out-of-Distributions [73.86353105017076]
対照的に、CLIP(Language-image Pre-training)モデルでは、印象的なゼロショット能力を示しているが、下流タスクにおけるCLIPのさらなる適応は、OODのパフォーマンスを好ましくない劣化させる。
ドメインシフトとオープンクラスの両方が見えないテストデータ上で発生する可能性があるOOD状況にCLIPモデルを適用するための微調整手法であるCLIPoodを提案する。
さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-02T04:27:54Z) - Generalized Variational Continual Learning [33.194866396158005]
継続的学習の主なアプローチは、オンラインのElastic Weight Consolidationと変分連続学習である。
この修正により、オンラインEWCを制限ケースとして緩和し、2つのアプローチ間のベースラインを確保できることを示す。
VIのオーバープルーニング効果を観測するために、共通マルチタスクアーキテクチャからインスピレーションを得て、タスク固有のFiLM層によるニューラルネットワークを緩和する。
論文 参考訳(メタデータ) (2020-11-24T19:07:39Z) - Frequency-based Automated Modulation Classification in the Presence of
Adversaries [17.930854969511046]
本稿では、転送可能な対角干渉に耐えられるディープラーニングモデルからなる新しい受信アーキテクチャを提案する。
本研究では、リカレントニューラルネットワーク(RNN)では30%以上、畳み込みニューラルネットワーク(CNN)では50%以上の性能向上を示す。
論文 参考訳(メタデータ) (2020-11-02T17:12:22Z) - Early Stage LM Integration Using Local and Global Log-Linear Combination [46.91755970827846]
暗黙のアライメント機構を持つシーケンス対シーケンスモデル(例えば注意)は、従来のハイブリッド隠れマルコフモデル(HMM)に対するパフォーマンスギャップを埋めている。
両方のケースで単語エラー率を改善する重要な要因は、大きなテキストのみのコーパスでトレーニングされた外部言語モデル(LM)を使用することである。
暗黙アライメントに基づくシーケンス・ツー・シーケンスモデルに言語モデルを統合する新しい手法を提案する。
論文 参考訳(メタデータ) (2020-05-20T13:49:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。