論文の概要: Continual Learning for Monolingual End-to-End Automatic Speech
Recognition
- arxiv url: http://arxiv.org/abs/2112.09427v1
- Date: Fri, 17 Dec 2021 10:47:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-20 21:52:58.742406
- Title: Continual Learning for Monolingual End-to-End Automatic Speech
Recognition
- Title(参考訳): エンドツーエンド音声認識のための連続学習
- Authors: Steven Vander Eeckt and Hugo Van hamme
- Abstract要約: 新しいドメインに自動音声認識(ASR)モデルを適用すると、元のドメインの性能が低下する(s)。
モノリンガルなASRモデルでさえ、カタストロフィック・フォーッティング(CF)に苦しむことなく、新しいアクセント、方言、話題などに拡張することはできない。
- 参考スコア(独自算出の注目度): 16.651146574124567
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adapting Automatic Speech Recognition (ASR) models to new domains leads to a
deterioration of performance on the original domain(s), a phenomenon called
Catastrophic Forgetting (CF). Even monolingual ASR models cannot be extended to
new accents, dialects, topics, etc. without suffering from CF, making them
unable to be continually enhanced without storing all past data. Fortunately,
Continual Learning (CL) methods, which aim to enable continual adaptation while
overcoming CF, can be used. In this paper, we implement an extensive number of
CL methods for End-to-End ASR and test and compare their ability to extend a
monolingual Hybrid CTC-Transformer model across four new tasks. We find that
the best performing CL method closes the gap between the fine-tuned model
(lower bound) and the model trained jointly on all tasks (upper bound) by more
than 40%, while requiring access to only 0.6% of the original data.
- Abstract(参考訳): 自動音声認識(asr)モデルを新しいドメインに適応させることで、元のドメインのパフォーマンスが低下する。
単言語 ASR モデルでさえ、CF に苦しむことなく新しいアクセント、方言、トピックなどに拡張することはできないため、過去のデータをすべて保存することなく継続的に拡張することはできない。
幸いなことに、CFを克服しながら継続的適応を可能にする連続学習(CL)手法が利用可能である。
本稿では,End-to-End ASRのためのCL手法を多数実装し,モノリンガルなCTC-Transformerモデルを4つの新しいタスクに拡張する能力を比較する。
最善のcl法では,すべてのタスクで協調的にトレーニングされたモデル(下限)と微調整されたモデル(下限)のギャップを40%以上狭くし,元のデータの0.6%しかアクセスできないことがわかった。
関連論文リスト
- Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。
我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。
Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文 参考訳(メタデータ) (2024-07-04T15:14:17Z) - Boosting Continual Learning of Vision-Language Models via Mixture-of-Experts Adapters [65.15700861265432]
本稿では,視覚言語モデルを用いた漸進的学習における長期的忘れを緩和するパラメータ効率の連続学習フレームワークを提案する。
提案手法では,Mixture-of-Experts (MoE)アダプタの統合により,事前学習したCLIPモデルの動的拡張を行う。
視覚言語モデルのゼロショット認識能力を維持するために,分布判別オートセレクタを提案する。
論文 参考訳(メタデータ) (2024-03-18T08:00:23Z) - Embracing Language Inclusivity and Diversity in CLIP through Continual
Language Learning [58.92843729869586]
視覚言語事前学習モデル (VL-PTMs) は近年、先進的なマルチモーダル研究を行っているが、英語のようないくつかの言語での習得は、より広いコミュニティにおける適用性を制限している。
我々は,連続言語学習(CLL)によってVL-PTMの言語能力を拡張することを提案する。
我々は,MSCOCOおよびXM3600データセットに基づく36言語をカバーするCLLベンチマークを構築し,多言語画像テキスト検索性能を評価する。
論文 参考訳(メタデータ) (2024-01-30T17:14:05Z) - Improving Language Plasticity via Pretraining with Active Forgetting [63.36484652568976]
本稿では,新しい言語に迅速に適応可能な PLM を作成する簡単な方法として,事前学習中に能動的に忘れる機構を提案する。
RoBERTaを用いた実験では、忘れるメカニズムで事前訓練されたモデルは、言語適応中により高速な収束を示す。
論文 参考訳(メタデータ) (2023-07-03T17:12:44Z) - Multilingual Contextual Adapters To Improve Custom Word Recognition In
Low-resource Languages [3.7870350845913165]
我々は、CTCの注意に基づくバイアスモデルを用いて、カスタムエンティティの認識を改善するコンテキスト適応について研究する。
本研究では,文脈適応器のスムーズな学習のための監視損失を提案する。
提案手法は,低リソース言語に対する未知のカスタムエンティティの検索において,F1の48%の改善を実現している。
論文 参考訳(メタデータ) (2023-07-03T05:29:38Z) - Preventing Zero-Shot Transfer Degradation in Continual Learning of
Vision-Language Models [13.340759455910721]
本稿では,視覚言語モデルの連続学習におけるゼロショット転送劣化を防止する新しい手法を提案する。
本手法は,従来のクラス増分学習環境において,他の手法よりも優れている。
論文 参考訳(メタデータ) (2023-03-12T10:28:07Z) - Improving Massively Multilingual ASR With Auxiliary CTC Objectives [40.10307386370194]
FLEURSは102言語によるオープンASRベンチマークである。
我々は,最近のコネクショニスト時間分類(CTC)研究から着想を得た手法を考察し,モデルが多数の言語を扱えるようにした。
コンバータアーキテクチャを用いた自己教師型モデルを用いた最先端システムでは,相対28.4%CERによるFLEURSの先行研究よりも改善されている。
論文 参考訳(メタデータ) (2023-02-24T18:59:51Z) - Hyperparameter-free Continuous Learning for Domain Classification in
Natural Language Understanding [60.226644697970116]
ドメイン分類は自然言語理解(NLU)の基本課題である
既存の継続的な学習アプローチの多くは、低い精度とパフォーマンスの変動に悩まされている。
本研究では,テキストデータに対するパラメータフリー連続学習モデルを提案する。
論文 参考訳(メタデータ) (2022-01-05T02:46:16Z) - Continual learning using lattice-free MMI for speech recognition [6.802401545890963]
連続学習(CL)または領域拡張(ドメイン拡張)は、自動音声認識(ASR)音響モデリングにおいて一般的なトピックである。
格子フリー最大相互情報(LF-MMI)基準で学習したニューラルネットワーク音響モデルの正規化に基づくCLを提案する。
シーケンスレベルのLWFは、通常のLWFと比較して、全ドメインの平均単語誤り率を最大9.4%向上させることができることを示す。
論文 参考訳(メタデータ) (2021-10-13T22:11:11Z) - Learning Adaptive Embedding Considering Incremental Class [55.21855842960139]
CIL(Class-Incremental Learning)は,未知のクラスを逐次生成するストリーミングデータを用いて,信頼性の高いモデルをトレーニングすることを目的としている。
従来のクローズドセット学習とは異なり、CILには2つの大きな課題がある。
新たなクラスが検出された後、以前のデータ全体を使用して再トレーニングすることなく、モデルを更新する必要がある。
論文 参考訳(メタデータ) (2020-08-31T04:11:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。