論文の概要: Continual Learning for Monolingual End-to-End Automatic Speech
Recognition
- arxiv url: http://arxiv.org/abs/2112.09427v1
- Date: Fri, 17 Dec 2021 10:47:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-20 21:52:58.742406
- Title: Continual Learning for Monolingual End-to-End Automatic Speech
Recognition
- Title(参考訳): エンドツーエンド音声認識のための連続学習
- Authors: Steven Vander Eeckt and Hugo Van hamme
- Abstract要約: 新しいドメインに自動音声認識(ASR)モデルを適用すると、元のドメインの性能が低下する(s)。
モノリンガルなASRモデルでさえ、カタストロフィック・フォーッティング(CF)に苦しむことなく、新しいアクセント、方言、話題などに拡張することはできない。
- 参考スコア(独自算出の注目度): 16.651146574124567
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adapting Automatic Speech Recognition (ASR) models to new domains leads to a
deterioration of performance on the original domain(s), a phenomenon called
Catastrophic Forgetting (CF). Even monolingual ASR models cannot be extended to
new accents, dialects, topics, etc. without suffering from CF, making them
unable to be continually enhanced without storing all past data. Fortunately,
Continual Learning (CL) methods, which aim to enable continual adaptation while
overcoming CF, can be used. In this paper, we implement an extensive number of
CL methods for End-to-End ASR and test and compare their ability to extend a
monolingual Hybrid CTC-Transformer model across four new tasks. We find that
the best performing CL method closes the gap between the fine-tuned model
(lower bound) and the model trained jointly on all tasks (upper bound) by more
than 40%, while requiring access to only 0.6% of the original data.
- Abstract(参考訳): 自動音声認識(asr)モデルを新しいドメインに適応させることで、元のドメインのパフォーマンスが低下する。
単言語 ASR モデルでさえ、CF に苦しむことなく新しいアクセント、方言、トピックなどに拡張することはできないため、過去のデータをすべて保存することなく継続的に拡張することはできない。
幸いなことに、CFを克服しながら継続的適応を可能にする連続学習(CL)手法が利用可能である。
本稿では,End-to-End ASRのためのCL手法を多数実装し,モノリンガルなCTC-Transformerモデルを4つの新しいタスクに拡張する能力を比較する。
最善のcl法では,すべてのタスクで協調的にトレーニングされたモデル(下限)と微調整されたモデル(下限)のギャップを40%以上狭くし,元のデータの0.6%しかアクセスできないことがわかった。
関連論文リスト
- Embracing Language Inclusivity and Diversity in CLIP through Continual
Language Learning [58.92843729869586]
視覚言語事前学習モデル (VL-PTMs) は近年、先進的なマルチモーダル研究を行っているが、英語のようないくつかの言語での習得は、より広いコミュニティにおける適用性を制限している。
我々は,連続言語学習(CLL)によってVL-PTMの言語能力を拡張することを提案する。
我々は,MSCOCOおよびXM3600データセットに基づく36言語をカバーするCLLベンチマークを構築し,多言語画像テキスト検索性能を評価する。
論文 参考訳(メタデータ) (2024-01-30T17:14:05Z) - FiLM: Fill-in Language Models for Any-Order Generation [71.42044325886194]
Fill-in Language Model (FiLM) は、特定の生成順序に固執することなく任意の位置で柔軟な生成を可能にする新しい言語モデリング手法である。
推論中、FiLMは欠落したフレーズ、文、段落をシームレスに挿入できる。
FiLMは、再構成されたテキストセグメントでトレーニングされた左から右への言語モデルに依存する既存のインフィル手法よりも優れています。
論文 参考訳(メタデータ) (2023-10-15T19:37:39Z) - Improving Language Plasticity via Pretraining with Active Forgetting [63.36484652568976]
本稿では,新しい言語に迅速に適応可能な PLM を作成する簡単な方法として,事前学習中に能動的に忘れる機構を提案する。
RoBERTaを用いた実験では、忘れるメカニズムで事前訓練されたモデルは、言語適応中により高速な収束を示す。
論文 参考訳(メタデータ) (2023-07-03T17:12:44Z) - Multilingual Contextual Adapters To Improve Custom Word Recognition In
Low-resource Languages [3.7870350845913165]
我々は、CTCの注意に基づくバイアスモデルを用いて、カスタムエンティティの認識を改善するコンテキスト適応について研究する。
本研究では,文脈適応器のスムーズな学習のための監視損失を提案する。
提案手法は,低リソース言語に対する未知のカスタムエンティティの検索において,F1の48%の改善を実現している。
論文 参考訳(メタデータ) (2023-07-03T05:29:38Z) - Preventing Zero-Shot Transfer Degradation in Continual Learning of
Vision-Language Models [13.340759455910721]
本稿では,視覚言語モデルの連続学習におけるゼロショット転送劣化を防止する新しい手法を提案する。
本手法は,従来のクラス増分学習環境において,他の手法よりも優れている。
論文 参考訳(メタデータ) (2023-03-12T10:28:07Z) - Improving Massively Multilingual ASR With Auxiliary CTC Objectives [40.10307386370194]
FLEURSは102言語によるオープンASRベンチマークである。
我々は,最近のコネクショニスト時間分類(CTC)研究から着想を得た手法を考察し,モデルが多数の言語を扱えるようにした。
コンバータアーキテクチャを用いた自己教師型モデルを用いた最先端システムでは,相対28.4%CERによるFLEURSの先行研究よりも改善されている。
論文 参考訳(メタデータ) (2023-02-24T18:59:51Z) - mFACE: Multilingual Summarization with Factual Consistency Evaluation [79.60172087719356]
抽象的な要約は、事前訓練された言語モデルと大規模データセットの可用性のおかげで、近年で新たな関心を集めている。
有望な結果にもかかわらず、現在のモデルはいまだに現実的に矛盾した要約を生み出すことに苦しむ。
事実整合性評価モデルを利用して、多言語要約を改善する。
論文 参考訳(メタデータ) (2022-12-20T19:52:41Z) - Hyperparameter-free Continuous Learning for Domain Classification in
Natural Language Understanding [60.226644697970116]
ドメイン分類は自然言語理解(NLU)の基本課題である
既存の継続的な学習アプローチの多くは、低い精度とパフォーマンスの変動に悩まされている。
本研究では,テキストデータに対するパラメータフリー連続学習モデルを提案する。
論文 参考訳(メタデータ) (2022-01-05T02:46:16Z) - Continual learning using lattice-free MMI for speech recognition [6.802401545890963]
連続学習(CL)または領域拡張(ドメイン拡張)は、自動音声認識(ASR)音響モデリングにおいて一般的なトピックである。
格子フリー最大相互情報(LF-MMI)基準で学習したニューラルネットワーク音響モデルの正規化に基づくCLを提案する。
シーケンスレベルのLWFは、通常のLWFと比較して、全ドメインの平均単語誤り率を最大9.4%向上させることができることを示す。
論文 参考訳(メタデータ) (2021-10-13T22:11:11Z) - Acoustic word embeddings for zero-resource languages using
self-supervised contrastive learning and multilingual adaptation [30.669442499082443]
純粋に教師なしと多言語転送設定の両方で、対照的な学習損失が利用できるかを検討する。
非教師付き項発見システムからの用語は、コントラスト的自己スーパービジョンに使用できることを示す。
自己監督型コントラスト適応は、多言語対応オートエンコーダとSiamese AWEモデルに適応した。
論文 参考訳(メタデータ) (2021-03-19T11:08:35Z) - Learning Adaptive Embedding Considering Incremental Class [55.21855842960139]
CIL(Class-Incremental Learning)は,未知のクラスを逐次生成するストリーミングデータを用いて,信頼性の高いモデルをトレーニングすることを目的としている。
従来のクローズドセット学習とは異なり、CILには2つの大きな課題がある。
新たなクラスが検出された後、以前のデータ全体を使用して再トレーニングすることなく、モデルを更新する必要がある。
論文 参考訳(メタデータ) (2020-08-31T04:11:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。