論文の概要: Continual Learning with Embedding Layer Surgery and Task-wise Beam Search using Whisper
- arxiv url: http://arxiv.org/abs/2501.07875v1
- Date: Tue, 14 Jan 2025 06:33:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-15 13:27:16.784852
- Title: Continual Learning with Embedding Layer Surgery and Task-wise Beam Search using Whisper
- Title(参考訳): 埋め込み層手術とWhisperを用いたタスクワイズ探索による連続学習
- Authors: Chin Yuen Kwok, Jia Qi Yip, Eng Siong Chng,
- Abstract要約: 現在のASRモデルは世界の言語の一部しかサポートしていない。
新しい言語ごとに異なるトークン埋め込みのコピーを作成できる埋め込み層手術を提案する。
その結果,経験リプレイと比較して,事前学習した言語の平均 WER (AWER) は14.2% から11.9% に減少した。
- 参考スコア(独自算出の注目度): 20.07672057717825
- License:
- Abstract: Current Multilingual ASR models only support a fraction of the world's languages. Continual Learning (CL) aims to tackle this problem by adding new languages to pre-trained models while avoiding the loss of performance on existing languages, also known as Catastrophic Forgetting (CF). However, existing CL methods overlook the adaptation of the token embedding lookup table at the decoder, despite its significant contribution to CF. We propose Embedding Layer Surgery where separate copies of the token embeddings are created for each new languages, and one of the copies is selected to replace the old languages embeddings when transcribing the corresponding new language. Unfortunately, this approach means LID errors also cause incorrect ASR embedding selection. Our Task-wise Beam Search allows self-correction for such mistakes. By adapting Whisper to 10 hours of data for each of 10 unseen languages from Common Voice, results show that our method reduces the Average WER (AWER) of pre-trained languages from 14.2% to 11.9% compared with Experience Replay, without compromising the AWER of the unseen languages.
- Abstract(参考訳): 現在の多言語ASRモデルは世界の言語の一部しかサポートしていない。
継続学習(CL)は、事前訓練されたモデルに新しい言語を追加することでこの問題に対処することを目的としている。
しかし、既存のCLメソッドはCFへの大きな貢献にもかかわらず、デコーダのトークン埋め込みルックアップテーブルの適応を見落としている。
本稿では,新しい言語毎にトークン埋め込みの別々のコピーを作成し,対応する新言語を翻訳する際に,古い言語埋め込みを置き換えるために,そのコピーの1つを選択することを提案する。
残念なことに、このアプローチはLIDエラーが不正なASR埋め込み選択を引き起こすことを意味する。
タスクワイズビームサーチは、そのようなミスに対して自己補正を可能にする。
The results shows that our method reduces the Average WER (AWER) from 14.2% to 11.9% than Experience Replay, without the AWER of the unseen languages。
関連論文リスト
- Franken-Adapter: Cross-Lingual Adaptation of LLMs by Embedding Surgery [31.516243610548635]
我々は,デコーダのみの大規模言語モデルに対するモジュール型言語適応アプローチであるtextitFranken-Adapter$を提示する。
提案手法は,対象言語用にカスタマイズされた語彙を作成し,多言語データへの組込みによる言語適応を行うことから始める。
最大27Bパラメータを持つ$ttGemma2$モデルの実験では、96言語で最大20%の改善が示され、識別的タスクと生成的タスクの両方にまたがっている。
論文 参考訳(メタデータ) (2025-02-12T00:38:11Z) - Continual Learning Optimizations for Auto-regressive Decoder of Multilingual ASR systems [20.07672057717825]
継続学習(CL)は、事前学習されたデータの性能を維持しながら、新しいデータで訓練済みモデルを微調整する。
自動回帰デコーダのMASRモデルにおける4つの最適化を提案する。
Common VoiceデータセットからWhisperを10の未確認言語に適応させる実験では、これらの最適化により、事前訓練された言語の平均単語誤り率(AWER)が、Experience Replayと比較して14.2%から12.4%に低下することが示されている。
論文 参考訳(メタデータ) (2024-07-04T05:35:47Z) - Unlikelihood Tuning on Negative Samples Amazingly Improves Zero-Shot
Translation [79.96416609433724]
Zero-shot Translation (ZST)は、トレーニングデータにおいて、目に見えない言語ペア間の翻訳を目的としている。
推論中にゼロショット言語マッピングをガイドする一般的な方法は、ソースとターゲット言語IDを意図的に挿入することである。
近年の研究では、言語IDが時折ZSTタスクのナビゲートに失敗し、ターゲット外問題に悩まされることが示されている。
論文 参考訳(メタデータ) (2023-09-28T17:02:36Z) - Boosting Zero-shot Cross-lingual Retrieval by Training on Artificially
Code-Switched Data [26.38449396649045]
問合せや文書が言語によって異なる場合,ゼロショットローダの有効性は低下する。
そこで我々は,人工的なコード切替データに基づいてランキングモデルを訓練することを提案する。
論文 参考訳(メタデータ) (2023-05-09T09:32:19Z) - Reducing language context confusion for end-to-end code-switching
automatic speech recognition [50.89821865949395]
本稿では,E2E符号スイッチングASRモデルの多言語コンテキストの混同を低減するための言語関連アテンション機構を提案する。
複数の言語のそれぞれの注意を計算することにより、豊かな単言語データから言語知識を効率的に伝達することができる。
論文 参考訳(メタデータ) (2022-01-28T14:39:29Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z) - Rnn-transducer with language bias for end-to-end Mandarin-English
code-switching speech recognition [58.105818353866354]
本稿では,言語バイアスを考慮したリカレントニューラルネットワークトランスデューサ(RNN-T)モデルを提案する。
我々は、CSの点を予測するためにモデルにバイアスを与えるために、言語アイデンティティを使用する。
これにより、言語識別情報を転写から直接学習するモデルが促進され、追加のLIDモデルが不要になる。
論文 参考訳(メタデータ) (2020-02-19T12:01:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。