論文の概要: Joint Unsupervised and Supervised Training for Multilingual ASR
- arxiv url: http://arxiv.org/abs/2111.08137v1
- Date: Mon, 15 Nov 2021 23:11:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-17 14:06:22.178584
- Title: Joint Unsupervised and Supervised Training for Multilingual ASR
- Title(参考訳): 多言語ASRにおける教師なしと教師なしの併用訓練
- Authors: Junwen Bai, Bo Li, Yu Zhang, Ankur Bapna, Nikhil Siddhartha, Khe Chai
Sim, Tara N. Sainath
- Abstract要約: 本稿では、教師付きRNN-T損失と自己監督型コントラスト言語モデリング(MLM)損失を組み合わせた、エンドツーエンドのJUST(Joint Unsupervised and Supervised Training)手法を提案する。
8言語を含む公開データセットであるLibriSpeech(MLS)の性能を検証し、極めて不均衡である。
実験により、JUSTは既存の最先端手法を一貫して上回り、モノリンガルベースラインをかなりの差で打ち負かすことができることが示された。
- 参考スコア(独自算出の注目度): 43.46155711288589
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised training has shown promising gains in pretraining models and
facilitating the downstream finetuning for speech recognition, like
multilingual ASR. Most existing methods adopt a 2-stage scheme where the
self-supervised loss is optimized in the first pretraining stage, and the
standard supervised finetuning resumes in the second stage. In this paper, we
propose an end-to-end (E2E) Joint Unsupervised and Supervised Training (JUST)
method to combine the supervised RNN-T loss and the self-supervised contrastive
and masked language modeling (MLM) losses. We validate its performance on the
public dataset Multilingual LibriSpeech (MLS), which includes 8 languages and
is extremely imbalanced. On MLS, we explore (1) JUST trained from scratch, and
(2) JUST finetuned from a pretrained checkpoint. Experiments show that JUST can
consistently outperform other existing state-of-the-art methods, and beat the
monolingual baseline by a significant margin, demonstrating JUST's capability
of handling low-resource languages in multilingual ASR. Our average WER of all
languages outperforms average monolingual baseline by 33.3%, and the
state-of-the-art 2-stage XLSR by 32%. On low-resource languages like Polish,
our WER is less than half of the monolingual baseline and even beats the
supervised transfer learning method which uses external supervision.
- Abstract(参考訳): 自己教師型トレーニングは、事前訓練モデルや、マルチリンガルASRのような音声認識のための下流ファインタニングの促進に有望な効果を示している。
既存のほとんどの手法では、第1の事前訓練段階で自己監督的損失が最適化され、第2の段階では標準監督的微調整が再開される2段階方式を採用している。
本稿では、教師付きRNN-T損失と自己監督型コントラスト・マスク型言語モデリング(MLM)損失を組み合わせ、エンドツーエンド(E2E)統合教師なし・監視訓練(JUST)手法を提案する。
8つの言語を含む非常に不均衡な公開データセットである多言語librispeech (mls) でその性能を検証する。
MLSでは,(1)スクラッチから訓練されたJUST,(2)予め訓練されたチェックポイントから微調整されたJUSTを探索する。
実験の結果、JUSTは既存の最先端の手法を一貫して上回り、モノリンガルのベースラインをかなりの差で上回り、マルチリンガルASRにおける低リソース言語を扱う能力を示している。
我々の言語の平均WERは平均単言語ベースラインを33.3%上回り、最先端の2段階XLSRを32%上回っている。
ポーランド語のような低リソース言語では、WERはモノリンガルベースラインの半分以下であり、外部監視を用いた教師あり移動学習手法に勝っている。
関連論文リスト
- Optimizing Low-Resource Language Model Training: Comprehensive Analysis of Multi-Epoch, Multi-Lingual, and Two-Stage Approaches [3.809045695573932]
既存の作業では、制限対象の言語コーパスを効率的に活用するために、マルチエポック、多言語、二段階の訓練が採用されている。
我々は、これらの3つのアプローチを組み合わせて、低リソース言語LLMのトレーニング設定を徹底的に検討する。
対象言語コーパスの量が減少するにつれて、最適トレーニングアプローチは、単言語単段階訓練から、計算予算依存しきい値における多言語二段階訓練へと移行する。
論文 参考訳(メタデータ) (2024-10-16T07:45:56Z) - Analyzing and Adapting Large Language Models for Few-Shot Multilingual
NLU: Are We There Yet? [82.02076369811402]
教師付きファインチューニング(SFT)、教師付きインストラクションチューニング(SIT)、インコンテキストラーニング(ICL)は、3つの代替であり、事実上の標準的アプローチである。
提案手法は,6つの高・低リソース言語,3つの異なるNLUタスク,多種多様な言語とドメインのセットアップを用いて,3つのアプローチを網羅的かつ体系的に比較する。
そこで本研究では,教師あり指導のチューニングが,性能とリソース要件の最良のトレードオフであることを示す。
論文 参考訳(メタデータ) (2024-03-04T10:48:13Z) - Relevance-guided Neural Machine Translation [5.691028372215281]
ニューラルネットワーク翻訳(NMT)のための説明可能性に基づく学習手法を提案する。
その結果,低リソース環境下でのトレーニングにおいて,本手法が有望であることが示唆された。
論文 参考訳(メタデータ) (2023-11-30T21:52:02Z) - High-resource Language-specific Training for Multilingual Neural Machine
Translation [109.31892935605192]
負の干渉を軽減するために,HLT-MT(High-Resource Language-specific Training)を用いた多言語翻訳モデルを提案する。
具体的には、まずマルチ言語モデルを高リソースペアでトレーニングし、デコーダの上部にある言語固有のモジュールを選択する。
HLT-MTは、高リソース言語から低リソース言語への知識伝達のために、利用可能なすべてのコーパスでさらに訓練されている。
論文 参考訳(メタデータ) (2022-07-11T14:33:13Z) - Self-Learning for Zero Shot Neural Machine Translation [13.551731309506874]
本研究は、並列データを共有するピボット言語を仮定せずに学習するゼロショットNMTモデリング手法を提案する。
教師なしNMTと比較して、ドメインミスマッチ設定でも一貫した改善が観察される。
論文 参考訳(メタデータ) (2021-03-10T09:15:19Z) - Cross-lingual Spoken Language Understanding with Regularized
Representation Alignment [71.53159402053392]
外部リソースを使わずに言語間で単語レベルの表現と文レベルの表現を整列する正規化手法を提案する。
言語間言語理解タスクの実験により、我々のモデルは、数ショットとゼロショットの両方のシナリオにおいて、最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-09-30T08:56:53Z) - Harnessing Multilinguality in Unsupervised Machine Translation for Rare
Languages [48.28540903568198]
マルチリンガル性は低リソース環境において教師なしシステムの実現に不可欠であることを示す。
我々は,5つの低リソース言語(グジャラート語,カザフ語,ネパール語,シンハラ語,トルコ語)について,英語方向と英語方向の単一モデルを提案する。
我々は、これらの言語の現在最先端の教師なしベースラインを全て上回り、最大14.4BLEUのゲインを得る。
論文 参考訳(メタデータ) (2020-09-23T15:07:33Z) - Self-Training for Unsupervised Neural Machine Translation in Unbalanced
Training Data Scenarios [61.88012735215636]
巨大な単言語コーパスのみに依存するunsupervised neural machine translation (UNMT)は、いくつかの翻訳タスクにおいて顕著な成果を上げている。
現実のシナリオでは、エストニア語のような極低リソース言語には巨大なモノリンガルコーパスは存在しない。
頑健なUNMTシステムの訓練と性能向上のためのUNMT自己学習機構を提案する。
論文 参考訳(メタデータ) (2020-04-09T12:07:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。