論文の概要: MUST: A Multilingual Student-Teacher Learning approach for low-resource
speech recognition
- arxiv url: http://arxiv.org/abs/2310.18865v1
- Date: Sun, 29 Oct 2023 01:38:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 15:51:53.353645
- Title: MUST: A Multilingual Student-Teacher Learning approach for low-resource
speech recognition
- Title(参考訳): MUST:低音源音声認識のための多言語学習アプローチ
- Authors: Muhammad Umar Farooq, Rehan Ahmad, Thomas Hain
- Abstract要約: 学生-教師学習(KD)は、これまで、音声認識(ASR)システムの訓練において、データ不足の問題に対処するために用いられてきた。
本研究は,後部マッピング手法を利用したMUST学習を提案する。
MUST学習で訓練されたモデルは、ベースライン単言語ASRと比較して、相対的文字誤り率(CER)を最大9.5%削減する。
- 参考スコア(独自算出の注目度): 25.334589796554354
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Student-teacher learning or knowledge distillation (KD) has been previously
used to address data scarcity issue for training of speech recognition (ASR)
systems. However, a limitation of KD training is that the student model classes
must be a proper or improper subset of the teacher model classes. It prevents
distillation from even acoustically similar languages if the character sets are
not same. In this work, the aforementioned limitation is addressed by proposing
a MUltilingual Student-Teacher (MUST) learning which exploits a posteriors
mapping approach. A pre-trained mapping model is used to map posteriors from a
teacher language to the student language ASR. These mapped posteriors are used
as soft labels for KD learning. Various teacher ensemble schemes are
experimented to train an ASR model for low-resource languages. A model trained
with MUST learning reduces relative character error rate (CER) up to 9.5% in
comparison with a baseline monolingual ASR.
- Abstract(参考訳): 学生教師学習または知識蒸留(kd)は、音声認識(asr)システムの訓練のためのデータ不足問題に対処するためにこれまで用いられてきた。
しかしながら、KDトレーニングの制限は、学生モデルクラスが教師モデルクラスの適切なまたは不適切なサブセットでなければならないことである。
文字集合が同じでない場合、蒸留は音響的に類似した言語でさえも防ぐ。
本研究は,後部マッピングアプローチを活用したMUST(MUST)学習を提案することによって,上記の制限に対処する。
事前学習されたマッピングモデルを用いて、教師言語から生徒言語ASRへの後部マッピングを行う。
これらのマッピング後部は、KD学習のためのソフトラベルとして使用される。
様々な教師アンサンブルスキームを用いて低リソース言語のためのASRモデルを訓練する。
MUST学習で訓練されたモデルは、ベースライン単言語ASRと比較して、相対的文字誤り率(CER)を最大9.5%削減する。
関連論文リスト
- The Privileged Students: On the Value of Initialization in Multilingual Knowledge Distillation [18.919374970049468]
知識蒸留(KD)は、多くのNLPタスクにおいて、より小さなモデルの性能を向上させるための成功戦略であることが証明されている。
学生モデルが教師モデルから多言語知識をいかに獲得するかを分析することで、多言語設定におけるKDの価値について検討する。
論文 参考訳(メタデータ) (2024-06-24T10:59:26Z) - Multilingual self-supervised speech representations improve the speech
recognition of low-resource African languages with codeswitching [65.74653592668743]
微細な自己教師型多言語表現は絶対単語誤り率を最大20%削減する。
訓練データに制限のある状況では、自己教師付き表現を微調整することが、より良いパフォーマンスと実行可能なソリューションである。
論文 参考訳(メタデータ) (2023-11-25T17:05:21Z) - Learning Cross-lingual Mappings for Data Augmentation to Improve
Low-Resource Speech Recognition [31.575930914290762]
言語間リソースの爆発は、低リソース言語のデータの不足を補う効果的な方法である。
エンドツーエンド音声認識のための学習可能な言語間マッピングの概念を拡張した。
その結果,任意のソース言語 ASR モデルを用いて,低リソースターゲット言語認識を行うことが可能であることが示唆された。
論文 参考訳(メタデータ) (2023-06-14T15:24:31Z) - Predicting Multi-Codebook Vector Quantization Indexes for Knowledge
Distillation [24.74672037572804]
知識蒸留(KD)は,音声認識におけるモデル性能向上のための一般的な手法である。
従来のKD法は、特にトレーニングコーパスが大きい場合、教師ラベル記憶の問題に悩まされる。
我々は,教師の埋め込みをコードブックインデックスに圧縮する,新しいマルチコードブックベクトル量子化(MVQ)手法を提案する。
MVQ-KDフレームワークは従来のKDメソッドと同等のパフォーマンスを達成し、256倍のストレージを必要とする。
論文 参考訳(メタデータ) (2022-10-31T07:03:17Z) - Sequence-level self-learning with multiple hypotheses [53.04725240411895]
我々は、自動音声認識(ASR)のためのアテンションベースシーケンス・ツー・シーケンス(seq2seq)モデルを用いた新しい自己学習手法を開発した。
従来の教師なし学習手法とは対照的に,我々はEmphmulti-task Learning(MTL)フレームワークを採用する。
実験の結果,本手法は,英語データのみを用いてトレーニングしたベースラインモデルと比較して,英文音声データのWERを14.55%から10.36%に削減できることがわかった。
論文 参考訳(メタデータ) (2021-12-10T20:47:58Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - MergeDistill: Merging Pre-trained Language Models using Distillation [5.396915402673246]
我々は、最小限の依存関係で彼らの資産を最大限に活用できる方法で、事前訓練されたLMをマージするフレームワークであるMergeDistillを提案する。
我々は,既存の教師LMと,何桁ものデータと固定モデルキャパシティで訓練された教師LMとの競争力や性能を向上する訓練学生LMを活用して,実践的にフレームワークの適用性を実証する。
論文 参考訳(メタデータ) (2021-06-05T08:22:05Z) - How Phonotactics Affect Multilingual and Zero-shot ASR Performance [74.70048598292583]
Transformer encoder-decoderモデルは、トレーニング中に提示された言語のIPA転写において、多言語データをうまく活用することが示されている。
我々は,エンコーダデコーダをAMとLMを分離したハイブリッドASRシステムに置き換える。
交叉音韻律のモデル化による利得は限定的であり,強すぎるモデルがゼロショット転送を損なう可能性があることを示す。
論文 参考訳(メタデータ) (2020-10-22T23:07:24Z) - Learning to Reweight with Deep Interactions [104.68509759134878]
本稿では,教師モデルに内部状態を提供する改良型データ再重み付けアルゴリズムを提案する。
クリーン/ノイズラベルとニューラルマシン翻訳を用いた画像分類実験は、我々のアルゴリズムが従来の手法よりも大幅に改善されていることを実証的に実証した。
論文 参考訳(メタデータ) (2020-07-09T09:06:31Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。