論文の概要: Master-ASR: Achieving Multilingual Scalability and Low-Resource
Adaptation in ASR with Modular Learning
- arxiv url: http://arxiv.org/abs/2306.15686v1
- Date: Fri, 23 Jun 2023 16:23:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-02 13:18:12.985391
- Title: Master-ASR: Achieving Multilingual Scalability and Low-Resource
Adaptation in ASR with Modular Learning
- Title(参考訳): Master-ASR: モジュール学習によるASRにおける多言語拡張性と低リソース適応の実現
- Authors: Zhongzhi Yu, Yang Zhang, Kaizhi Qian, Yonggan Fu, Yingyan Lin
- Abstract要約: METHODNSは、強力な多言語スケーラビリティと低リソース適応性を同時に実現している。
我々のフレームワークは、最先端(SOTA)メソッドよりも30%少ない推論オーバーヘッドで、0.13$sim$2.41低い文字誤り率(CER)を達成する。
- 参考スコア(独自算出の注目度): 28.592569051244375
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the impressive performance recently achieved by automatic speech
recognition (ASR), we observe two primary challenges that hinder its broader
applications: (1) The difficulty of introducing scalability into the model to
support more languages with limited training, inference, and storage overhead;
(2) The low-resource adaptation ability that enables effective low-resource
adaptation while avoiding over-fitting and catastrophic forgetting issues.
Inspired by recent findings, we hypothesize that we can address the above
challenges with modules widely shared across languages. To this end, we propose
an ASR framework, dubbed \METHODNS, that, \textit{for the first time},
simultaneously achieves strong multilingual scalability and low-resource
adaptation ability thanks to its modularize-then-assemble strategy.
Specifically, \METHOD learns a small set of generalizable sub-modules and
adaptively assembles them for different languages to reduce the multilingual
overhead and enable effective knowledge transfer for low-resource adaptation.
Extensive experiments and visualizations demonstrate that \METHOD can
effectively discover language similarity and improve multilingual and
low-resource ASR performance over state-of-the-art (SOTA) methods, e.g., under
multilingual-ASR, our framework achieves a 0.13$\sim$2.41 lower character error
rate (CER) with 30\% smaller inference overhead over SOTA solutions on
multilingual ASR and a comparable CER, with nearly 50 times fewer trainable
parameters over SOTA solutions on low-resource tuning, respectively.
- Abstract(参考訳): 自動音声認識(ASR)によって最近達成された印象的な性能にもかかわらず,(1)訓練や推論,ストレージオーバーヘッドに制限のある言語をサポートするため,モデルにスケーラビリティを導入することの難しさ,(2)低リソース適応能力は,過度な適合や破滅的な忘れの問題を回避しつつ実現可能であること,の2つの大きな課題が観察されている。
最近の発見に触発されて、言語間で広く共有されるモジュールで上記の課題に対処できるという仮説を立てた。
そこで本研究では, マルチリンガルなスケーラビリティと低リソース適応性を両立させると同時に, モジュール化・階層化戦略により実現した ASR フレームワークである \METHODNS を提案する。
特に \method は、一般化可能なサブモジュールの小さなセットを学習し、それらを異なる言語向けに適応的に組み立てて、マルチリンガルのオーバーヘッドを減らし、低リソース適応のための効果的な知識転送を可能にする。
Extensive experiments and visualizations demonstrate that \METHOD can effectively discover language similarity and improve multilingual and low-resource ASR performance over state-of-the-art (SOTA) methods, e.g., under multilingual-ASR, our framework achieves a 0.13$\sim$2.41 lower character error rate (CER) with 30\% smaller inference overhead over SOTA solutions on multilingual ASR and a comparable CER, with nearly 50 times fewer trainable parameters over SOTA solutions on low-resource tuning, respectively.
関連論文リスト
- Enhancing Multilingual Capabilities of Large Language Models through
Self-Distillation from Resource-Rich Languages [60.162717568496355]
大規模言語モデル(LLM)は多言語コーパスで事前訓練されている。
彼らのパフォーマンスは、いくつかのリソース豊富な言語と比較して、ほとんどの言語でまだ遅れています。
論文 参考訳(メタデータ) (2024-02-19T15:07:32Z) - Multilingual DistilWhisper: Efficient Distillation of Multi-task Speech
Models via Language-Specific Experts [14.999359332108767]
表現不足言語に対するASRの性能ギャップを埋めるため、DistilWhisperを提案する。
提案手法は, 言語専門家を用いた軽量モジュール型ASR微調整と, ささやかな大口径v2からの知識蒸留の2つの戦略を含む。
その結果,本手法は通常のファインチューニングやLoRAアダプタよりも効果的であることがわかった。
論文 参考訳(メタデータ) (2023-11-02T08:37:30Z) - Language-universal phonetic encoder for low-resource speech recognition [28.21805271848413]
我々は、低リソースのASR性能を改善するために、International Phonetic Alphabet (IPA) ベースの言語ユニバーサル音声モデルを活用する。
我々のアプローチと適応は、ドメインや言語ミスマッチしたシナリオであっても、極端に低リソースな言語に有効です。
論文 参考訳(メタデータ) (2023-05-19T10:24:30Z) - From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z) - Fixing MoE Over-Fitting on Low-Resource Languages in Multilingual
Machine Translation [8.7660229706359]
多言語機械翻訳のためのモデルキャパシティをスケールするための計算効率のよい方法として,Mixture of Experts (MoE)モデルが広く知られている。
低リソースタスクにおけるMoEモデルの性能向上と過度な適合を防止する効果的な正規化戦略を示す。
論文 参考訳(メタデータ) (2022-12-15T01:06:55Z) - Learning ASR pathways: A sparse multilingual ASR model [31.147484652643282]
ASR経路は、言語固有のサブネットワーク(パス)を活性化するスパース多言語ASRモデルである。
重なり合うサブネットワークにより、共有パラメータは、共同でマルチリンガルトレーニングをすることで、低リソース言語への知識伝達を可能にする。
提案したASR経路は,高密度モデルと言語に依存しないプルーニングモデルの両方より優れ,低リソース言語の性能向上を実現している。
論文 参考訳(メタデータ) (2022-09-13T05:14:08Z) - A Multi-level Supervised Contrastive Learning Framework for Low-Resource
Natural Language Inference [54.678516076366506]
自然言語推論(NLI)は、自然言語理解において、ますます重要な課題である。
本稿では,低リソースな自然言語推論のためのマルチSCLという,マルチレベルの教師付きコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-31T05:54:18Z) - Adversarial Meta Sampling for Multilingual Low-Resource Speech
Recognition [159.9312272042253]
多言語メタラーニングASR(MML-ASR)を改善するための新しい逆メタサンプリング(AMS)アプローチを開発しています。
AMSは、各ソース言語のタスクサンプリング確率を適応的に決定する。
MML-ASRにAMSを適用すると、2つの多言語データセットの実験結果が大幅にパフォーマンス向上します。
論文 参考訳(メタデータ) (2020-12-22T09:33:14Z) - Adapt-and-Adjust: Overcoming the Long-Tail Problem of Multilingual
Speech Recognition [58.849768879796905]
エンドツーエンドの多言語音声認識のためのトランスフォーマーベースマルチタスク学習フレームワークであるAdapt-and-Adjust (A2)を提案する。
A2フレームワークは,(1) 訓練済み多言語言語モデル (mBERT) を利用して低リソース言語の性能を向上させる,(2) 言語固有の適応と言語に依存しない2つのアダプタを最小限の追加パラメータで提案する,(3) クラス不均衡を克服する,という3つの手法で解決する。
論文 参考訳(メタデータ) (2020-12-03T03:46:16Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。