論文の概要: Master-ASR: Achieving Multilingual Scalability and Low-Resource
Adaptation in ASR with Modular Learning
- arxiv url: http://arxiv.org/abs/2306.15686v1
- Date: Fri, 23 Jun 2023 16:23:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-02 13:18:12.985391
- Title: Master-ASR: Achieving Multilingual Scalability and Low-Resource
Adaptation in ASR with Modular Learning
- Title(参考訳): Master-ASR: モジュール学習によるASRにおける多言語拡張性と低リソース適応の実現
- Authors: Zhongzhi Yu, Yang Zhang, Kaizhi Qian, Yonggan Fu, Yingyan Lin
- Abstract要約: METHODNSは、強力な多言語スケーラビリティと低リソース適応性を同時に実現している。
我々のフレームワークは、最先端(SOTA)メソッドよりも30%少ない推論オーバーヘッドで、0.13$sim$2.41低い文字誤り率(CER)を達成する。
- 参考スコア(独自算出の注目度): 28.592569051244375
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the impressive performance recently achieved by automatic speech
recognition (ASR), we observe two primary challenges that hinder its broader
applications: (1) The difficulty of introducing scalability into the model to
support more languages with limited training, inference, and storage overhead;
(2) The low-resource adaptation ability that enables effective low-resource
adaptation while avoiding over-fitting and catastrophic forgetting issues.
Inspired by recent findings, we hypothesize that we can address the above
challenges with modules widely shared across languages. To this end, we propose
an ASR framework, dubbed \METHODNS, that, \textit{for the first time},
simultaneously achieves strong multilingual scalability and low-resource
adaptation ability thanks to its modularize-then-assemble strategy.
Specifically, \METHOD learns a small set of generalizable sub-modules and
adaptively assembles them for different languages to reduce the multilingual
overhead and enable effective knowledge transfer for low-resource adaptation.
Extensive experiments and visualizations demonstrate that \METHOD can
effectively discover language similarity and improve multilingual and
low-resource ASR performance over state-of-the-art (SOTA) methods, e.g., under
multilingual-ASR, our framework achieves a 0.13$\sim$2.41 lower character error
rate (CER) with 30\% smaller inference overhead over SOTA solutions on
multilingual ASR and a comparable CER, with nearly 50 times fewer trainable
parameters over SOTA solutions on low-resource tuning, respectively.
- Abstract(参考訳): 自動音声認識(ASR)によって最近達成された印象的な性能にもかかわらず,(1)訓練や推論,ストレージオーバーヘッドに制限のある言語をサポートするため,モデルにスケーラビリティを導入することの難しさ,(2)低リソース適応能力は,過度な適合や破滅的な忘れの問題を回避しつつ実現可能であること,の2つの大きな課題が観察されている。
最近の発見に触発されて、言語間で広く共有されるモジュールで上記の課題に対処できるという仮説を立てた。
そこで本研究では, マルチリンガルなスケーラビリティと低リソース適応性を両立させると同時に, モジュール化・階層化戦略により実現した ASR フレームワークである \METHODNS を提案する。
特に \method は、一般化可能なサブモジュールの小さなセットを学習し、それらを異なる言語向けに適応的に組み立てて、マルチリンガルのオーバーヘッドを減らし、低リソース適応のための効果的な知識転送を可能にする。
Extensive experiments and visualizations demonstrate that \METHOD can effectively discover language similarity and improve multilingual and low-resource ASR performance over state-of-the-art (SOTA) methods, e.g., under multilingual-ASR, our framework achieves a 0.13$\sim$2.41 lower character error rate (CER) with 30\% smaller inference overhead over SOTA solutions on multilingual ASR and a comparable CER, with nearly 50 times fewer trainable parameters over SOTA solutions on low-resource tuning, respectively.
関連論文リスト
- Parameter-efficient Adaptation of Multilingual Multimodal Models for Low-resource ASR [25.566285376879094]
マルチモーダルモデルは、テキストのみの適応とパラメータ効率のよいASR微調整によって、ラベルなしのテキストを活用することができる。
ゼロショット設定でベースラインよりも17%のWER削減を実現し,ハイリソース言語からの言語間移動を示す。
論文 参考訳(メタデータ) (2024-10-17T11:19:44Z) - Weighted Cross-entropy for Low-Resource Languages in Multilingual Speech Recognition [2.7247388777405597]
重み付きクロスエントロピーの新たな応用法を提案する。
我々は5つの高ソース言語と1つの低リソース言語でWhisper多言語ASRモデルを微調整する。
論文 参考訳(メタデータ) (2024-09-25T14:09:09Z) - Meta-Whisper: Speech-Based Meta-ICL for ASR on Low-Resource Languages [51.12146889808824]
Meta-Whisperは、低リソース言語の自動音声認識を改善するための新しいアプローチである。
これにより、Whisperは、広範囲の微調整をすることなく、馴染みのない言語で音声を認識できる能力を高める。
論文 参考訳(メタデータ) (2024-09-16T16:04:16Z) - Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。
我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。
Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文 参考訳(メタデータ) (2024-07-04T15:14:17Z) - MoE-CT: A Novel Approach For Large Language Models Training With Resistance To Catastrophic Forgetting [53.77590764277568]
ベースモデルの学習を多言語拡張プロセスから分離する新しいMoE-CTアーキテクチャを提案する。
我々の設計では、元のLLMパラメータを凍結し、高リソース言語のパフォーマンスを保護しますが、様々な言語データセットに基づいてトレーニングされたMoEモジュールは、低リソース言語の習熟度を向上します。
論文 参考訳(メタデータ) (2024-06-25T11:03:45Z) - Efficient Compression of Multitask Multilingual Speech Models [0.0]
DistilWhisperは、マルチタスクとマルチ言語機能の利点を維持しながら、これらの言語におけるASRのパフォーマンスギャップを埋めることができる。
提案手法は, 言語専門家を用いた軽量モジュール型ASR微調整と, ささやかな大口径v2からの知識蒸留の2つの戦略を含む。
論文 参考訳(メタデータ) (2024-05-02T03:11:59Z) - Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。
提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文 参考訳(メタデータ) (2024-04-11T04:22:15Z) - Multilingual DistilWhisper: Efficient Distillation of Multi-task Speech
Models via Language-Specific Experts [14.999359332108767]
表現不足言語に対するASRの性能ギャップを埋めるため、DistilWhisperを提案する。
提案手法は, 言語専門家を用いた軽量モジュール型ASR微調整と, ささやかな大口径v2からの知識蒸留の2つの戦略を含む。
その結果,本手法は通常のファインチューニングやLoRAアダプタよりも効果的であることがわかった。
論文 参考訳(メタデータ) (2023-11-02T08:37:30Z) - A Multi-level Supervised Contrastive Learning Framework for Low-Resource
Natural Language Inference [54.678516076366506]
自然言語推論(NLI)は、自然言語理解において、ますます重要な課題である。
本稿では,低リソースな自然言語推論のためのマルチSCLという,マルチレベルの教師付きコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-31T05:54:18Z) - Adversarial Meta Sampling for Multilingual Low-Resource Speech
Recognition [159.9312272042253]
多言語メタラーニングASR(MML-ASR)を改善するための新しい逆メタサンプリング(AMS)アプローチを開発しています。
AMSは、各ソース言語のタスクサンプリング確率を適応的に決定する。
MML-ASRにAMSを適用すると、2つの多言語データセットの実験結果が大幅にパフォーマンス向上します。
論文 参考訳(メタデータ) (2020-12-22T09:33:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。