Fugu-MT 論文翻訳(概要): Master-ASR: Achieving Multilingual Scalability and Low-Resource Adaptation in ASR with Modular Learning

論文の概要: Master-ASR: Achieving Multilingual Scalability and Low-Resource Adaptation in ASR with Modular Learning

arxiv url: http://arxiv.org/abs/2306.15686v1
Date: Fri, 23 Jun 2023 16:23:00 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-02 13:18:12.985391
Title: Master-ASR: Achieving Multilingual Scalability and Low-Resource Adaptation in ASR with Modular Learning
Title（参考訳）: Master-ASR: モジュール学習によるASRにおける多言語拡張性と低リソース適応の実現
Authors: Zhongzhi Yu, Yang Zhang, Kaizhi Qian, Yonggan Fu, Yingyan Lin
Abstract要約: METHODNSは、強力な多言語スケーラビリティと低リソース適応性を同時に実現している。我々のフレームワークは、最先端(SOTA)メソッドよりも30%少ない推論オーバーヘッドで、0.13$sim$2.41低い文字誤り率(CER)を達成する。
参考スコア（独自算出の注目度）: 28.592569051244375
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Despite the impressive performance recently achieved by automatic speech recognition (ASR), we observe two primary challenges that hinder its broader applications: (1) The difficulty of introducing scalability into the model to support more languages with limited training, inference, and storage overhead; (2) The low-resource adaptation ability that enables effective low-resource adaptation while avoiding over-fitting and catastrophic forgetting issues. Inspired by recent findings, we hypothesize that we can address the above challenges with modules widely shared across languages. To this end, we propose an ASR framework, dubbed \METHODNS, that, \textit{for the first time}, simultaneously achieves strong multilingual scalability and low-resource adaptation ability thanks to its modularize-then-assemble strategy. Specifically, \METHOD learns a small set of generalizable sub-modules and adaptively assembles them for different languages to reduce the multilingual overhead and enable effective knowledge transfer for low-resource adaptation. Extensive experiments and visualizations demonstrate that \METHOD can effectively discover language similarity and improve multilingual and low-resource ASR performance over state-of-the-art (SOTA) methods, e.g., under multilingual-ASR, our framework achieves a 0.13$\sim$2.41 lower character error rate (CER) with 30\% smaller inference overhead over SOTA solutions on multilingual ASR and a comparable CER, with nearly 50 times fewer trainable parameters over SOTA solutions on low-resource tuning, respectively.
Abstract（参考訳）: 自動音声認識(ASR)によって最近達成された印象的な性能にもかかわらず,(1)訓練や推論,ストレージオーバーヘッドに制限のある言語をサポートするため,モデルにスケーラビリティを導入することの難しさ,(2)低リソース適応能力は,過度な適合や破滅的な忘れの問題を回避しつつ実現可能であること,の2つの大きな課題が観察されている。最近の発見に触発されて、言語間で広く共有されるモジュールで上記の課題に対処できるという仮説を立てた。そこで本研究では, マルチリンガルなスケーラビリティと低リソース適応性を両立させると同時に, モジュール化・階層化戦略により実現した ASR フレームワークである \METHODNS を提案する。特に \method は、一般化可能なサブモジュールの小さなセットを学習し、それらを異なる言語向けに適応的に組み立てて、マルチリンガルのオーバーヘッドを減らし、低リソース適応のための効果的な知識転送を可能にする。 Extensive experiments and visualizations demonstrate that \METHOD can effectively discover language similarity and improve multilingual and low-resource ASR performance over state-of-the-art (SOTA) methods, e.g., under multilingual-ASR, our framework achieves a 0.13$\sim$2.41 lower character error rate (CER) with 30\% smaller inference overhead over SOTA solutions on multilingual ASR and a comparable CER, with nearly 50 times fewer trainable parameters over SOTA solutions on low-resource tuning, respectively.

関連論文リスト

Efficient Multilingual ASR Finetuning via LoRA Language Experts [59.27778147311189]
本稿では,WhisperをベースとしたLoRA言語エキスパートによる多言語ASRをカスタマイズするための効率的な微調整フレームワークを提案する。 LoRAエキスパート融合や知識蒸留により,本手法は従来の微調整法よりも目標言語での認識性能が向上する。実験の結果,提案モデルでは,言語認識および言語認識のシナリオにおいて,約10%と15%の性能向上が得られた。
論文参考訳（メタデータ） (2025-06-11T07:06:27Z)
RetrieveAll: A Multilingual Named Entity Recognition Framework with Large Language Models [7.867158538366131]
既存の多言語NER法は多言語適応過程において言語干渉に直面する。動的LoRAに基づく多言語NERフレームワークRetrieveAllを提案する。本稿では,データ固有のポテンシャルをフル活用した粒界知識拡張手法を提案する。
論文参考訳（メタデータ） (2025-05-25T12:52:18Z)
Low-Rank and Sparse Model Merging for Multi-Lingual Speech Recognition and Translation [12.090488308404765]
異なる言語やタスクでトレーニングされたモデルを効率的に統合するテクニックであるLoRS-Mergingを紹介する。 LoRS-Mergingは、従来のマルチタスクトレーニングベースラインと比較して、単語エラー率を10%削減し、BLEUスコアを4%改善する。
論文参考訳（メタデータ） (2025-02-24T18:06:57Z)
Enhancing Code Generation for Low-Resource Languages: No Silver Bullet [55.39571645315926]
大規模言語モデル(LLM)は、プログラミング言語の構文、意味論、使用パターンを学ぶために、大規模で多様なデータセットに依存している。低リソース言語では、そのようなデータの限られた可用性は、モデルを効果的に一般化する能力を損なう。本稿では,低リソース言語におけるLLMの性能向上のためのいくつかの手法の有効性を実証研究する。
論文参考訳（メタデータ） (2025-01-31T12:23:28Z)
Parameter-efficient Adaptation of Multilingual Multimodal Models for Low-resource ASR [25.566285376879094]
マルチモーダルモデルは、テキストのみの適応とパラメータ効率のよいASR微調整によって、ラベルなしのテキストを活用することができる。ゼロショット設定でベースラインよりも17%のWER削減を実現し,ハイリソース言語からの言語間移動を示す。
論文参考訳（メタデータ） (2024-10-17T11:19:44Z)
Weighted Cross-entropy for Low-Resource Languages in Multilingual Speech Recognition [2.7247388777405597]
重み付きクロスエントロピーの新たな応用法を提案する。我々は5つの高ソース言語と1つの低リソース言語でWhisper多言語ASRモデルを微調整する。
論文参考訳（メタデータ） (2024-09-25T14:09:09Z)
Meta-Whisper: Speech-Based Meta-ICL for ASR on Low-Resource Languages [51.12146889808824]
Meta-Whisperは、低リソース言語の自動音声認識を改善するための新しいアプローチである。これにより、Whisperは、広範囲の微調整をすることなく、馴染みのない言語で音声を認識できる能力を高める。
論文参考訳（メタデータ） (2024-09-16T16:04:16Z)
Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。 Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文参考訳（メタデータ） (2024-07-04T15:14:17Z)
MoE-CT: A Novel Approach For Large Language Models Training With Resistance To Catastrophic Forgetting [53.77590764277568]
ベースモデルの学習を多言語拡張プロセスから分離する新しいMoE-CTアーキテクチャを提案する。我々の設計では、元のLLMパラメータを凍結し、高リソース言語のパフォーマンスを保護しますが、様々な言語データセットに基づいてトレーニングされたMoEモジュールは、低リソース言語の習熟度を向上します。
論文参考訳（メタデータ） (2024-06-25T11:03:45Z)
Efficient Compression of Multitask Multilingual Speech Models [0.0]
DistilWhisperは、マルチタスクとマルチ言語機能の利点を維持しながら、これらの言語におけるASRのパフォーマンスギャップを埋めることができる。提案手法は, 言語専門家を用いた軽量モジュール型ASR微調整と, ささやかな大口径v2からの知識蒸留の2つの戦略を含む。
論文参考訳（メタデータ） (2024-05-02T03:11:59Z)
Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文参考訳（メタデータ） (2024-04-11T04:22:15Z)
Multilingual DistilWhisper: Efficient Distillation of Multi-task Speech Models via Language-Specific Experts [14.999359332108767]
表現不足言語に対するASRの性能ギャップを埋めるため、DistilWhisperを提案する。提案手法は, 言語専門家を用いた軽量モジュール型ASR微調整と, ささやかな大口径v2からの知識蒸留の2つの戦略を含む。その結果,本手法は通常のファインチューニングやLoRAアダプタよりも効果的であることがわかった。
論文参考訳（メタデータ） (2023-11-02T08:37:30Z)
A Multi-level Supervised Contrastive Learning Framework for Low-Resource Natural Language Inference [54.678516076366506]
自然言語推論(NLI)は、自然言語理解において、ますます重要な課題である。本稿では,低リソースな自然言語推論のためのマルチSCLという,マルチレベルの教師付きコントラスト学習フレームワークを提案する。
論文参考訳（メタデータ） (2022-05-31T05:54:18Z)
Adversarial Meta Sampling for Multilingual Low-Resource Speech Recognition [159.9312272042253]
多言語メタラーニングASR(MML-ASR)を改善するための新しい逆メタサンプリング(AMS)アプローチを開発しています。 AMSは、各ソース言語のタスクサンプリング確率を適応的に決定する。 MML-ASRにAMSを適用すると、2つの多言語データセットの実験結果が大幅にパフォーマンス向上します。
論文参考訳（メタデータ） (2020-12-22T09:33:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。