Fugu-MT 論文翻訳(概要): Learning ASR pathways: A sparse multilingual ASR model

論文の概要: Learning ASR pathways: A sparse multilingual ASR model

arxiv url: http://arxiv.org/abs/2209.05735v1
Date: Tue, 13 Sep 2022 05:14:08 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-14 13:05:38.167999
Title: Learning ASR pathways: A sparse multilingual ASR model
Title（参考訳）: ASR経路の学習:スパース多言語ASRモデル
Authors: Mu Yang, Andros Tjandra, Chunxi Liu, David Zhang, Duc Le, John H. L. Hansen, Ozlem Kalinli
Abstract要約: 言語固有のサブネットワーク(パス)を活性化するスパース多言語ASRモデルを提案する。重なり合うサブネットワークによって、共有されたパラメータは、共同で多言語学習を行うことで、低レベルのリソース言語に対する知識伝達を可能にする。提案したASR経路は,高密度モデル(平均5.0%,平均5.0%)と言語に依存しないプルーニングモデル(平均21.4%,平均WER)の両方より優れている。
参考スコア（独自算出の注目度）: 46.63231729706284
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Neural network pruning can be effectively applied to compress automatic speech recognition (ASR) models. However, in multilingual ASR, performing language-agnostic pruning may lead to severe performance degradation on some languages because language-agnostic pruning masks may not fit all languages and discard important language-specific parameters. In this work, we present ASR pathways, a sparse multilingual ASR model that activates language-specific sub-networks ("pathways"), such that the parameters for each language are learned explicitly. With the overlapping sub-networks, the shared parameters can also enable knowledge transfer for lower resource languages via joint multilingual training. We propose a novel algorithm to learn ASR pathways, and evaluate the proposed method on 4 languages with a streaming RNN-T model. Our proposed ASR pathways outperform both dense models (-5.0% average WER) and a language-agnostically pruned model (-21.4% average WER), and provide better performance on low-resource languages compared to the monolingual sparse models.
Abstract（参考訳）: ニューラルネットワークプルーニングは、自動音声認識(ASR)モデルの圧縮に効果的に適用できる。しかし、多言語asrでは、言語非依存のプルーニングは、言語非依存のプルーニングマスクがすべての言語に適合せず、重要な言語固有のパラメータを破棄する可能性があるため、いくつかの言語で深刻なパフォーマンス低下を引き起こす可能性がある。本研究では、言語固有のサブネットワーク(パス)を活性化し、各言語のパラメータを明示的に学習するスパース多言語ASRモデルであるASRパスを提案する。重なり合うサブネットワークにより、共有パラメータは、統合多言語訓練によって、より低いリソース言語に対する知識転送を可能にする。本稿では,ASR経路を学習するための新しいアルゴリズムを提案し,ストリーミングRNN-Tモデルを用いて4言語で提案手法を評価する。提案するasr経路は,高密度モデル (平均wer) と言語非依存プラニングモデル (-21.4%平均wer) を上回っており, 単言語スパースモデルと比較して低リソース言語の性能が向上している。

関連論文リスト

Efficient Multilingual ASR Finetuning via LoRA Language Experts [59.27778147311189]
本稿では,WhisperをベースとしたLoRA言語エキスパートによる多言語ASRをカスタマイズするための効率的な微調整フレームワークを提案する。 LoRAエキスパート融合や知識蒸留により,本手法は従来の微調整法よりも目標言語での認識性能が向上する。実験の結果,提案モデルでは,言語認識および言語認識のシナリオにおいて,約10%と15%の性能向上が得られた。
論文参考訳（メタデータ） (2025-06-11T07:06:27Z)
Enhancing Multilingual ASR for Unseen Languages via Language Embedding Modeling [50.62091603179394]
最も先進的なASRモデルの1つであるWhisperは99の言語を効果的に扱う。しかし、ウィスパーは未確認の言語と戦っているが、それらは事前訓練には含まれていない。本研究では,これらの関係を利用して未知言語上でのASR性能を向上させる手法を提案する。
論文参考訳（メタデータ） (2024-12-21T04:05:43Z)
Meta-Whisper: Speech-Based Meta-ICL for ASR on Low-Resource Languages [51.12146889808824]
Meta-Whisperは、低リソース言語の自動音声認識を改善するための新しいアプローチである。これにより、Whisperは、広範囲の微調整をすることなく、馴染みのない言語で音声を認識できる能力を高める。
論文参考訳（メタデータ） (2024-09-16T16:04:16Z)
Dynamic ASR Pathways: An Adaptive Masking Approach Towards Efficient Pruning of A Multilingual ASR Model [27.916389316449443]
本稿では,多言語ASRモデルを効率的に刈り取るための2つのシナリオにおいて,適応マスキング手法を提案する。提案手法は,固定されたサブネットワーク構造に関する未熟な決定を回避し,動的にサブネットワークに適応する。本手法は,スパース単言語モデルを対象としている場合,既存のプルーニング手法よりも優れていることを示す。
論文参考訳（メタデータ） (2023-09-22T17:30:28Z)
Learning Cross-lingual Mappings for Data Augmentation to Improve Low-Resource Speech Recognition [31.575930914290762]
言語間リソースの爆発は、低リソース言語のデータの不足を補う効果的な方法である。エンドツーエンド音声認識のための学習可能な言語間マッピングの概念を拡張した。その結果,任意のソース言語 ASR モデルを用いて,低リソースターゲット言語認識を行うことが可能であることが示唆された。
論文参考訳（メタデータ） (2023-06-14T15:24:31Z)
Efficient Spoken Language Recognition via Multilabel Classification [53.662747523872305]
我々のモデルは,現在の最先端手法よりも桁違いに小さく,高速でありながら,競争力のある結果が得られることを示す。我々のマルチラベル戦略は、マルチクラス分類よりも非ターゲット言語の方が堅牢である。
論文参考訳（メタデータ） (2023-06-02T23:04:19Z)
From English to More Languages: Parameter-Efficient Model Reprogramming for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文参考訳（メタデータ） (2023-01-19T02:37:56Z)
LAMASSU: Streaming Language-Agnostic Multilingual Speech Recognition and Translation Using Neural Transducers [71.76680102779765]
自動音声認識(ASR)と音声翻訳(ST)はどちらもモデル構造としてニューラルトランスデューサを使用することができる。ニューラルトランスデューサを用いた多言語音声認識および翻訳モデルであるLAMASSUを提案する。
論文参考訳（メタデータ） (2022-11-05T04:03:55Z)
Adaptive Activation Network For Low Resource Multilingual Speech Recognition [30.460501537763736]
ASRモデルの上位層に適応的アクティベーションネットワークを導入する。また,(1)クロス言語学習,(2)アクティベーション関数をソース言語からターゲット言語に置き換える,(2)多言語学習という2つの手法を提案する。 IARPA Babelデータセットに関する実験により、我々のアプローチは、オフスクラッチトレーニングや従来のボトルネック機能に基づく手法よりも優れていることを示した。
論文参考訳（メタデータ） (2022-05-28T04:02:59Z)
A Survey of Multilingual Models for Automatic Speech Recognition [6.657361001202456]
言語間移動は多言語自動音声認識の課題に対する魅力的な解法である。自己監督学習の最近の進歩は、多言語ASRモデルで使用されるラベルなし音声データへの道を開いた。多様な言語や技術の研究から多言語モデルを構築するためのベストプラクティスを提示する。
論文参考訳（メタデータ） (2022-02-25T09:31:40Z)
UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文参考訳（メタデータ） (2020-12-31T11:37:28Z)
How Phonotactics Affect Multilingual and Zero-shot ASR Performance [74.70048598292583]
Transformer encoder-decoderモデルは、トレーニング中に提示された言語のIPA転写において、多言語データをうまく活用することが示されている。我々は,エンコーダデコーダをAMとLMを分離したハイブリッドASRシステムに置き換える。交叉音韻律のモデル化による利得は限定的であり,強すぎるモデルがゼロショット転送を損なう可能性があることを示す。
論文参考訳（メタデータ） (2020-10-22T23:07:24Z)
Streaming End-to-End Bilingual ASR Systems with Joint Language Identification [19.09014345299161]
本稿では,ASRと言語識別の両方を実行するストリーミング,エンドツーエンド,バイリンガルシステムを提案する。提案手法は、アメリカ合衆国で話される英語とスペイン語、インドで話される英語とヒンディー語という2つの言語対に適用される。
論文参考訳（メタデータ） (2020-07-08T05:00:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。