論文の概要: Learning ASR pathways: A sparse multilingual ASR model
- arxiv url: http://arxiv.org/abs/2209.05735v1
- Date: Tue, 13 Sep 2022 05:14:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-14 13:05:38.167999
- Title: Learning ASR pathways: A sparse multilingual ASR model
- Title(参考訳): ASR経路の学習:スパース多言語ASRモデル
- Authors: Mu Yang, Andros Tjandra, Chunxi Liu, David Zhang, Duc Le, John H. L.
Hansen, Ozlem Kalinli
- Abstract要約: 言語固有のサブネットワーク(パス)を活性化するスパース多言語ASRモデルを提案する。
重なり合うサブネットワークによって、共有されたパラメータは、共同で多言語学習を行うことで、低レベルのリソース言語に対する知識伝達を可能にする。
提案したASR経路は,高密度モデル(平均5.0%,平均5.0%)と言語に依存しないプルーニングモデル(平均21.4%,平均WER)の両方より優れている。
- 参考スコア(独自算出の注目度): 46.63231729706284
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural network pruning can be effectively applied to compress automatic
speech recognition (ASR) models. However, in multilingual ASR, performing
language-agnostic pruning may lead to severe performance degradation on some
languages because language-agnostic pruning masks may not fit all languages and
discard important language-specific parameters. In this work, we present ASR
pathways, a sparse multilingual ASR model that activates language-specific
sub-networks ("pathways"), such that the parameters for each language are
learned explicitly. With the overlapping sub-networks, the shared parameters
can also enable knowledge transfer for lower resource languages via joint
multilingual training. We propose a novel algorithm to learn ASR pathways, and
evaluate the proposed method on 4 languages with a streaming RNN-T model. Our
proposed ASR pathways outperform both dense models (-5.0% average WER) and a
language-agnostically pruned model (-21.4% average WER), and provide better
performance on low-resource languages compared to the monolingual sparse
models.
- Abstract(参考訳): ニューラルネットワークプルーニングは、自動音声認識(ASR)モデルの圧縮に効果的に適用できる。
しかし、多言語asrでは、言語非依存のプルーニングは、言語非依存のプルーニングマスクがすべての言語に適合せず、重要な言語固有のパラメータを破棄する可能性があるため、いくつかの言語で深刻なパフォーマンス低下を引き起こす可能性がある。
本研究では、言語固有のサブネットワーク(パス)を活性化し、各言語のパラメータを明示的に学習するスパース多言語ASRモデルであるASRパスを提案する。
重なり合うサブネットワークにより、共有パラメータは、統合多言語訓練によって、より低いリソース言語に対する知識転送を可能にする。
本稿では,ASR経路を学習するための新しいアルゴリズムを提案し,ストリーミングRNN-Tモデルを用いて4言語で提案手法を評価する。
提案するasr経路は,高密度モデル (平均wer) と言語非依存プラニングモデル (-21.4%平均wer) を上回っており, 単言語スパースモデルと比較して低リソース言語の性能が向上している。
関連論文リスト
- Meta-Whisper: Speech-Based Meta-ICL for ASR on Low-Resource Languages [51.12146889808824]
Meta-Whisperは、低リソース言語の自動音声認識を改善するための新しいアプローチである。
これにより、Whisperは、広範囲の微調整をすることなく、馴染みのない言語で音声を認識できる能力を高める。
論文 参考訳(メタデータ) (2024-09-16T16:04:16Z) - Dynamic ASR Pathways: An Adaptive Masking Approach Towards Efficient
Pruning of A Multilingual ASR Model [27.916389316449443]
本稿では,多言語ASRモデルを効率的に刈り取るための2つのシナリオにおいて,適応マスキング手法を提案する。
提案手法は,固定されたサブネットワーク構造に関する未熟な決定を回避し,動的にサブネットワークに適応する。
本手法は,スパース単言語モデルを対象としている場合,既存のプルーニング手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-09-22T17:30:28Z) - Learning Cross-lingual Mappings for Data Augmentation to Improve
Low-Resource Speech Recognition [31.575930914290762]
言語間リソースの爆発は、低リソース言語のデータの不足を補う効果的な方法である。
エンドツーエンド音声認識のための学習可能な言語間マッピングの概念を拡張した。
その結果,任意のソース言語 ASR モデルを用いて,低リソースターゲット言語認識を行うことが可能であることが示唆された。
論文 参考訳(メタデータ) (2023-06-14T15:24:31Z) - Efficient Spoken Language Recognition via Multilabel Classification [53.662747523872305]
我々のモデルは,現在の最先端手法よりも桁違いに小さく,高速でありながら,競争力のある結果が得られることを示す。
我々のマルチラベル戦略は、マルチクラス分類よりも非ターゲット言語の方が堅牢である。
論文 参考訳(メタデータ) (2023-06-02T23:04:19Z) - From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z) - LAMASSU: Streaming Language-Agnostic Multilingual Speech Recognition and
Translation Using Neural Transducers [71.76680102779765]
自動音声認識(ASR)と音声翻訳(ST)はどちらもモデル構造としてニューラルトランスデューサを使用することができる。
ニューラルトランスデューサを用いた多言語音声認識および翻訳モデルであるLAMASSUを提案する。
論文 参考訳(メタデータ) (2022-11-05T04:03:55Z) - Adaptive Activation Network For Low Resource Multilingual Speech
Recognition [30.460501537763736]
ASRモデルの上位層に適応的アクティベーションネットワークを導入する。
また,(1)クロス言語学習,(2)アクティベーション関数をソース言語からターゲット言語に置き換える,(2)多言語学習という2つの手法を提案する。
IARPA Babelデータセットに関する実験により、我々のアプローチは、オフスクラッチトレーニングや従来のボトルネック機能に基づく手法よりも優れていることを示した。
論文 参考訳(メタデータ) (2022-05-28T04:02:59Z) - A Survey of Multilingual Models for Automatic Speech Recognition [6.657361001202456]
言語間移動は多言語自動音声認識の課題に対する魅力的な解法である。
自己監督学習の最近の進歩は、多言語ASRモデルで使用されるラベルなし音声データへの道を開いた。
多様な言語や技術の研究から多言語モデルを構築するためのベストプラクティスを提示する。
論文 参考訳(メタデータ) (2022-02-25T09:31:40Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - How Phonotactics Affect Multilingual and Zero-shot ASR Performance [74.70048598292583]
Transformer encoder-decoderモデルは、トレーニング中に提示された言語のIPA転写において、多言語データをうまく活用することが示されている。
我々は,エンコーダデコーダをAMとLMを分離したハイブリッドASRシステムに置き換える。
交叉音韻律のモデル化による利得は限定的であり,強すぎるモデルがゼロショット転送を損なう可能性があることを示す。
論文 参考訳(メタデータ) (2020-10-22T23:07:24Z) - Streaming End-to-End Bilingual ASR Systems with Joint Language
Identification [19.09014345299161]
本稿では,ASRと言語識別の両方を実行するストリーミング,エンドツーエンド,バイリンガルシステムを提案する。
提案手法は、アメリカ合衆国で話される英語とスペイン語、インドで話される英語とヒンディー語という2つの言語対に適用される。
論文 参考訳(メタデータ) (2020-07-08T05:00:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。