論文の概要: Efficient Adapter Finetuning for Tail Languages in Streaming
Multilingual ASR
- arxiv url: http://arxiv.org/abs/2401.08992v1
- Date: Wed, 17 Jan 2024 06:01:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 16:49:17.239160
- Title: Efficient Adapter Finetuning for Tail Languages in Streaming
Multilingual ASR
- Title(参考訳): ストリーミング多言語asrにおける末尾言語の効率的なアダプタ微調整
- Authors: Junwen Bai, Bo Li, Qiujia Li, Tara N. Sainath, Trevor Strohman
- Abstract要約: 不均一な性質と異なる言語の不均衡なデータが、性能劣化を引き起こす可能性がある。
提案手法は,単語誤り率を平均12.2%,ローカライズで最大37.5%削減する。
- 参考スコア(独自算出の注目度): 44.949146169903074
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The end-to-end ASR model is often desired in the streaming multilingual
scenario since it is easier to deploy and can benefit from pre-trained speech
models such as powerful foundation models. Meanwhile, the heterogeneous nature
and imbalanced data abundance of different languages may cause performance
degradation, leading to asynchronous peak performance for different languages
during training, especially on tail ones. Sometimes even the data itself may
become unavailable as a result of the enhanced privacy protection. Existing
work tend to significantly increase the model size or learn language-specific
decoders to accommodate each language separately. In this study, we explore
simple yet effective Language-Dependent Adapter (LDA) finetuning under a
cascaded Conformer transducer framework enhanced by teacher pseudo-labeling for
tail languages in the streaming multilingual ASR. The adapter only accounts for
0.4% of the full model per language. It is plugged into the frozen foundation
model and is the only trainable module during the finetuning process with noisy
student training. The final model merges the adapter parameters from different
checkpoints for different languages. The model performance is validated on a
challenging multilingual dictation dataset, which includes 39 tail languages
across Latin, Greek, Arabic, etc. Our proposed method brings 12.2% word error
rate reduction on average and up to 37.5% on a single locale. Furthermore, we
show that our parameter-efficient LDA can match the quality of the full model
finetuning, thus greatly alleviating the asynchronous peak performance issue.
- Abstract(参考訳): エンドツーエンドのASRモデルは、デプロイが容易で、強力な基礎モデルのような事前訓練された音声モデルの恩恵を受けることができるため、ストリーミングマルチ言語シナリオでしばしば望まれる。
一方、異なる言語の異種性や不均衡なデータ量によってパフォーマンスが低下し、トレーニング中、特に尾の言語では非同期ピーク性能が向上する可能性がある。
プライバシー保護が強化された結果、データ自体が利用できない場合もあります。
既存の作業はモデルのサイズを大きく増やしたり、言語固有のデコーダを学習したりして、それぞれの言語を別々に扱う傾向がある。
本研究では,ストリーミング多言語ASRにおける尾語に対する教師の擬似ラベル付けにより強化されたカスケードコンバータトランスデューサフレームワークを用いて,単純で効果的な言語依存型アダプタ(LDA)の微調整について検討する。
アダプタは言語ごとのモデル全体の0.4%を占めるのみである。
フリーズファンデーションモデルにプラグインされ、ノイズの多い学生のトレーニングを施したファインタニングプロセスで唯一トレーニング可能なモジュールである。
最後のモデルは、異なる言語に対する異なるチェックポイントからアダプタパラメータをマージする。
モデルのパフォーマンスは、ラテン語、ギリシア語、アラビア語などの39のテール言語を含む、挑戦的な多言語述語データセット上で検証される。
提案手法では,単語誤り率を平均12.2%,単一ロケールで最大37.5%削減する。
さらに、パラメータ効率のよいLDAは、フルモデルファインタニングの品質と一致し、非同期ピーク性能の問題を大幅に軽減できることを示す。
関連論文リスト
- On the Analysis of Cross-Lingual Prompt Tuning for Decoder-based
Multilingual Model [49.81429697921861]
多言語自己回帰モデルにおけるパラメータ効率細調整(PEFT)と言語間タスクの相互作用について検討する。
高速チューニングは、微調整よりも低リソース言語の性能向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-14T00:43:33Z) - One Adapter for All Programming Languages? Adapter Tuning for Code
Search and Summarization [27.27985393610581]
最近のUniXcoderとCodeT5では,多言語微調整により性能が低下することがわかった。
多言語モデルにおける致命的な忘れの問題を軽減するため、事前訓練されたモデルパラメータを全て修正し、パラメータ効率の高い構造アダプタを挿入し、微調整する。
3つの探索課題に関する実験により、アダプタチューニングはフルモデルの微調整を著しく上回り、破滅的な忘れを効果的に克服することを示した。
論文 参考訳(メタデータ) (2023-03-28T08:49:54Z) - Improving Massively Multilingual ASR With Auxiliary CTC Objectives [40.10307386370194]
FLEURSは102言語によるオープンASRベンチマークである。
我々は,最近のコネクショニスト時間分類(CTC)研究から着想を得た手法を考察し,モデルが多数の言語を扱えるようにした。
コンバータアーキテクチャを用いた自己教師型モデルを用いた最先端システムでは,相対28.4%CERによるFLEURSの先行研究よりも改善されている。
論文 参考訳(メタデータ) (2023-02-24T18:59:51Z) - Parameter-efficient Zero-shot Transfer for Cross-Language Dense
Retrieval with Adapters [20.168480824057923]
クロスランゲージ検索モデルを作成するための一般的なアプローチは、モノリンガル事前学習言語モデルを検索モデルに置き換えることである。
単言語データを用いて学習したモデルは、クロスランゲージ情報検索設定に移行する際に、モデル全体を微調整するよりも効果的であることを示す。
論文 参考訳(メタデータ) (2022-12-20T17:25:04Z) - Language-Family Adapters for Low-Resource Multilingual Neural Machine
Translation [129.99918589405675]
自己超越で訓練された大規模多言語モデルは、幅広い自然言語処理タスクにおいて最先端の結果を達成する。
マルチリンガルな微調整は低リソース言語のパフォーマンスを向上させるが、モデル全体を変更する必要があるため、極めて高価である。
言語間移動を容易にするため,mBART-50上で言語ファミリーアダプタを訓練する。
論文 参考訳(メタデータ) (2022-09-30T05:02:42Z) - OneAligner: Zero-shot Cross-lingual Transfer with One Rich-Resource
Language Pair for Low-Resource Sentence Retrieval [91.76575626229824]
文検索タスク用に特別に設計されたアライメントモデルであるOneAlignerを提案する。
大規模並列多言語コーパス(OPUS-100)の全ての言語ペアで訓練すると、このモデルは最先端の結果が得られる。
実験結果から,文アライメントタスクの性能はモノリンガルおよび並列データサイズに大きく依存することがわかった。
論文 参考訳(メタデータ) (2022-05-17T19:52:42Z) - Parameter-Efficient Neural Reranking for Cross-Lingual and Multilingual
Retrieval [66.69799641522133]
最先端のニューラルランカーは、お腹が空いていることで悪名高い。
現在のアプローチでは、英語データに基づいて訓練されたローダを、多言語エンコーダを用いて他の言語や言語間設定に転送するのが一般的である。
本研究では,Sparse Fine-Tuning Masks (SFTMs) とAdapters (Adapters) の2つのパラメータ効率のアプローチにより,より軽量で効果的なゼロショット転送が可能となることを示す。
論文 参考訳(メタデータ) (2022-04-05T15:44:27Z) - Continual Learning in Multilingual NMT via Language-Specific Embeddings [92.91823064720232]
共有語彙を小さな言語固有の語彙に置き換え、新しい言語の並列データに新しい埋め込みを微調整する。
元のモデルのパラメータは変更されていないため、初期言語の性能は劣化しない。
論文 参考訳(メタデータ) (2021-10-20T10:38:57Z) - Lightweight Adapter Tuning for Multilingual Speech Translation [47.89784337058167]
適応モジュールはNLPのファインチューニングの代替として最近導入された。
本稿では,多言語音声翻訳用アダプタの包括的解析を提案する。
論文 参考訳(メタデータ) (2021-06-02T20:51:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。