論文の概要: Learn and Don't Forget: Adding a New Language to ASR Foundation Models
- arxiv url: http://arxiv.org/abs/2407.06800v1
- Date: Tue, 9 Jul 2024 12:14:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-10 18:07:16.746540
- Title: Learn and Don't Forget: Adding a New Language to ASR Foundation Models
- Title(参考訳): 学習と忘れる - ASRファンデーションモデルに新しい言語を追加する
- Authors: Mengjie Qian, Siyuan Tang, Rao Ma, Kate M. Knill, Mark J. F. Gales,
- Abstract要約: ファンデーションASRモデルは、ウィスパーの100言語など、多くの言語をサポートすることが多い。
微調整は単純ではあるが、元の集合の精度を低下させることがある。
EWCは特定のターゲット言語のパフォーマンスを維持する可能性に対して、代替的な妥協を提供する。
- 参考スコア(独自算出の注目度): 33.98622415462255
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Foundation ASR models often support many languages, e.g. 100 languages in Whisper. However, there has been limited work on integrating an additional, typically low-resource, language, while maintaining performance on the original language set. Fine-tuning, while simple, may degrade the accuracy of the original set. We compare three approaches that exploit adaptation parameters: soft language code tuning, train only the language code; soft prompt tuning, train prepended tokens; and LoRA where a small set of additional parameters are optimised. Elastic Weight Consolidation (EWC) offers an alternative compromise with the potential to maintain performance in specific target languages. Results show that direct fine-tuning yields the best performance for the new language but degrades existing language capabilities. EWC can address this issue for specific languages. If only adaptation parameters are used, the language capabilities are maintained but at the cost of performance in the new language.
- Abstract(参考訳): ファンデーションASRモデルは、Whisperの100言語など、多くの言語をサポートすることが多い。
しかしながら、オリジナルの言語セットのパフォーマンスを維持しながら、追加の、通常は低リソースの言語を統合する作業は限られている。
微調整は単純ではあるが、元の集合の精度を低下させることがある。
適応パラメータを利用する3つのアプローチを比較する: ソフト言語コードチューニング、言語コードのみのトレーニング、ソフトプロンプトチューニング、事前トークンのトレーニング、小さなパラメータセットが最適化されたLoRA。
Elastic Weight Consolidation (EWC)は、特定のターゲット言語のパフォーマンスを維持する可能性を備えた代替の妥協を提供する。
結果は、直接微調整は、新しい言語で最高のパフォーマンスをもたらすが、既存の言語能力は低下することを示している。
EWCは特定の言語でこの問題に対処できる。
適応パラメータのみを使用する場合、言語能力は維持されるが、新しい言語の性能は維持される。
関連論文リスト
- A Parameter-efficient Language Extension Framework for Multilingual ASR [25.758826304861948]
本稿では,言語拡張のためのアーキテクチャベースのフレームワークを提案する。
パラメータ効率が良く、新しい言語に適応するためにアドオンモジュールを漸進的に組み込むように設計されている。
幅広い低パフォーマンスデータサイズを持つ5つの新しい言語で実験を行う。
論文 参考訳(メタデータ) (2024-06-10T14:46:07Z) - Efficient Adapter Finetuning for Tail Languages in Streaming
Multilingual ASR [44.949146169903074]
不均一な性質と異なる言語の不均衡なデータが、性能劣化を引き起こす可能性がある。
提案手法は,単語誤り率を平均12.2%,ローカライズで最大37.5%削減する。
論文 参考訳(メタデータ) (2024-01-17T06:01:16Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - InstructAlign: High-and-Low Resource Language Alignment via Continual
Crosslingual Instruction Tuning [66.31509106146605]
命令を調整した大規模言語モデル(LLM)は、様々なタスクや言語で顕著な能力を示している。
しかし、利用可能なデータが不足しているため、表現不足の言語に一般化する能力は限られている。
InstructAlignは、LLMが新しい未知の言語を学習済みの高リソース言語と整列できるようにするために、連続的なクロスリンガル命令チューニングを使用する。
論文 参考訳(メタデータ) (2023-05-23T02:51:34Z) - BLOOM+1: Adding Language Support to BLOOM for Zero-Shot Prompting [50.24676567971536]
BLOOMモデルは広く公開されている多言語言語モデルであるが、事前訓練は46言語に限られていた。
既存の言語適応戦略をBLOOMに適用し、8つの新しい言語の性能向上を促すゼロショットをベンチマークする。
データ言語を十分に訓練すれば、多様な言語に適応できると結論付けている。
論文 参考訳(メタデータ) (2022-12-19T15:24:45Z) - Lifting the Curse of Multilinguality by Pre-training Modular
Transformers [72.46919537293068]
多言語事前訓練されたモデルは、多言語間のパフォーマンスが低下する、多言語間の呪いに苦しむ。
言語固有のモジュールを導入し、言語定数当たりのトレーニング可能なパラメータの総数を保ちながら、モデルの総容量を拡大できるようにします。
我々のアプローチは、測定可能な性能低下のないポストホック言語の追加を可能にし、モデルの使用を事前訓練された言語セットに制限しない。
論文 参考訳(メタデータ) (2022-05-12T17:59:56Z) - Continual Learning in Multilingual NMT via Language-Specific Embeddings [92.91823064720232]
共有語彙を小さな言語固有の語彙に置き換え、新しい言語の並列データに新しい埋め込みを微調整する。
元のモデルのパラメータは変更されていないため、初期言語の性能は劣化しない。
論文 参考訳(メタデータ) (2021-10-20T10:38:57Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。