論文の概要: Parameter-Efficient Finetuning for Robust Continual Multilingual
Learning
- arxiv url: http://arxiv.org/abs/2209.06767v3
- Date: Mon, 28 Aug 2023 17:59:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-30 01:44:48.628737
- Title: Parameter-Efficient Finetuning for Robust Continual Multilingual
Learning
- Title(参考訳): 頑健な連続多言語学習のためのパラメータ効率の良いファインタニング
- Authors: Kartikeya Badola, Shachi Dave, Partha Talukdar
- Abstract要約: 連続多言語学習(CML)問題の導入と研究
事前訓練された多言語モデルは、ステージに到達した新しいデータを使用して定期的に更新される。
もし新しいデータが言語のサブセットにのみ存在する場合、得られたモデルは最新の更新に含まれる言語でのみ性能が向上し、残りの言語でのパフォーマンスは大幅に低下する。
LAFT-URIELは,モデルが更新後に改善する言語の数を増やすことを目的とした,パラメータ効率の高い微調整戦略である。
- 参考スコア(独自算出の注目度): 15.823345795987237
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce and study the problem of Continual Multilingual Learning (CML)
where a previously trained multilingual model is periodically updated using new
data arriving in stages. If the new data is present only in a subset of
languages, we find that the resulting model shows improved performance only on
the languages included in the latest update (and a few closely related
languages) while its performance on all the remaining languages degrade
significantly. We address this challenge by proposing LAFT-URIEL, a
parameter-efficient finetuning strategy which aims to increase the number of
languages on which the model improves after an update, while reducing the
magnitude of loss in performance for the remaining languages. LAFT-URIEL uses
linguistic knowledge to balance overfitting and knowledge sharing across
languages, allowing for an additional 25% of task languages to see an
improvement in performance after an update, while also reducing the average
magnitude of losses on the remaining languages by 78% relative.
- Abstract(参考訳): 本稿では,前訓練された多言語モデルが段階的に更新される連続的多言語学習(cml)の問題を紹介し,検討する。
新しいデータが言語のサブセットにのみ存在する場合、結果のモデルは最新のアップデート(およびいくつかの密接に関連する言語)に含まれる言語でのみパフォーマンスが向上し、残りの言語でのパフォーマンスは著しく低下する。
我々は、モデルが更新後に改善される言語数を増やすことを目的としたパラメータ効率の良い微調整戦略であるlaft-urielを提案することで、この課題に対処する。
LAFT-URIELは言語間のオーバーフィッティングと知識共有のバランスをとるために言語知識を使用し、タスク言語の25%の追加で更新後のパフォーマンスが向上すると同時に、残りの言語に対する平均的な損失を78%削減する。
関連論文リスト
- LlamaTurk: Adapting Open-Source Generative Large Language Models for Low-Resource Language [2.9914612342004503]
本研究は、主に英語で訓練された大規模な言語モデルを低リソース言語に適応させることにより、代替的な解決策を探求する。
継続訓練,命令細調整,タスク特化細調整,語彙拡張など,さまざまな戦略を評価する。
その結果、継続学習は、難易度スコアに反映されるような言語理解を向上し、タスク固有のチューニングは、一般的に下流タスクのパフォーマンスを向上することを示した。
論文 参考訳(メタデータ) (2024-05-13T13:41:59Z) - No Train but Gain: Language Arithmetic for training-free Language Adapters enhancement [59.37775534633868]
本稿では,学習不要な後処理が可能な言語演算法を提案する。
提案手法の有効性を,MAD-Xに基づく言語間スキームの3つの下流課題に適用した。
論文 参考訳(メタデータ) (2024-04-24T08:52:40Z) - Enhancing Multilingual Capabilities of Large Language Models through
Self-Distillation from Resource-Rich Languages [60.162717568496355]
大規模言語モデル(LLM)は多言語コーパスで事前訓練されている。
彼らのパフォーマンスは、いくつかのリソース豊富な言語と比較して、ほとんどの言語でまだ遅れています。
論文 参考訳(メタデータ) (2024-02-19T15:07:32Z) - On the Analysis of Cross-Lingual Prompt Tuning for Decoder-based
Multilingual Model [49.81429697921861]
多言語自己回帰モデルにおけるパラメータ効率細調整(PEFT)と言語間タスクの相互作用について検討する。
高速チューニングは、微調整よりも低リソース言語の性能向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-14T00:43:33Z) - Adapting Multilingual Speech Representation Model for a New,
Underresourced Language through Multilingual Fine-tuning and Continued
Pretraining [2.3513645401551333]
既存の多言語wav2vec 2.0モデルを新しい言語に適用する可能性を検討する。
この結果から, 継続事前学習がwav2vec 2.0モデルを新しい言語に適応させる最も効果的な方法であることが示唆された。
関連言語の種類や類似した音韻特性を持つ非関連言語で事前訓練されたモデルが利用可能である場合,その言語からの付加データを用いた多言語微調整は,音声認識性能に肯定的な影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2023-01-18T03:57:53Z) - BLOOM+1: Adding Language Support to BLOOM for Zero-Shot Prompting [50.24676567971536]
BLOOMモデルは広く公開されている多言語言語モデルであるが、事前訓練は46言語に限られていた。
既存の言語適応戦略をBLOOMに適用し、8つの新しい言語の性能向上を促すゼロショットをベンチマークする。
データ言語を十分に訓練すれば、多様な言語に適応できると結論付けている。
論文 参考訳(メタデータ) (2022-12-19T15:24:45Z) - Continual Learning in Multilingual NMT via Language-Specific Embeddings [92.91823064720232]
共有語彙を小さな言語固有の語彙に置き換え、新しい言語の並列データに新しい埋め込みを微調整する。
元のモデルのパラメータは変更されていないため、初期言語の性能は劣化しない。
論文 参考訳(メタデータ) (2021-10-20T10:38:57Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - When Being Unseen from mBERT is just the Beginning: Handling New
Languages With Multilingual Language Models [2.457872341625575]
大量の生データに基づく事前学習言語モデルに基づく伝達学習は,NLPの最先端性能に到達するための新しい規範となっている。
このようなモデルは、目に見えない言語に対して複数の方法で振る舞うことを示す。
論文 参考訳(メタデータ) (2020-10-24T10:15:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。