論文の概要: Parameter-Efficient Finetuning for Robust Continual Multilingual
Learning
- arxiv url: http://arxiv.org/abs/2209.06767v1
- Date: Wed, 14 Sep 2022 16:45:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-15 13:19:35.273220
- Title: Parameter-Efficient Finetuning for Robust Continual Multilingual
Learning
- Title(参考訳): 頑健な連続多言語学習のためのパラメータ効率の良いファインタニング
- Authors: Kartikeya Badola, Shachi Dave, Partha Talukdar
- Abstract要約: 複数言語モデルに鼻で更新することで,サブセットの言語よりも性能が低下する可能性が示唆された。
我々は,パラメータ効率の高いファインタニングの最近の進歩に基づいて,新しいファインタニングパイプラインを開発した。
- 参考スコア(独自算出の注目度): 0.966840768820136
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: NLU systems deployed in the real world are expected to be regularly updated
by retraining or finetuning the underlying neural network on new training
examples accumulated over time. In our work, we focus on the multilingual
setting where we would want to further finetune a multilingual model on new
training data for the same NLU task on which the aforementioned model has
already been trained for. We show that under certain conditions, naively
updating the multilingual model can lead to losses in performance over a subset
of languages although the aggregated performance metric shows an improvement.
We establish this phenomenon over four tasks belonging to three task families
(token-level, sentence-level and seq2seq) and find that the baseline is far
from ideal for the setting at hand. We then build upon recent advances in
parameter-efficient finetuning to develop novel finetuning pipelines that allow
us to jointly minimize catastrophic forgetting while encouraging positive
cross-lingual transfer, hence improving the spread of gains over different
languages while reducing the losses incurred in this setup.
- Abstract(参考訳): 現実世界にデプロイされたnluシステムは、基礎となるニューラルネットワークを時間とともに蓄積された新しいトレーニング例に再トレーニングまたは微調整することで、定期的に更新されることが期待される。
本研究では,前述したモデルが既にトレーニング済みのnluタスクと同じタスクに対して,新たなトレーニングデータに対して,多言語モデルをさらに微調整したい多言語環境に着目した。
また, ある条件下では, 複数言語モデルの更新により, 性能が向上するにもかかわらず, 言語のサブセットよりも性能が低下することが示唆された。
この現象を3つのタスクファミリー(token-level, sentence-level, seq2seq)に属する4つのタスクにまたがって確立し,そのベースラインが手元の設定に理想的とはほど遠いことを突き止めた。
次に,パラメータ効率の高いファインタニングの最近の進歩を生かして,破滅的な忘れを共同で最小化しつつ,肯定的な言語間移動を奨励し,様々な言語での利得の拡大を促進し,この設定で生じる損失を低減できる新しい微調整パイプラインを開発した。
関連論文リスト
- LlamaTurk: Adapting Open-Source Generative Large Language Models for Low-Resource Language [2.9914612342004503]
本研究は、主に英語で訓練された大規模な言語モデルを低リソース言語に適応させることにより、代替的な解決策を探求する。
継続訓練,命令細調整,タスク特化細調整,語彙拡張など,さまざまな戦略を評価する。
その結果、継続学習は、難易度スコアに反映されるような言語理解を向上し、タスク固有のチューニングは、一般的に下流タスクのパフォーマンスを向上することを示した。
論文 参考訳(メタデータ) (2024-05-13T13:41:59Z) - No Train but Gain: Language Arithmetic for training-free Language Adapters enhancement [59.37775534633868]
本稿では,学習不要な後処理が可能な言語演算法を提案する。
提案手法の有効性を,MAD-Xに基づく言語間スキームの3つの下流課題に適用した。
論文 参考訳(メタデータ) (2024-04-24T08:52:40Z) - Enhancing Multilingual Capabilities of Large Language Models through
Self-Distillation from Resource-Rich Languages [60.162717568496355]
大規模言語モデル(LLM)は多言語コーパスで事前訓練されている。
彼らのパフォーマンスは、いくつかのリソース豊富な言語と比較して、ほとんどの言語でまだ遅れています。
論文 参考訳(メタデータ) (2024-02-19T15:07:32Z) - On the Analysis of Cross-Lingual Prompt Tuning for Decoder-based
Multilingual Model [49.81429697921861]
多言語自己回帰モデルにおけるパラメータ効率細調整(PEFT)と言語間タスクの相互作用について検討する。
高速チューニングは、微調整よりも低リソース言語の性能向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-14T00:43:33Z) - Adapting Multilingual Speech Representation Model for a New,
Underresourced Language through Multilingual Fine-tuning and Continued
Pretraining [2.3513645401551333]
既存の多言語wav2vec 2.0モデルを新しい言語に適用する可能性を検討する。
この結果から, 継続事前学習がwav2vec 2.0モデルを新しい言語に適応させる最も効果的な方法であることが示唆された。
関連言語の種類や類似した音韻特性を持つ非関連言語で事前訓練されたモデルが利用可能である場合,その言語からの付加データを用いた多言語微調整は,音声認識性能に肯定的な影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2023-01-18T03:57:53Z) - BLOOM+1: Adding Language Support to BLOOM for Zero-Shot Prompting [50.24676567971536]
BLOOMモデルは広く公開されている多言語言語モデルであるが、事前訓練は46言語に限られていた。
既存の言語適応戦略をBLOOMに適用し、8つの新しい言語の性能向上を促すゼロショットをベンチマークする。
データ言語を十分に訓練すれば、多様な言語に適応できると結論付けている。
論文 参考訳(メタデータ) (2022-12-19T15:24:45Z) - Continual Learning in Multilingual NMT via Language-Specific Embeddings [92.91823064720232]
共有語彙を小さな言語固有の語彙に置き換え、新しい言語の並列データに新しい埋め込みを微調整する。
元のモデルのパラメータは変更されていないため、初期言語の性能は劣化しない。
論文 参考訳(メタデータ) (2021-10-20T10:38:57Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - When Being Unseen from mBERT is just the Beginning: Handling New
Languages With Multilingual Language Models [2.457872341625575]
大量の生データに基づく事前学習言語モデルに基づく伝達学習は,NLPの最先端性能に到達するための新しい規範となっている。
このようなモデルは、目に見えない言語に対して複数の方法で振る舞うことを示す。
論文 参考訳(メタデータ) (2020-10-24T10:15:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。