論文の概要: Parameter-Efficient Finetuning for Robust Continual Multilingual
Learning
- arxiv url: http://arxiv.org/abs/2209.06767v1
- Date: Wed, 14 Sep 2022 16:45:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-15 13:19:35.273220
- Title: Parameter-Efficient Finetuning for Robust Continual Multilingual
Learning
- Title(参考訳): 頑健な連続多言語学習のためのパラメータ効率の良いファインタニング
- Authors: Kartikeya Badola, Shachi Dave, Partha Talukdar
- Abstract要約: 複数言語モデルに鼻で更新することで,サブセットの言語よりも性能が低下する可能性が示唆された。
我々は,パラメータ効率の高いファインタニングの最近の進歩に基づいて,新しいファインタニングパイプラインを開発した。
- 参考スコア(独自算出の注目度): 0.966840768820136
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: NLU systems deployed in the real world are expected to be regularly updated
by retraining or finetuning the underlying neural network on new training
examples accumulated over time. In our work, we focus on the multilingual
setting where we would want to further finetune a multilingual model on new
training data for the same NLU task on which the aforementioned model has
already been trained for. We show that under certain conditions, naively
updating the multilingual model can lead to losses in performance over a subset
of languages although the aggregated performance metric shows an improvement.
We establish this phenomenon over four tasks belonging to three task families
(token-level, sentence-level and seq2seq) and find that the baseline is far
from ideal for the setting at hand. We then build upon recent advances in
parameter-efficient finetuning to develop novel finetuning pipelines that allow
us to jointly minimize catastrophic forgetting while encouraging positive
cross-lingual transfer, hence improving the spread of gains over different
languages while reducing the losses incurred in this setup.
- Abstract(参考訳): 現実世界にデプロイされたnluシステムは、基礎となるニューラルネットワークを時間とともに蓄積された新しいトレーニング例に再トレーニングまたは微調整することで、定期的に更新されることが期待される。
本研究では,前述したモデルが既にトレーニング済みのnluタスクと同じタスクに対して,新たなトレーニングデータに対して,多言語モデルをさらに微調整したい多言語環境に着目した。
また, ある条件下では, 複数言語モデルの更新により, 性能が向上するにもかかわらず, 言語のサブセットよりも性能が低下することが示唆された。
この現象を3つのタスクファミリー(token-level, sentence-level, seq2seq)に属する4つのタスクにまたがって確立し,そのベースラインが手元の設定に理想的とはほど遠いことを突き止めた。
次に,パラメータ効率の高いファインタニングの最近の進歩を生かして,破滅的な忘れを共同で最小化しつつ,肯定的な言語間移動を奨励し,様々な言語での利得の拡大を促進し,この設定で生じる損失を低減できる新しい微調整パイプラインを開発した。
関連論文リスト
- Enhancing Multilingual Capabilities of Large Language Models through
Self-Distillation from Resource-Rich Languages [60.162717568496355]
大規模言語モデル(LLM)は多言語コーパスで事前訓練されている。
彼らのパフォーマンスは、いくつかのリソース豊富な言語と比較して、ほとんどの言語でまだ遅れています。
論文 参考訳(メタデータ) (2024-02-19T15:07:32Z) - On the Analysis of Cross-Lingual Prompt Tuning for Decoder-based
Multilingual Model [49.81429697921861]
多言語自己回帰モデルにおけるパラメータ効率細調整(PEFT)と言語間タスクの相互作用について検討する。
高速チューニングは、微調整よりも低リソース言語の性能向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-14T00:43:33Z) - Efficiently Adapting Pretrained Language Models To New Languages [9.33333013114014]
近年の大規模言語モデル (LLM) は低リソース言語に準最適性能を示す。
我々は,既存の学習済みLLMをこれらの問題に対処することなく,新しい言語に効率的に適応する方法について検討する。
論文 参考訳(メタデータ) (2023-11-09T20:59:08Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Adapting Multilingual Speech Representation Model for a New,
Underresourced Language through Multilingual Fine-tuning and Continued
Pretraining [2.3513645401551333]
既存の多言語wav2vec 2.0モデルを新しい言語に適用する可能性を検討する。
この結果から, 継続事前学習がwav2vec 2.0モデルを新しい言語に適応させる最も効果的な方法であることが示唆された。
関連言語の種類や類似した音韻特性を持つ非関連言語で事前訓練されたモデルが利用可能である場合,その言語からの付加データを用いた多言語微調整は,音声認識性能に肯定的な影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2023-01-18T03:57:53Z) - BLOOM+1: Adding Language Support to BLOOM for Zero-Shot Prompting [50.24676567971536]
BLOOMモデルは広く公開されている多言語言語モデルであるが、事前訓練は46言語に限られていた。
既存の言語適応戦略をBLOOMに適用し、8つの新しい言語の性能向上を促すゼロショットをベンチマークする。
データ言語を十分に訓練すれば、多様な言語に適応できると結論付けている。
論文 参考訳(メタデータ) (2022-12-19T15:24:45Z) - Continual Learning in Multilingual NMT via Language-Specific Embeddings [92.91823064720232]
共有語彙を小さな言語固有の語彙に置き換え、新しい言語の並列データに新しい埋め込みを微調整する。
元のモデルのパラメータは変更されていないため、初期言語の性能は劣化しない。
論文 参考訳(メタデータ) (2021-10-20T10:38:57Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - When Being Unseen from mBERT is just the Beginning: Handling New
Languages With Multilingual Language Models [2.457872341625575]
大量の生データに基づく事前学習言語モデルに基づく伝達学習は,NLPの最先端性能に到達するための新しい規範となっている。
このようなモデルは、目に見えない言語に対して複数の方法で振る舞うことを示す。
論文 参考訳(メタデータ) (2020-10-24T10:15:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。