論文の概要: Mitigating Language-Level Performance Disparity in mPLMs via Teacher Language Selection and Cross-lingual Self-Distillation
- arxiv url: http://arxiv.org/abs/2404.08491v1
- Date: Fri, 12 Apr 2024 14:19:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-15 14:47:19.156011
- Title: Mitigating Language-Level Performance Disparity in mPLMs via Teacher Language Selection and Cross-lingual Self-Distillation
- Title(参考訳): 教師言語選択と言語間自己拡張によるmPLMの言語レベル性能格差の緩和
- Authors: Haozhe Zhao, Zefan Cai, Shuzheng Si, Liang Chen, Yufeng He, Kaikai An, Baobao Chang,
- Abstract要約: 大規模多言語事前訓練言語モデル(mPLMs)は、言語横断タスクにおいて優れた性能を発揮する。
しかし、mPLM内では異なる言語にまたがって大きな性能格差が存在する。
我々は ALSACE を導入し,優れた言語から学んだ知識を活用して,mPLM の低性能言語を誘導する。
- 参考スコア(独自算出の注目度): 25.850573463743352
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale multilingual Pretrained Language Models (mPLMs) yield impressive performance on cross-language tasks, yet significant performance disparities exist across different languages within the same mPLM. Previous studies endeavored to narrow these disparities by supervise fine-tuning the mPLMs with multilingual data. However, obtaining labeled multilingual data is time-consuming, and fine-tuning mPLM with limited labeled multilingual data merely encapsulates the knowledge specific to the labeled data. Therefore, we introduce ALSACE to leverage the learned knowledge from the well-performing languages to guide under-performing ones within the same mPLM, eliminating the need for additional labeled multilingual data. Experiments show that ALSACE effectively mitigates language-level performance disparity across various mPLMs while showing the competitive performance on different multilingual NLU tasks, ranging from full resource to limited resource settings. The code for our approach is available at https://github.com/pkunlp-icler/ALSACE.
- Abstract(参考訳): 大規模多言語事前学習言語モデル(mPLM)は、言語間タスクにおいて顕著な性能を発揮するが、同じmPLM内で異なる言語間で大きな性能格差が存在する。
これまでの研究では、mPLMを多言語データで微調整することで、これらの格差を狭めようと努力していた。
しかし、ラベル付き多言語データを取得するのに時間がかかり、ラベル付き多言語データに制限のある微調整mPLMはラベル付きデータ固有の知識をカプセル化するだけである。
そこで本稿では, ALSACEを導入して, 性能のよい言語から学んだ知識を活用して, mPLM内の低性能言語をガイドし, ラベル付き多言語データの追加の必要性を解消する。
実験により、ALSACEは様々なmPLM間の言語レベルの性能格差を効果的に軽減し、フルリソースから限られたリソース設定まで様々な多言語NLUタスクにおける競合性能を示した。
このアプローチのコードはhttps://github.com/pkunlp-icler/ALSACEで公開されています。
関連論文リスト
- Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間で対応する概念を関連付けることができ、効果的にクロスランガルなのでしょうか?
本研究は,言語横断的課題に関する6つの技術 LLM の評価を行った。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - Enhancing Multilingual Capabilities of Large Language Models through
Self-Distillation from Resource-Rich Languages [60.162717568496355]
大規模言語モデル(LLM)は多言語コーパスで事前訓練されている。
彼らのパフォーマンスは、いくつかのリソース豊富な言語と比較して、ほとんどの言語でまだ遅れています。
論文 参考訳(メタデータ) (2024-02-19T15:07:32Z) - UltraLink: An Open-Source Knowledge-Enhanced Multilingual Supervised
Fine-tuning Dataset [69.33424532827608]
オープンソースの大規模言語モデル(LLM)は、様々な分野において大きな強みを持っている。
本研究では,オープンソースの多言語教師付き微調整データセットを構築する。
結果として得られたUltraLinkデータセットは、5つの言語にわたる約100万のサンプルで構成されている。
論文 参考訳(メタデータ) (2024-02-07T05:05:53Z) - Extrapolating Large Language Models to Non-English by Aligning Languages [109.09051737966178]
既存の大きな言語モデルは、異なる言語間で異なる能力を示す。
本稿では,言語間のセマンティックアライメントを構築することで,英語以外の言語に事前学習したLLMを強化する。
論文 参考訳(メタデータ) (2023-08-09T13:32:06Z) - How do languages influence each other? Studying cross-lingual data sharing during LM fine-tuning [14.02101305717738]
多言語大言語モデル(MLLM)は、多くの異なる言語からのデータに基づいて共同で訓練される。
言語がどの程度、どの条件下で、互いのデータに依存しているかは、まだ不明である。
MLLMは、細調整の初期段階から複数の言語からのデータに依存しており、細調整の進行に伴って、この依存度が徐々に増加することが判明した。
論文 参考訳(メタデータ) (2023-05-22T17:47:41Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z) - CoSDA-ML: Multi-Lingual Code-Switching Data Augmentation for Zero-Shot
Cross-Lingual NLP [68.2650714613869]
我々は,mBERTを微調整するための多言語コードスイッチングデータを生成するためのデータ拡張フレームワークを提案する。
既存の研究と比較すると,本手法は訓練にバイリンガル文を頼らず,複数の対象言語に対して1つの学習プロセスしか必要としない。
論文 参考訳(メタデータ) (2020-06-11T13:15:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。