論文の概要: Efficiently Adapting Pretrained Language Models To New Languages
- arxiv url: http://arxiv.org/abs/2311.05741v1
- Date: Thu, 9 Nov 2023 20:59:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-13 16:34:00.831018
- Title: Efficiently Adapting Pretrained Language Models To New Languages
- Title(参考訳): 事前訓練された言語モデルを新しい言語に効果的に適応する
- Authors: Zoltan Csaki, Pian Pawakapan, Urmish Thakker, Qiantong Xu
- Abstract要約: 近年の大規模言語モデル (LLM) は低リソース言語に準最適性能を示す。
我々は,既存の学習済みLLMをこれらの問題に対処することなく,新しい言語に効率的に適応する方法について検討する。
- 参考スコア(独自算出の注目度): 9.33333013114014
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent large language models (LLM) exhibit sub-optimal performance on
low-resource languages, as the training data of these models is usually
dominated by English and other high-resource languages. Furthermore, it is
challenging to train models for low-resource languages, especially from
scratch, due to a lack of high quality training data. Adapting pretrained LLMs
reduces the need for data in the new language while also providing cross
lingual transfer capabilities. However, naively adapting to new languages leads
to catastrophic forgetting and poor tokenizer efficiency. In this work, we
study how to efficiently adapt any existing pretrained LLM to a new language
without running into these issues. In particular, we improve the encoding
efficiency of the tokenizer by adding new tokens from the target language and
study the data mixing recipe to mitigate forgetting. Our experiments on
adapting an English LLM to Hungarian and Thai show that our recipe can reach
better performance than open source models on the target language, with minimal
regressions on English.
- Abstract(参考訳): 最近の大規模言語モデル(LLM)は、これらのモデルのトレーニングデータが通常、英語や他の高リソース言語に支配されているため、低リソース言語に準最適性能を示す。
さらに、高品質なトレーニングデータがないため、低リソース言語、特にスクラッチからモデルをトレーニングすることは困難である。
事前訓練されたLLMへの適応は、新しい言語のデータの必要性を減らし、言語間転送機能も提供する。
しかし、新しい言語に鼻で適応すると破滅的な忘れ込みとトークン化の効率が低下する。
本研究では,既存のLLMをこれらの問題に対処することなく,新しい言語に効率的に適応する方法を検討する。
特に、ターゲット言語から新しいトークンを追加してトークン化の符号化効率を向上し、データ混合のレシピを調べ、忘れを軽減します。
英語のLLMをハンガリー語とタイ語に適応させる実験により、我々のレシピはターゲット言語上のオープンソースモデルよりもパフォーマンスが向上し、英語での回帰は最小限に抑えられることを示した。
関連論文リスト
- Training Bilingual LMs with Data Constraints in the Targeted Language [20.262591969661447]
本研究では,データ制約対象言語における事前学習モデルの性能を向上させるために,高品質なデータを利用できる補助言語からデータを抽出する手法について検討する。
本研究では,データ豊富な補助言語におけるトレーニングとデータ間のパフォーマンスギャップを,対象言語のトレーニングと比較して定量化する。
以上の結果から,より強力な補助データセットは,モデルの変更や近接言語学習の目的を伴わずに,性能向上をもたらすことが示された。
論文 参考訳(メタデータ) (2024-11-20T02:27:40Z) - Exploring Pretraining via Active Forgetting for Improving Cross Lingual Transfer for Decoder Language Models [7.998168689120558]
大規模言語モデル(LLM)は、多数のNLPタスクにおいて例外的な機能を示す。
英語以外の言語に対するそのようなモデルの有効性は制限されることが多い。
能動的忘れを前提としたLLMは,新しい言語や目に見えない言語に適応する上で非常に有効であることを示す。
論文 参考訳(メタデータ) (2024-10-21T16:33:16Z) - Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。
我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。
Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文 参考訳(メタデータ) (2024-07-04T15:14:17Z) - Improving Language Plasticity via Pretraining with Active Forgetting [63.36484652568976]
本稿では,新しい言語に迅速に適応可能な PLM を作成する簡単な方法として,事前学習中に能動的に忘れる機構を提案する。
RoBERTaを用いた実験では、忘れるメカニズムで事前訓練されたモデルは、言語適応中により高速な収束を示す。
論文 参考訳(メタデータ) (2023-07-03T17:12:44Z) - Low-Resource Cross-Lingual Adaptive Training for Nigerian Pidgin [3.2039731457723604]
ナイジェリアのピジン (Naija) のテキスト分類と翻訳を, 大規模に並列した英語-ピジンコーパスを収集することによって改善することを目的としている。
本研究は,英語の事前学習型言語モデルが,最大2.38BLEUの改善を伴い,多言語言語モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-07-01T16:47:36Z) - Improving Cross-lingual Information Retrieval on Low-Resource Languages
via Optimal Transport Distillation [21.057178077747754]
本稿では,低リソースな言語間情報検索のためのOPTICAL: Optimal Transport 蒸留法を提案する。
クエリドキュメントマッチングの知識から言語間知識を分離することにより、OPTICALは蒸留訓練のためのbitextデータのみを必要とする。
実験結果から,OPTICALは最小限のトレーニングデータにより,低リソース言語上での強いベースラインを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2023-01-29T22:30:36Z) - BLOOM+1: Adding Language Support to BLOOM for Zero-Shot Prompting [50.24676567971536]
BLOOMモデルは広く公開されている多言語言語モデルであるが、事前訓練は46言語に限られていた。
既存の言語適応戦略をBLOOMに適用し、8つの新しい言語の性能向上を促すゼロショットをベンチマークする。
データ言語を十分に訓練すれば、多様な言語に適応できると結論付けている。
論文 参考訳(メタデータ) (2022-12-19T15:24:45Z) - Language Contamination Explains the Cross-lingual Capabilities of
English Pretrained Models [79.38278330678965]
一般的な英語事前学習コーパスには、かなりの量の非英語テキストが含まれていることが判明した。
これにより、大規模なデータセットで数十億の外国語トークンが生成される。
そして、これらの少数の非英語データでさえ、それらに基づいて訓練されたモデルの言語間移動を促進することを実証する。
論文 参考訳(メタデータ) (2022-04-17T23:56:54Z) - Continual Learning in Multilingual NMT via Language-Specific Embeddings [92.91823064720232]
共有語彙を小さな言語固有の語彙に置き換え、新しい言語の並列データに新しい埋め込みを微調整する。
元のモデルのパラメータは変更されていないため、初期言語の性能は劣化しない。
論文 参考訳(メタデータ) (2021-10-20T10:38:57Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。