論文の概要: Emergent Abilities of Large Language Models under Continued Pretraining for Language Adaptation
- arxiv url: http://arxiv.org/abs/2506.00288v2
- Date: Tue, 03 Jun 2025 10:17:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:32.671259
- Title: Emergent Abilities of Large Language Models under Continued Pretraining for Language Adaptation
- Title(参考訳): 言語適応のための事前学習における大規模言語モデルの創発的能力
- Authors: Ahmed Elhady, Eneko Agirre, Mikel Artetxe,
- Abstract要約: 我々は、英語を含むと、検証の難易度には影響しないが、ターゲット言語における下流能力の出現には重要であることを示した。
本稿では,英語の必要性を緩和するための効果的な代替手段として,カリキュラム学習と指数移動平均(EMA)を導入する。
- 参考スコア(独自算出の注目度): 39.97090144259728
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Continued pretraining (CPT) is a popular approach to adapt existing large language models (LLMs) to new languages. When doing so, it is common practice to include a portion of English data in the mixture, but its role has not been carefully studied to date. In this work, we show that including English does not impact validation perplexity, yet it is critical for the emergence of downstream capabilities in the target language. We introduce a language-agnostic benchmark for in-context learning (ICL), which reveals catastrophic forgetting early on CPT when English is not included. This in turn damages the ability of the model to generalize to downstream prompts in the target language as measured by perplexity, even if it does not manifest in terms of accuracy until later in training, and can be tied to a big shift in the model parameters. Based on these insights, we introduce curriculum learning and exponential moving average (EMA) of weights as effective alternatives to mitigate the need for English. All in all, our work sheds light into the dynamics by which emergent abilities arise when doing CPT for language adaptation, and can serve as a foundation to design more effective methods in the future.
- Abstract(参考訳): 継続事前学習(CPT)は、既存の大規模言語モデル(LLM)を新しい言語に適応させる一般的なアプローチである。
このような場合、英語データの一部を混在させることは一般的な慣行であるが、その役割は近年まで慎重に研究されていない。
本研究は、英語を含むと、検証の難易度には影響しないが、対象言語における下流能力の出現には重要であることを示す。
In-context Learning (ICL) のための言語に依存しないベンチマークを導入する。
このことは、たとえそれが訓練の後半まで正確さで現れていないとしても、過度によって測定された標的言語における下流のプロンプトに一般化するモデルの能力を損なうものであり、モデルのパラメータの大きなシフトに結び付けることができる。
これらの知見に基づき、英語の必要性を軽減する効果的な代替手段として、カリキュラム学習と指数移動平均(EMA)を導入する。
全体として、我々の研究は言語適応のためにCPTを行う際に創発的能力が生じるダイナミックスに光を当て、将来より効果的な手法を設計するための基盤として役立てることができる。
関連論文リスト
- Cross-Lingual Transfer of Debiasing and Detoxification in Multilingual LLMs: An Extensive Investigation [6.781972039785424]
近年のジェネレーティブ・大型言語モデル(LLM)は英語以外の言語では顕著な性能を示した。
これらの言語で刺激されると、より有害な社会的偏見と毒性のレベルを表現する傾向がある。
異なる微調整法がモデルのバイアスや毒性に与える影響について検討するが、その効果は、流動的で多様なテキストを生成する能力にも及んでいる。
論文 参考訳(メタデータ) (2024-12-18T17:05:08Z) - PreAlign: Boosting Cross-Lingual Transfer by Early Establishment of Multilingual Alignment [68.20851615263953]
大規模な言語モデルは、英語中心の事前訓練にもかかわらず、合理的な多言語能力を示す。
これらのモデルにおける自発的な多言語アライメントは弱く、不満足な言語間移動と知識共有をもたらす。
言語モデル事前学習に先立って多言語アライメントを確立するフレームワークであるPreAlignを提案する。
論文 参考訳(メタデータ) (2024-07-23T06:59:53Z) - InstructionCP: A fast approach to transfer Large Language Models into target language [55.2480439325792]
InsCPは命令タグをCPプロセスに統合し、新しい言語を習得する際の会話能力の喪失を防ぐ。
実験の結果,InsCPは人間のフィードバック能力から会話と強化学習を維持していることがわかった。
このアプローチでは、高品質な命令追従データを0.1億トークンしか必要とせず、それによってリソース消費が減少する。
論文 参考訳(メタデータ) (2024-05-30T15:45:13Z) - Efficiently Adapting Pretrained Language Models To New Languages [9.33333013114014]
近年の大規模言語モデル (LLM) は低リソース言語に準最適性能を示す。
我々は,既存の学習済みLLMをこれらの問題に対処することなく,新しい言語に効率的に適応する方法について検討する。
論文 参考訳(メタデータ) (2023-11-09T20:59:08Z) - Improving Language Plasticity via Pretraining with Active Forgetting [63.36484652568976]
本稿では,新しい言語に迅速に適応可能な PLM を作成する簡単な方法として,事前学習中に能動的に忘れる機構を提案する。
RoBERTaを用いた実験では、忘れるメカニズムで事前訓練されたモデルは、言語適応中により高速な収束を示す。
論文 参考訳(メタデータ) (2023-07-03T17:12:44Z) - Language Contamination Explains the Cross-lingual Capabilities of
English Pretrained Models [79.38278330678965]
一般的な英語事前学習コーパスには、かなりの量の非英語テキストが含まれていることが判明した。
これにより、大規模なデータセットで数十億の外国語トークンが生成される。
そして、これらの少数の非英語データでさえ、それらに基づいて訓練されたモデルの言語間移動を促進することを実証する。
論文 参考訳(メタデータ) (2022-04-17T23:56:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。