論文の概要: Grow Up and Merge: Scaling Strategies for Efficient Language Adaptation
- arxiv url: http://arxiv.org/abs/2512.10772v1
- Date: Thu, 11 Dec 2025 16:09:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.458873
- Title: Grow Up and Merge: Scaling Strategies for Efficient Language Adaptation
- Title(参考訳): 成長とマージ:効率的な言語適応のためのスケーリング戦略
- Authors: Kevin Glocker, Kätriin Kukk, Romina Oji, Marcel Bollmann, Marco Kuhlmann, Jenny Kunz,
- Abstract要約: 我々は、事前学習されたモデルを新しいターゲット言語に適応するための効率的な戦略として、スケーリングについて検討する。
十分なターゲット言語データに晒されると、より大規模なモデルでは、継続的に事前訓練された小さなモデルの性能にマッチしたり、超えたりすることができる。
最後に、そのようなスケールした言語固有のモデルをマージして、モジュール化された柔軟な多言語システムを構築する方法について検討する。
- 参考スコア(独自算出の注目度): 4.2178072320683375
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Achieving high-performing language models which include medium- and lower-resource languages remains a challenge. Massively multilingual models still underperform compared to language-specific adaptations, especially at smaller model scales. In this work, we investigate scaling as an efficient strategy for adapting pretrained models to new target languages. Through comprehensive scaling ablations with approximately FLOP-matched models, we test whether upscaling an English base model enables more effective and resource-efficient adaptation than standard continued pretraining. We find that, once exposed to sufficient target-language data, larger upscaled models can match or surpass the performance of smaller models continually pretrained on much more data, demonstrating the benefits of scaling for data efficiency. Scaling also helps preserve the base model's capabilities in English, thus reducing catastrophic forgetting. Finally, we explore whether such scaled, language-specific models can be merged to construct modular and flexible multilingual systems. We find that while merging remains less effective than joint multilingual training, upscaled merges perform better than smaller ones. We observe large performance differences across merging methods, suggesting potential for improvement through merging approaches specialized for language-level integration.
- Abstract(参考訳): 中級および低級のソース言語を含むハイパフォーマンスな言語モデルを実現することは、依然として課題である。
非常に多言語的なモデルは、特により小さなモデルスケールにおいて、言語固有の適応よりも性能が低い。
本研究では,事前学習したモデルを新しいターゲット言語に適応するための効率的な手法として,スケーリングを検討する。
約FLOPマッチングモデルによる包括的スケール改善を通じて、英語ベースモデルのアップスケーリングが、通常の継続事前学習よりも効果的でリソース効率の高い適応を可能にするかどうかを検証した。
十分なターゲット言語データに晒されると、より大規模なモデルでは、より多くのデータで継続的に事前訓練された小さなモデルのパフォーマンスにマッチしたり、超えたりすることが可能となり、データ効率のスケーリングのメリットが示される。
スケーリングはまた、ベースモデルの英語での能力を維持するのにも役立ち、破滅的な忘れを少なくする。
最後に、そのようなスケールした言語固有のモデルをマージして、モジュール化された柔軟な多言語システムを構築する方法について検討する。
マージは多言語共同訓練よりも効果が低いが, 大規模マージはより小型のマージよりも優れていた。
本稿では,言語レベルの統合に特化したメルジ手法による改善の可能性を示す。
関連論文リスト
- Enhancing Code Generation for Low-Resource Languages: No Silver Bullet [55.39571645315926]
大規模言語モデル(LLM)は、プログラミング言語の構文、意味論、使用パターンを学ぶために、大規模で多様なデータセットに依存している。
低リソース言語では、そのようなデータの限られた可用性は、モデルを効果的に一般化する能力を損なう。
本稿では,低リソース言語におけるLLMの性能向上のためのいくつかの手法の有効性を実証研究する。
論文 参考訳(メタデータ) (2025-01-31T12:23:28Z) - Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。
我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。
Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文 参考訳(メタデータ) (2024-07-04T15:14:17Z) - Efficiently Adapting Pretrained Language Models To New Languages [9.33333013114014]
近年の大規模言語モデル (LLM) は低リソース言語に準最適性能を示す。
我々は,既存の学習済みLLMをこれらの問題に対処することなく,新しい言語に効率的に適応する方法について検討する。
論文 参考訳(メタデータ) (2023-11-09T20:59:08Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。