論文の概要: Merge and Conquer: Instructing Multilingual Models by Adding Target Language Weights
- arxiv url: http://arxiv.org/abs/2603.28263v1
- Date: Mon, 30 Mar 2026 10:46:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.34295
- Title: Merge and Conquer: Instructing Multilingual Models by Adding Target Language Weights
- Title(参考訳): Merge and Conquer: ターゲット言語重みの追加による多言語モデルの指導
- Authors: Eneko Valero, Maria Ribalta i Albado, Oscar Sainz, Naiara Perez, German Rigau,
- Abstract要約: LLM(Large Language Models)は、低リソース言語での性能に制限があるため、英語に重点を置いている。
モデルマージは,低リソース言語に対する従来の適応手法に代わる,実用的で効率的な代替手段であることを示す。
- 参考スコア(独自算出の注目度): 5.014897572890602
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) remain heavily centered on English, with limited performance in low-resource languages. Existing adaptation approaches, such as continual pre-training, demand significant computational resources. In the case of instructed models, high-quality instruction data is also required, both of which are often inaccessible for low-resource language communities. Under these constraints, model merging offers a lightweight alternative, but its potential in low-resource contexts has not been systematically explored. In this work, we explore whether it is possible to transfer language knowledge to an instruction-tuned LLM by merging it with a language-specific base model, thereby eliminating the need of language-specific instructions and repeated fine-tuning processes whenever stronger instructed variants become available. Through experiments covering four Iberian languages (Basque, Catalan, Galician, and Spanish) and two model families, we show that merging enables effective instruction following behavior in new languages and even supports multilingual capability through the combination of multiple language-specific models. Our results indicate that model merging is a viable and efficient alternative to traditional adaptation methods for low-resource languages, achieving competitive performance while greatly reducing computational cost.
- Abstract(参考訳): LLM(Large Language Models)は、低リソース言語での性能に制限があるため、英語に重点を置いている。
継続事前学習のような既存の適応アプローチは、かなりの計算資源を必要とする。
教師付きモデルの場合、高品質な命令データも必要であり、どちらも低リソースの言語コミュニティではアクセスできないことが多い。
これらの制約の下では、モデルマージは軽量な代替手段を提供するが、低リソースコンテキストにおけるそのポテンシャルは体系的に検討されていない。
本研究では,言語固有のベースモデルと組み合わせることで,言語知識を命令付きLLMに転送できるかどうかを考察し,より強い指示付き変種が利用可能になると,言語固有の命令や繰り返し微調整プロセスが不要になることを示す。
4つのイベリア語(バスク語、カタルーニャ語、ガリシア語、スペイン語)と2つのモデルファミリを対象とする実験を通して、統合によって新しい言語における効果的な指導が可能となり、複数の言語固有のモデルを組み合わせることで多言語機能さえもサポートできることを示した。
その結果, モデルマージは, 低リソース言語に対する従来の適応手法の代替として, 計算コストを大幅に削減しつつ, 競争性能を向上し, 有効かつ効率的な手法であることが示唆された。
関連論文リスト
- Grow Up and Merge: Scaling Strategies for Efficient Language Adaptation [4.2178072320683375]
我々は、事前学習されたモデルを新しいターゲット言語に適応するための効率的な戦略として、スケーリングについて検討する。
十分なターゲット言語データに晒されると、より大規模なモデルでは、継続的に事前訓練された小さなモデルの性能にマッチしたり、超えたりすることができる。
最後に、そのようなスケールした言語固有のモデルをマージして、モジュール化された柔軟な多言語システムを構築する方法について検討する。
論文 参考訳(メタデータ) (2025-12-11T16:09:54Z) - Enhancing Code Generation for Low-Resource Languages: No Silver Bullet [55.39571645315926]
大規模言語モデル(LLM)は、プログラミング言語の構文、意味論、使用パターンを学ぶために、大規模で多様なデータセットに依存している。
低リソース言語では、そのようなデータの限られた可用性は、モデルを効果的に一般化する能力を損なう。
本稿では,低リソース言語におけるLLMの性能向上のためのいくつかの手法の有効性を実証研究する。
論文 参考訳(メタデータ) (2025-01-31T12:23:28Z) - Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。
我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。
Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文 参考訳(メタデータ) (2024-07-04T15:14:17Z) - Targeted Multilingual Adaptation for Low-resource Language Families [17.212424929235624]
我々は、事前学習されたモデルを言語族に適応させるためのベストプラクティスについて研究する。
適応モデルは単言語および多言語ベースラインを大きく上回る。
低リソース言語は、高リソース言語のパフォーマンスをほとんど犠牲にすることなく、トレーニング中に積極的にアップサンプリングできる。
論文 参考訳(メタデータ) (2024-05-20T23:38:06Z) - LlamaTurk: Adapting Open-Source Generative Large Language Models for Low-Resource Language [2.9914612342004503]
本研究は、主に英語で訓練された大規模な言語モデルを低リソース言語に適応させることにより、代替的な解決策を探求する。
継続訓練,命令細調整,タスク特化細調整,語彙拡張など,さまざまな戦略を評価する。
その結果、継続学習は、難易度スコアに反映されるような言語理解を向上し、タスク固有のチューニングは、一般的に下流タスクのパフォーマンスを向上することを示した。
論文 参考訳(メタデータ) (2024-05-13T13:41:59Z) - ColBERT-XM: A Modular Multi-Vector Representation Model for Zero-Shot
Multilingual Information Retrieval [10.664434993386523]
現在のアプローチは、非英語言語における高品質なラベル付きデータの欠如を回避している。
本稿では,単一の高リソース言語のリッチデータから学習するモジュール型高密度検索モデルを提案する。
論文 参考訳(メタデータ) (2024-02-23T02:21:24Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。