論文の概要: The Unreasonable Effectiveness of Model Merging for Cross-Lingual Transfer in LLMs
- arxiv url: http://arxiv.org/abs/2505.18356v1
- Date: Fri, 23 May 2025 20:28:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.36067
- Title: The Unreasonable Effectiveness of Model Merging for Cross-Lingual Transfer in LLMs
- Title(参考訳): LLMの言語間移動におけるモデルマージの有効性
- Authors: Lucas Bandarkar, Nanyun Peng,
- Abstract要約: 大規模言語モデル(LLM)は、ハイソース言語以外のタスクで依然として苦戦している。
本研究では,タスク固有のポストトレーニングデータが不足している低リソース言語への言語間移動について検討する。
- 参考スコア(独自算出の注目度): 54.59207567677249
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large language models (LLMs) still struggle across tasks outside of high-resource languages. In this work, we investigate cross-lingual transfer to lower-resource languages where task-specific post-training data is scarce. Building on prior work, we first validate that the subsets of model parameters that matter most for mathematical reasoning and multilingual capabilities are distinctly non-overlapping. To exploit this implicit separability between task and target language parameterization, we develop and analyze numerous modular frameworks to improve the composition of the two during fine-tuning. These methods generally employ freezing parameters or post hoc model merging to assign math and language improvement to different key parts of the LLM. In the absence of in-language math data, we demonstrate that the modular approaches successfully improve upon baselines across three languages, four models, and two fine-tuning paradigms (full and LoRA). Furthermore, we identify the most consistently successful modular method to be fine-tuning separate language and math experts and model merging via Layer-Swapping, somewhat surprisingly. We offer possible explanations for this result via recent works on the linearity of task vectors. We further explain this by empirically showing that reverting less useful fine-tuning updates after training often outperforms freezing them from the start.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ハイソース言語以外のタスクで依然として苦戦している。
本研究では,タスク固有のポストトレーニングデータが不足している低リソース言語への言語間移動について検討する。
先行研究に基づいて、まず、数学的推論や多言語機能に最も重要となるモデルパラメータのサブセットが明らかに重複しないことを検証した。
タスクと対象言語のパラメータ化の暗黙的な分離性を活用するために,細調整時の2つの構成を改善するために,多数のモジュラーフレームワークを開発し,解析する。
これらの手法は一般的にフリーズパラメータやポストホックモデルを組み合わせることで、数学と言語の改善をLLMの異なるキー部分に割り当てる。
言語内数学データがない場合、モジュラーアプローチは、3つの言語、4つのモデル、そして2つの微調整パラダイム(フルとLoRA)にわたるベースラインの改善に成功していることを示す。
さらに,異なる言語と数学の専門家を微調整し,レイヤ・スワッピングによるモデルマージを行うモジュール手法として,最も一貫して成功した。
タスクベクトルの線型性に関する最近の研究を通じて、この結果の可能な説明を提供する。
さらに、トレーニング後にあまり役に立たない微調整更新が、最初から凍結している場合が多いことを実証的に示すことで、これをさらに説明します。
関連論文リスト
- Layer Swapping for Zero-Shot Cross-Lingual Transfer in Large Language Models [12.424072830053445]
本研究では,非英語言語における目標課題に対するLLM(Large Language Models)の微調整の難しさに対処するモデルマージ手法を提案する。
我々は、英語の数学の命令データと対象言語の汎用的な命令データに「専門家」を微調整する。
我々は、数学の専門家の上位と下位のトランスフォーマー層を直接言語専門家の層に置き換え、それによって対象言語の数学性能が向上する。
論文 参考訳(メタデータ) (2024-10-02T08:53:07Z) - Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。
我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。
Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文 参考訳(メタデータ) (2024-07-04T15:14:17Z) - No Train but Gain: Language Arithmetic for training-free Language Adapters enhancement [59.37775534633868]
本稿では,学習不要な後処理が可能な言語演算法を提案する。
提案手法の有効性を,MAD-Xに基づく言語間スキームの3つの下流課題に適用した。
論文 参考訳(メタデータ) (2024-04-24T08:52:40Z) - LLM Augmented LLMs: Expanding Capabilities through Composition [56.40953749310957]
CALM -- 言語モデルの拡張のための構成 -- は、モデル間の相互アテンションを導入して、表現を構成し、新しい機能を有効にする。
低リソース言語で訓練されたより小さなモデルでPaLM2-Sを増強すると、英語への翻訳のようなタスクで最大13%の改善が達成される。
PaLM2-Sがコード固有モデルで拡張されると、コード生成や説明タスクのベースモデルよりも40%向上する。
論文 参考訳(メタデータ) (2024-01-04T18:53:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。