論文の概要: Extend Model Merging from Fine-Tuned to Pre-Trained Large Language Models via Weight Disentanglement
- arxiv url: http://arxiv.org/abs/2408.03092v1
- Date: Tue, 6 Aug 2024 10:46:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-07 14:27:34.439368
- Title: Extend Model Merging from Fine-Tuned to Pre-Trained Large Language Models via Weight Disentanglement
- Title(参考訳): 重みの絡み合いによる微調整型から事前訓練型大言語モデルへの拡張モデルマージ
- Authors: Le Yu, Bowen Yu, Haiyang Yu, Fei Huang, Yongbin Li,
- Abstract要約: 我々は、FTからPT LLMへのマージ技術の適用性を拡大するための先駆的な取り組みを行っている。
WeIght DisENtanglement (WIDEN) に基づくアプローチを導入し、マージ範囲を効果的に拡張する。
Qwen1.5-Chat (FT LLM with instruction-following skills) と Sailor (PT LLM with multilingual abilities) を7Bおよび14Bモデルスケールにマージする。
- 参考スコア(独自算出の注目度): 72.97553348776425
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Merging Large Language Models (LLMs) aims to amalgamate multiple homologous LLMs into one with all the capabilities. Ideally, any LLMs sharing the same backbone should be mergeable, irrespective of whether they are Fine-Tuned (FT) with minor parameter changes or Pre-Trained (PT) with substantial parameter shifts. However, existing methods often manually assign the model importance, rendering them feasible only for LLMs with similar parameter alterations, such as multiple FT LLMs. The diverse parameter changed ranges between FT and PT LLMs pose challenges for current solutions in empirically determining the optimal combination. In this paper, we make a pioneering effort to broaden the applicability of merging techniques from FT to PT LLMs. We initially examine the efficacy of current methods in merging FT and PT LLMs, discovering that they struggle to deal with PT LLMs. Subsequently, we introduce an approach based on WeIght DisENtanglement (WIDEN) to effectively extend the merging scope, which first disentangles model weights into magnitude and direction components, and then performs adaptive fusion by considering their respective contributions. In the experiments, we merge Qwen1.5-Chat (an FT LLM with instruction-following skills) with Sailor (a PT LLM with multilingual abilities) across 7B and 14B model scales. Results reveal that: (1) existing solutions usually fail when merging Sailor, either losing both abilities or only retaining instruction-following skills; (2) WIDEN successfully injects the multilingual abilities of Sailor into Qwen1.5-Chat and make it proficient in Southeast Asian languages, achieving enhancements in the fundamental capabilities. In light of previous research, we also merge multiple 13B FT LLMs and observe that WIDEN achieves a balanced amalgamation of instruction following, mathematical reasoning, and code generation skills.
- Abstract(参考訳): Merging Large Language Models (LLMs) は、複数のホモロジー LLM を、すべての機能を持つ言語にアマルガメートすることを目的としている。
理想的には、同じバックボーンを共有する LLM は、小さなパラメータ変化を持つファインチューニング (FT) か、実質的なパラメータシフトを持つ事前訓練 (PT) に拘わらず、マージ可能であるべきである。
しかし、既存の手法では、しばしば手動でモデルの重要度を割り当て、複数のFT LLMのような同様のパラメータ変化を持つLLMに対してのみ実現可能である。
FT と PT LLM の間のパラメータの変化範囲は、最適組み合わせを経験的に決定する上で、現在のソリューションに課題をもたらす。
本稿では,FT から PT LLM への統合技術の適用性を拡大するための先駆的な取り組みを行う。
我々はまず,FTとPT LLMの融合における現在の方法の有効性について検討し,PT LLMの対応に苦慮していることを発見した。
次に,WeIght DisENtanglement (WIDEN) に基づく手法を導入し,まずモデルの重みを大や方向の成分に分解し,それぞれの寄与を考慮して適応融合を行う。
実験では,Qwen1.5-Chat(命令追従能力を持つFT LLM)とSailor(多言語能力を持つPT LLM)を7B,14Bモデルスケールで組み合わせた。
その結果,(1) 既存の解法は,(1) セイラーの合併時に失敗し,両者の能力を失ったり,あるいは指示追従能力のみを維持できなかったり,(2) WIDEN が Qwen1.5-Chat にサイラーの多言語能力の注入に成功し,東南アジア語で熟達し,基本能力の向上を実現した。
これまでの研究では、複数の13B FT LLMをマージし、WIDENが命令追従、数学的推論、コード生成のバランスの取れたアマルガメーションを達成することを観察した。
関連論文リスト
- LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [70.19607283302712]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。
具体的には,l-MLLMとs-MLLMの視覚的テキスト出力分布のばらつきを最小限に抑えるために,MDist(Multimodal Distillation)を導入する。
また,S-MLLMの可能性を完全に活用するための3段階学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T17:41:28Z) - SWIFT: On-the-Fly Self-Speculative Decoding for LLM Inference Acceleration [10.970637831760136]
投機的復号法(SD)は,大規模言語モデル(LLM)の推論を高速化するパラダイムとして広く用いられている。
本稿では,LLMの中間層を適応的に選択して推論時にスキップする,オンザフライの自己投機的復号アルゴリズムであるSWIFTを紹介する。
SWIFTは生成したテキストの元の分布を保ちながら1.3x-1.6xの高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-09T14:15:30Z) - PAFT: A Parallel Training Paradigm for Effective LLM Fine-Tuning [17.73193523921637]
大規模言語モデル(LLM)は、多様な自然言語処理(NLP)タスクにおいて顕著な能力を示している。
LLMは通常、制御された微調整(SFT)を行い、その後、下流のアプリケーションで使用できるように調整する。
本稿では,PLMファインチューニングのための新しいPArallelトレーニングパラダイムであるPAFTを紹介する。
論文 参考訳(メタデータ) (2024-06-25T20:11:37Z) - Delta-CoMe: Training-Free Delta-Compression with Mixed-Precision for Large Language Models [79.46938238953916]
多様なアプリケーションへの微調整された大規模言語モデル(LLM)は、複雑な要求を満たすために不可欠である。
近年の研究では、微調整LDMをベースモデルと対応するデルタウェイトに分解し、低ランクまたは低ビットのアプローチで圧縮してコストを削減することが示唆されている。
本研究では,従来の低ランク圧縮法と低ビット圧縮法がタスク固有の微調整LDMのモデル性能を著しく損なうことを観察する。
論文 参考訳(メタデータ) (2024-06-13T07:57:27Z) - Pack of LLMs: Model Fusion at Test-Time via Perplexity Optimization [18.73637736606997]
Pack of LLMs (PackLLM) は、入力プロンプトが与えられた場合、各LSMの専門知識を活用するテスト時間融合の有効な方法である。
我々は,多種多様なタスクに対して,100以上の大規模言語モデル(LLM)を用いて実験を行う。
PackLLMは、テスト時間融合ベースラインを1.89%精度で上回る。
論文 参考訳(メタデータ) (2024-04-17T16:24:07Z) - Knowledge Fusion of Chat LLMs: A Preliminary Technical Report [51.0178356903925]
チャットLLMの融合を実現するためにFuseLLMフレームワークを拡張し,FusionChatを実現する。
本研究は, 構造的, スケール的な光源LLMの知識融合を行い, 軽量微調整により, 同一構造と大きさの複数の目標LLMを導出する。
我々は,異なるアーキテクチャとスケールを持つ3つの著名なチャットLLM,すなわちNH2-Mixtral-8x7B,NH2-Solar-10.7B,OpenChat-3.5-7Bを用いて,我々のアプローチを検証する。
論文 参考訳(メタデータ) (2024-02-25T15:11:58Z) - Knowledge Fusion of Large Language Models [73.28202188100646]
本稿では,大規模言語モデル(LLM)における知識融合の概念を紹介する。
我々は、それらの集合的知識と独特な強みを外部化し、それによってターゲットモデルの能力が、どのソースLLMよりも高められるようにします。
この結果から,LLMの融合により,推論やコモンセンス,コード生成など,対象モデルの性能が向上することが確認された。
論文 参考訳(メタデータ) (2024-01-19T05:02:46Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。