論文の概要: Extend Model Merging from Fine-Tuned to Pre-Trained Large Language Models via Weight Disentanglement
- arxiv url: http://arxiv.org/abs/2408.03092v1
- Date: Tue, 6 Aug 2024 10:46:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-07 14:27:34.439368
- Title: Extend Model Merging from Fine-Tuned to Pre-Trained Large Language Models via Weight Disentanglement
- Title(参考訳): 重みの絡み合いによる微調整型から事前訓練型大言語モデルへの拡張モデルマージ
- Authors: Le Yu, Bowen Yu, Haiyang Yu, Fei Huang, Yongbin Li,
- Abstract要約: 我々は、FTからPT LLMへのマージ技術の適用性を拡大するための先駆的な取り組みを行っている。
WeIght DisENtanglement (WIDEN) に基づくアプローチを導入し、マージ範囲を効果的に拡張する。
Qwen1.5-Chat (FT LLM with instruction-following skills) と Sailor (PT LLM with multilingual abilities) を7Bおよび14Bモデルスケールにマージする。
- 参考スコア(独自算出の注目度): 72.97553348776425
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Merging Large Language Models (LLMs) aims to amalgamate multiple homologous LLMs into one with all the capabilities. Ideally, any LLMs sharing the same backbone should be mergeable, irrespective of whether they are Fine-Tuned (FT) with minor parameter changes or Pre-Trained (PT) with substantial parameter shifts. However, existing methods often manually assign the model importance, rendering them feasible only for LLMs with similar parameter alterations, such as multiple FT LLMs. The diverse parameter changed ranges between FT and PT LLMs pose challenges for current solutions in empirically determining the optimal combination. In this paper, we make a pioneering effort to broaden the applicability of merging techniques from FT to PT LLMs. We initially examine the efficacy of current methods in merging FT and PT LLMs, discovering that they struggle to deal with PT LLMs. Subsequently, we introduce an approach based on WeIght DisENtanglement (WIDEN) to effectively extend the merging scope, which first disentangles model weights into magnitude and direction components, and then performs adaptive fusion by considering their respective contributions. In the experiments, we merge Qwen1.5-Chat (an FT LLM with instruction-following skills) with Sailor (a PT LLM with multilingual abilities) across 7B and 14B model scales. Results reveal that: (1) existing solutions usually fail when merging Sailor, either losing both abilities or only retaining instruction-following skills; (2) WIDEN successfully injects the multilingual abilities of Sailor into Qwen1.5-Chat and make it proficient in Southeast Asian languages, achieving enhancements in the fundamental capabilities. In light of previous research, we also merge multiple 13B FT LLMs and observe that WIDEN achieves a balanced amalgamation of instruction following, mathematical reasoning, and code generation skills.
- Abstract(参考訳): Merging Large Language Models (LLMs) は、複数のホモロジー LLM を、すべての機能を持つ言語にアマルガメートすることを目的としている。
理想的には、同じバックボーンを共有する LLM は、小さなパラメータ変化を持つファインチューニング (FT) か、実質的なパラメータシフトを持つ事前訓練 (PT) に拘わらず、マージ可能であるべきである。
しかし、既存の手法では、しばしば手動でモデルの重要度を割り当て、複数のFT LLMのような同様のパラメータ変化を持つLLMに対してのみ実現可能である。
FT と PT LLM の間のパラメータの変化範囲は、最適組み合わせを経験的に決定する上で、現在のソリューションに課題をもたらす。
本稿では,FT から PT LLM への統合技術の適用性を拡大するための先駆的な取り組みを行う。
我々はまず,FTとPT LLMの融合における現在の方法の有効性について検討し,PT LLMの対応に苦慮していることを発見した。
次に,WeIght DisENtanglement (WIDEN) に基づく手法を導入し,まずモデルの重みを大や方向の成分に分解し,それぞれの寄与を考慮して適応融合を行う。
実験では,Qwen1.5-Chat(命令追従能力を持つFT LLM)とSailor(多言語能力を持つPT LLM)を7B,14Bモデルスケールで組み合わせた。
その結果,(1) 既存の解法は,(1) セイラーの合併時に失敗し,両者の能力を失ったり,あるいは指示追従能力のみを維持できなかったり,(2) WIDEN が Qwen1.5-Chat にサイラーの多言語能力の注入に成功し,東南アジア語で熟達し,基本能力の向上を実現した。
これまでの研究では、複数の13B FT LLMをマージし、WIDENが命令追従、数学的推論、コード生成のバランスの取れたアマルガメーションを達成することを観察した。
関連論文リスト
- PAFT: A Parallel Training Paradigm for Effective LLM Fine-Tuning [17.73193523921637]
大規模言語モデル(LLM)は、多様な自然言語処理(NLP)タスクにおいて顕著な能力を示している。
LLMは通常、制御された微調整(SFT)を行い、その後、下流のアプリケーションで使用できるように調整する。
本稿では,PLMファインチューニングのための新しいPArallelトレーニングパラダイムであるPAFTを紹介する。
論文 参考訳(メタデータ) (2024-06-25T20:11:37Z) - Delta-CoMe: Training-Free Delta-Compression with Mixed-Precision for Large Language Models [79.46938238953916]
多様なアプリケーションへの微調整された大規模言語モデル(LLM)は、複雑な要求を満たすために不可欠である。
近年の研究では、微調整LDMをベースモデルと対応するデルタウェイトに分解し、低ランクまたは低ビットのアプローチで圧縮してコストを削減することが示唆されている。
本研究では,従来の低ランク圧縮法と低ビット圧縮法がタスク固有の微調整LDMのモデル性能を著しく損なうことを観察する。
論文 参考訳(メタデータ) (2024-06-13T07:57:27Z) - Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [70.09561665520043]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。
強化学習における重み付き回帰を多エージェントシステムに拡張して理論的解析を行う。
Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文 参考訳(メタデータ) (2024-05-23T08:33:19Z) - Pack of LLMs: Model Fusion at Test-Time via Perplexity Optimization [18.73637736606997]
Pack of LLMs (PackLLM) は、入力プロンプトが与えられた場合、各LSMの専門知識を活用するテスト時間融合の有効な方法である。
我々は,多種多様なタスクに対して,100以上の大規模言語モデル(LLM)を用いて実験を行う。
PackLLMは、テスト時間融合ベースラインを1.89%精度で上回る。
論文 参考訳(メタデータ) (2024-04-17T16:24:07Z) - Knowledge Fusion of Chat LLMs: A Preliminary Technical Report [51.0178356903925]
チャットLLMの融合を実現するためにFuseLLMフレームワークを拡張し,FusionChatを実現する。
本研究は, 構造的, スケール的な光源LLMの知識融合を行い, 軽量微調整により, 同一構造と大きさの複数の目標LLMを導出する。
我々は,異なるアーキテクチャとスケールを持つ3つの著名なチャットLLM,すなわちNH2-Mixtral-8x7B,NH2-Solar-10.7B,OpenChat-3.5-7Bを用いて,我々のアプローチを検証する。
論文 参考訳(メタデータ) (2024-02-25T15:11:58Z) - Knowledge Fusion of Large Language Models [73.28202188100646]
本稿では,大規模言語モデル(LLM)における知識融合の概念を紹介する。
我々は、それらの集合的知識と独特な強みを外部化し、それによってターゲットモデルの能力が、どのソースLLMよりも高められるようにします。
この結果から,LLMの融合により,推論やコモンセンス,コード生成など,対象モデルの性能が向上することが確認された。
論文 参考訳(メタデータ) (2024-01-19T05:02:46Z) - Generative Multimodal Entity Linking [24.322540112710918]
MEL(Multimodal Entity Linking)は、知識ベースからの参照エンティティへの参照をマルチモーダルコンテキストでマッピングするタスクである。
既存のMEL法は主に複雑なマルチモーダル相互作用機構の設計に重点を置いており、すべてのモデルパラメータを微調整する必要がある。
大規模言語モデル(LLM)に基づくジェネレーティブマルチモーダルエンティティリンクフレームワークであるGEMELを提案する。
当社のフレームワークは市販の言語モデルと互換性があり、効率的で汎用的なソリューションへの道を開いたものです。
論文 参考訳(メタデータ) (2023-06-22T07:57:19Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。