論文の概要: FuseChat: Knowledge Fusion of Chat Models
- arxiv url: http://arxiv.org/abs/2408.07990v1
- Date: Thu, 15 Aug 2024 07:37:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-16 14:36:26.662248
- Title: FuseChat: Knowledge Fusion of Chat Models
- Title(参考訳): FuseChat: チャットモデルの知識融合
- Authors: Fanqi Wan, Longguang Zhong, Ziyi Yang, Ruijun Chen, Xiaojun Quan,
- Abstract要約: チャットLLMの知識融合のための新しいフレームワークを提案する。
我々は, OpenChat-3.5-7B, Starling-LM-7B-alpha, NH2-SOLAR-10.7B, InternLM2-Chat-20B, Mixtral-8x7B-Instruct, Qwen-1.5-Chat-72B の6つの著名なチャット LLM を用いて,FuseChat の実装と検証を行った。
- 参考スコア(独自算出の注目度): 35.90957231731829
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While training large language models (LLMs) from scratch can indeed lead to models with distinct capabilities and strengths, it incurs substantial costs and may lead to redundancy in competencies. Knowledge fusion aims to integrate existing LLMs of diverse architectures and capabilities into a more potent LLM through lightweight continual training, thereby reducing the need for costly LLM development. In this work, we propose a new framework for the knowledge fusion of chat LLMs through two main stages, resulting in FuseChat. Firstly, we conduct pairwise knowledge fusion on source chat LLMs of varying structures and scales to create multiple target LLMs with identical structure and size via lightweight fine-tuning. During this process, a statistics-based token alignment approach is introduced as the cornerstone for fusing LLMs with different structures. Secondly, we merge these target LLMs within the parameter space, where we propose a novel method for determining the merging coefficients based on the magnitude of parameter updates before and after fine-tuning. We implement and validate FuseChat using six prominent chat LLMs with diverse architectures and scales, including OpenChat-3.5-7B, Starling-LM-7B-alpha, NH2-SOLAR-10.7B, InternLM2-Chat-20B, Mixtral-8x7B-Instruct, and Qwen-1.5-Chat-72B. Experimental results on two instruction-following benchmarks, AlpacaEval 2.0 and MT-Bench, demonstrate the superiority of FuseChat-7B over baselines of various sizes. Our model is even comparable to the larger Mixtral-8x7B-Instruct and approaches GPT-3.5-Turbo-1106 on MT-Bench. Our code, model weights, and data are public at \url{https://github.com/fanqiwan/FuseAI}.
- Abstract(参考訳): 大規模言語モデル(LLM)をスクラッチからトレーニングすることは、機能と強みの異なるモデルにつながる可能性があるが、かなりのコストがかかり、能力の冗長性につながる可能性がある。
知識融合は、軽量な連続的なトレーニングを通じて、多様なアーキテクチャと能力を持つ既存のLLMをより強力なLLMに統合することで、コストのかかるLLM開発の必要性を減らすことを目的としている。
本研究では,チャットLLMの知識融合のための新しいフレームワークを提案する。
まず、異なる構造とスケールのソースチャットLLM上でペアワイズ知識融合を行い、軽量な微調整により同一の構造とサイズを持つ複数のターゲットLLMを作成する。
この過程で、異なる構造を持つLLMを融合させる基盤として、統計に基づくトークンアライメント手法が導入された。
次に, パラメータ空間内にこれらのLLMをマージし, 微調整前後のパラメータ更新の大きさに基づいて, マージ係数を決定する手法を提案する。
我々は, OpenChat-3.5-7B, Starling-LM-7B-alpha, NH2-SOLAR-10.7B, InternLM2-Chat-20B, Mixtral-8x7B-Instruct, Qwen-1.5-Chat-72B の6つの著名なチャット LLM を用いて,FuseChat の実装と検証を行った。
AlpacaEval 2.0 と MT-Bench という2つの命令追従ベンチマークの実験結果から,FuseChat-7B の様々なサイズに対する優位性が示された。
我々のモデルはMixtral-8x7B-Instructに匹敵し、MT-Bench上でGPT-3.5-Turbo-1106にアプローチする。
私たちのコード、モデルウェイト、データは、 \url{https://github.com/fanqiwan/FuseAI}で公開されています。
関連論文リスト
- Extend Model Merging from Fine-Tuned to Pre-Trained Large Language Models via Weight Disentanglement [72.97553348776425]
我々は、FTからPT LLMへのマージ技術の適用性を拡大するための先駆的な取り組みを行っている。
WeIght DisENtanglement (WIDEN) に基づくアプローチを導入し、マージ範囲を効果的に拡張する。
Qwen1.5-Chat (FT LLM with instruction-following skills) と Sailor (PT LLM with multilingual abilities) を7Bおよび14Bモデルスケールにマージする。
論文 参考訳(メタデータ) (2024-08-06T10:46:46Z) - Delta-CoMe: Training-Free Delta-Compression with Mixed-Precision for Large Language Models [79.46938238953916]
多様なアプリケーションへの微調整された大規模言語モデル(LLM)は、複雑な要求を満たすために不可欠である。
近年の研究では、微調整LDMをベースモデルと対応するデルタウェイトに分解し、低ランクまたは低ビットのアプローチで圧縮してコストを削減することが示唆されている。
本研究では,従来の低ランク圧縮法と低ビット圧縮法がタスク固有の微調整LDMのモデル性能を著しく損なうことを観察する。
論文 参考訳(メタデータ) (2024-06-13T07:57:27Z) - Knowledge Fusion of Chat LLMs: A Preliminary Technical Report [51.0178356903925]
チャットLLMの融合を実現するためにFuseLLMフレームワークを拡張し,FusionChatを実現する。
本研究は, 構造的, スケール的な光源LLMの知識融合を行い, 軽量微調整により, 同一構造と大きさの複数の目標LLMを導出する。
我々は,異なるアーキテクチャとスケールを持つ3つの著名なチャットLLM,すなわちNH2-Mixtral-8x7B,NH2-Solar-10.7B,OpenChat-3.5-7Bを用いて,我々のアプローチを検証する。
論文 参考訳(メタデータ) (2024-02-25T15:11:58Z) - Knowledge Fusion of Large Language Models [73.28202188100646]
本稿では,大規模言語モデル(LLM)における知識融合の概念を紹介する。
我々は、それらの集合的知識と独特な強みを外部化し、それによってターゲットモデルの能力が、どのソースLLMよりも高められるようにします。
この結果から,LLMの融合により,推論やコモンセンス,コード生成など,対象モデルの性能が向上することが確認された。
論文 参考訳(メタデータ) (2024-01-19T05:02:46Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。