論文の概要: Knowledge Fusion of Chat LLMs: A Preliminary Technical Report
- arxiv url: http://arxiv.org/abs/2402.16107v5
- Date: Tue, 28 May 2024 09:59:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 11:28:48.688370
- Title: Knowledge Fusion of Chat LLMs: A Preliminary Technical Report
- Title(参考訳): チャットLLMの知識融合 : 予備技術報告
- Authors: Fanqi Wan, Ziyi Yang, Longguang Zhong, Xiaojun Quan, Xinting Huang, Wei Bi,
- Abstract要約: チャットLLMの融合を実現するためにFuseLLMフレームワークを拡張し,FusionChatを実現する。
本研究は, 構造的, スケール的な光源LLMの知識融合を行い, 軽量微調整により, 同一構造と大きさの複数の目標LLMを導出する。
我々は,異なるアーキテクチャとスケールを持つ3つの著名なチャットLLM,すなわちNH2-Mixtral-8x7B,NH2-Solar-10.7B,OpenChat-3.5-7Bを用いて,我々のアプローチを検証する。
- 参考スコア(独自算出の注目度): 51.0178356903925
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, FuseLLM introduced the concept of knowledge fusion to transfer the collective knowledge of multiple structurally varied LLMs into a target LLM through lightweight continual training. In this report, we extend the scalability and flexibility of the FuseLLM framework to realize the fusion of chat LLMs, resulting in FusionChat. FusionChat comprises two main stages. Firstly, we undertake knowledge fusion for structurally and scale-varied source LLMs to derive multiple target LLMs of identical structure and size via lightweight fine-tuning. Then, these target LLMs are merged within the parameter space, wherein we propose a novel method for determining the merging weights based on the variation ratio of parameter matrices before and after fine-tuning. We validate our approach using three prominent chat LLMs with diverse architectures and scales, namely NH2-Mixtral-8x7B, NH2-Solar-10.7B, and OpenChat-3.5-7B. Experimental results spanning various chat domains demonstrate the superiority of FusionChat-7B across a broad spectrum of chat LLMs at 7B and 34B scales, even surpassing GPT-3.5 (March) and approaching Mixtral-8x7B-Instruct.
- Abstract(参考訳): 近年、FuseLLM は、複数の構造変化 LLM の集合的知識を、軽量な連続訓練により目標 LLM に転送する知識融合の概念を導入している。
本稿では,FuseLLMフレームワークのスケーラビリティと柔軟性を拡張して,チャットLLMの融合を実現し,FusionChatを実現する。
FusionChatは2つの主要なステージから構成される。
まず, 構造的および規模的に変化したLLMに対して知識融合を行い, 軽量微調整により同一構造と大きさの複数のLLMを導出する。
次に,これらのLLMをパラメータ空間内にマージし,微調整前後のパラメータ行列の変動率に基づいてマージ重みを決定する手法を提案する。
我々は,異なるアーキテクチャとスケールを持つ3つの著名なチャットLLM,すなわちNH2-Mixtral-8x7B,NH2-Solar-10.7B,OpenChat-3.5-7Bを用いて,我々のアプローチを検証する。
様々なチャットドメインにまたがる実験結果から、7Bおよび34BスケールのチャットLLMにおいてFusionChat-7BがGPT-3.5(3月)を超え、Mixtral-8x7B-Instructに近づいた。
関連論文リスト
- FedCoLLM: A Parameter-Efficient Federated Co-tuning Framework for Large and Small Language Models [24.579015114518157]
FedCoLLMは、Large Language Models (LLM) とSmall Language Models (SLM) の共用用に設計された新しいフレームワークである。
FedCoLLM はサーバ側の LLM の知識をクライアントの SLM に適応的に転送し、同時にクライアントからのドメイン洞察で LLM を豊かにする。
NLPテキスト生成タスクの多種多様な公開LLMとSLMを利用してFedCoLLMの評価を行ったところ,LLMの助けを借りて顕著な改善が得られた。
論文 参考訳(メタデータ) (2024-11-18T16:34:58Z) - LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [70.19607283302712]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。
具体的には,l-MLLMとs-MLLMの視覚的テキスト出力分布のばらつきを最小限に抑えるために,MDist(Multimodal Distillation)を導入する。
また,S-MLLMの可能性を完全に活用するための3段階学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T17:41:28Z) - FuseChat: Knowledge Fusion of Chat Models [35.90957231731829]
チャットLLMの知識融合のための新しいフレームワークを提案する。
我々は, OpenChat-3.5-7B, Starling-LM-7B-alpha, NH2-SOLAR-10.7B, InternLM2-Chat-20B, Mixtral-8x7B-Instruct, Qwen-1.5-Chat-72B の6つの著名なチャット LLM を用いて,FuseChat の実装と検証を行った。
論文 参考訳(メタデータ) (2024-08-15T07:37:24Z) - Extend Model Merging from Fine-Tuned to Pre-Trained Large Language Models via Weight Disentanglement [72.97553348776425]
我々は、FTからPT LLMへのマージ技術の適用性を拡大するための先駆的な取り組みを行っている。
WeIght DisENtanglement (WIDEN) に基づくアプローチを導入し、マージ範囲を効果的に拡張する。
Qwen1.5-Chat (FT LLM with instruction-following skills) と Sailor (PT LLM with multilingual abilities) を7Bおよび14Bモデルスケールにマージする。
論文 参考訳(メタデータ) (2024-08-06T10:46:46Z) - Delta-CoMe: Training-Free Delta-Compression with Mixed-Precision for Large Language Models [79.46938238953916]
多様なアプリケーションへの微調整された大規模言語モデル(LLM)は、複雑な要求を満たすために不可欠である。
近年の研究では、微調整LDMをベースモデルと対応するデルタウェイトに分解し、低ランクまたは低ビットのアプローチで圧縮してコストを削減することが示唆されている。
本研究では,従来の低ランク圧縮法と低ビット圧縮法がタスク固有の微調整LDMのモデル性能を著しく損なうことを観察する。
論文 参考訳(メタデータ) (2024-06-13T07:57:27Z) - FedMKT: Federated Mutual Knowledge Transfer for Large and Small Language Models [28.284346666217207]
FedMKTは、大小の言語モデルのためのパラメータ効率の良い相互知識伝達フレームワークである。
我々は,FedMKTがLLMとSLMの両方の性能を同時に向上させることを示す。
論文 参考訳(メタデータ) (2024-06-04T11:36:09Z) - Knowledge Fusion of Large Language Models [73.28202188100646]
本稿では,大規模言語モデル(LLM)における知識融合の概念を紹介する。
我々は、それらの集合的知識と独特な強みを外部化し、それによってターゲットモデルの能力が、どのソースLLMよりも高められるようにします。
この結果から,LLMの融合により,推論やコモンセンス,コード生成など,対象モデルの性能が向上することが確認された。
論文 参考訳(メタデータ) (2024-01-19T05:02:46Z) - Towards Vision Enhancing LLMs: Empowering Multimodal Knowledge Storage
and Sharing in LLMs [72.49064988035126]
マルチモーダル大規模言語モデル(MLLM)の強化を目的としたMKS2という手法を提案する。
具体的には、LLMの内部ブロックに組み込まれたコンポーネントであるModular Visual Memoryを導入し、オープンワールドの視覚情報を効率的に保存するように設計されている。
実験により,MKS2は物理的・常識的な知識を必要とする文脈において,LLMの推論能力を大幅に増強することが示された。
論文 参考訳(メタデータ) (2023-11-27T12:29:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。