Fugu-MT 論文翻訳(概要): FuseChat: Knowledge Fusion of Chat Models

論文の概要: FuseChat: Knowledge Fusion of Chat Models

arxiv url: http://arxiv.org/abs/2402.16107v3
Date: Sun, 3 Mar 2024 07:21:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-06 23:38:24.736496
Title: FuseChat: Knowledge Fusion of Chat Models
Title（参考訳）: FuseChat: チャットモデルの知識融合
Authors: Fanqi Wan, Ziyi Yang, Longguang Zhong, Xiaojun Quan, Xinting Huang, Wei Bi
Abstract要約: textscFuseChatはチャットLLMの融合を実現するフレームワークである。 textttFuseChat は texttGPT-3.5 (3月) よりも優れており、 textttMixtral-8x7B-Instruct に近づいている。
参考スコア（独自算出の注目度）: 54.05930586705375
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While training large language models (LLMs) from scratch can indeed lead to models with distinct capabilities and strengths, this approach incurs substantial costs and may lead to potential redundancy in competencies. An alternative strategy is to combine existing LLMs into a more robust LLM, thereby diminishing the necessity for expensive pre-training. However, due to the diverse architectures of LLMs, direct parameter blending proves to be unfeasible. Recently, \textsc{FuseLLM} introduced the concept of knowledge fusion to transfer the collective knowledge of multiple structurally varied LLMs into a target LLM through lightweight continual training. In this report, we extend the scalability and flexibility of the \textsc{FuseLLM} framework to realize the fusion of chat LLMs, resulting in \textsc{FuseChat}. \textsc{FuseChat} comprises two main stages. Firstly, we undertake knowledge fusion for structurally and scale-varied source LLMs to derive multiple target LLMs of identical structure and size via lightweight fine-tuning. Then, these target LLMs are merged within the parameter space, wherein we propose a novel method for determining the merging weights based on the variation ratio of parameter matrices before and after fine-tuning. We validate our approach using three prominent chat LLMs with diverse architectures and scales, namely \texttt{NH2-Mixtral-8x7B}, \texttt{NH2-Solar-10.7B}, and \texttt{OpenChat-3.5-7B}. Experimental results spanning various chat domains demonstrate the superiority of \texttt{\textsc{FuseChat}-7B} across a broad spectrum of chat LLMs at 7B and 34B scales, even surpassing \texttt{GPT-3.5 (March)} and approaching \texttt{Mixtral-8x7B-Instruct}. Our code, model weights, and data are openly accessible at \url{https://github.com/fanqiwan/FuseLLM}.
Abstract（参考訳）: 大きな言語モデル(LLM)をスクラッチからトレーニングすることは、機能と強みの異なるモデルにつながるが、このアプローチは相当なコストを発生させ、能力の冗長性をもたらす可能性がある。代替戦略として、既存のLLMをより堅牢なLLMに組み込むことで、高価な事前訓練の必要性を軽減できる。しかし、llmsの多様なアーキテクチャにより、直接パラメータブレンディングは実現不可能であることが証明される。近年,複数の構造変化 LLM の集合的知識を,軽量な連続学習により目標 LLM に伝達する知識融合の概念を導入している。本稿では、チャットLLMの融合を実現するために、textsc{FuseLLM}フレームワークのスケーラビリティと柔軟性を拡張し、その結果、textsc{FuseChat}を実現する。 \textsc{fusechat} は2つの主要なステージからなる。まず,軽量な微調整による同一構造と大きさの複数のターゲットllmを導出するために,構造的およびスケール変数のソースllmに対する知識融合を行う。次に,これらのLLMをパラメータ空間内にマージし,微調整前後のパラメータ行列の変動率に基づいてマージ重みを決定する手法を提案する。アーキテクチャとスケールが多様である3つの著名なチャットLLM,すなわち \texttt{NH2-Mixtral-8x7B}, \texttt{NH2-Solar-10.7B}, \texttt{OpenChat-3.5-7B} を用いたアプローチを検証する。様々なチャットドメインにまたがる実験結果は、7B と 34B スケールのチャット LLM の幅広い範囲における \texttt{\textsc{FuseChat}-7B} の優位性を示し、さらに \texttt{GPT-3.5 ( March)} を超え、 \texttt{Mixtral-8x7B-Instruct} に近づいた。私たちのコード、モデルウェイト、データは、 \url{https://github.com/fanqiwan/FuseLLM}で公開アクセスできます。

関連論文リスト

LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。 LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。 LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文参考訳（メタデータ） (2025-02-15T02:55:22Z)
FedCoLLM: A Parameter-Efficient Federated Co-tuning Framework for Large and Small Language Models [24.579015114518157]
FedCoLLMは、Large Language Models (LLM) とSmall Language Models (SLM) の共用用に設計された新しいフレームワークである。 FedCoLLM はサーバ側の LLM の知識をクライアントの SLM に適応的に転送し、同時にクライアントからのドメイン洞察で LLM を豊かにする。 NLPテキスト生成タスクの多種多様な公開LLMとSLMを利用してFedCoLLMの評価を行ったところ,LLMの助けを借りて顕著な改善が得られた。
論文参考訳（メタデータ） (2024-11-18T16:34:58Z)
LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [70.19607283302712]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。具体的には,l-MLLMとs-MLLMの視覚的テキスト出力分布のばらつきを最小限に抑えるために,MDist(Multimodal Distillation)を導入する。また,S-MLLMの可能性を完全に活用するための3段階学習手法を提案する。
論文参考訳（メタデータ） (2024-10-21T17:41:28Z)
FuseChat: Knowledge Fusion of Chat Models [35.90957231731829]
チャットLLMの知識融合のための新しいフレームワークを提案する。我々は, OpenChat-3.5-7B, Starling-LM-7B-alpha, NH2-SOLAR-10.7B, InternLM2-Chat-20B, Mixtral-8x7B-Instruct, Qwen-1.5-Chat-72B の6つの著名なチャット LLM を用いて,FuseChat の実装と検証を行った。
論文参考訳（メタデータ） (2024-08-15T07:37:24Z)
Extend Model Merging from Fine-Tuned to Pre-Trained Large Language Models via Weight Disentanglement [72.97553348776425]
我々は、FTからPT LLMへのマージ技術の適用性を拡大するための先駆的な取り組みを行っている。 WeIght DisENtanglement (WIDEN) に基づくアプローチを導入し、マージ範囲を効果的に拡張する。 Qwen1.5-Chat (FT LLM with instruction-following skills) と Sailor (PT LLM with multilingual abilities) を7Bおよび14Bモデルスケールにマージする。
論文参考訳（メタデータ） (2024-08-06T10:46:46Z)
Cool-Fusion: Fuse Large Language Models without Training [73.17551121242602]
Cool-Fusionは、トレーニングを必要としないソースLLMの知識を融合させる。さまざまなベンチマークデータセットで実験が行われた。 GSM8Kでは、Cool-Fusionは3つの強力なLLMからの精度を17.4%向上させた。
論文参考訳（メタデータ） (2024-07-29T09:02:19Z)
Delta-CoMe: Training-Free Delta-Compression with Mixed-Precision for Large Language Models [79.46938238953916]
多様なアプリケーションへの微調整された大規模言語モデル(LLM)は、複雑な要求を満たすために不可欠である。近年の研究では、微調整LDMをベースモデルと対応するデルタウェイトに分解し、低ランクまたは低ビットのアプローチで圧縮してコストを削減することが示唆されている。本研究では,従来の低ランク圧縮法と低ビット圧縮法がタスク固有の微調整LDMのモデル性能を著しく損なうことを観察する。
論文参考訳（メタデータ） (2024-06-13T07:57:27Z)
FedMKT: Federated Mutual Knowledge Transfer for Large and Small Language Models [28.284346666217207]
FedMKTは、大小の言語モデルのためのパラメータ効率の良い相互知識伝達フレームワークである。我々は,FedMKTがLLMとSLMの両方の性能を同時に向上させることを示す。
論文参考訳（メタデータ） (2024-06-04T11:36:09Z)
Knowledge Fusion of Large Language Models [73.28202188100646]
本稿では,大規模言語モデル(LLM)における知識融合の概念を紹介する。我々は、それらの集合的知識と独特な強みを外部化し、それによってターゲットモデルの能力が、どのソースLLMよりも高められるようにします。この結果から,LLMの融合により,推論やコモンセンス,コード生成など,対象モデルの性能が向上することが確認された。
論文参考訳（メタデータ） (2024-01-19T05:02:46Z)
Towards Vision Enhancing LLMs: Empowering Multimodal Knowledge Storage and Sharing in LLMs [72.49064988035126]
マルチモーダル大規模言語モデル(MLLM)の強化を目的としたMKS2という手法を提案する。具体的には、LLMの内部ブロックに組み込まれたコンポーネントであるModular Visual Memoryを導入し、オープンワールドの視覚情報を効率的に保存するように設計されている。実験により,MKS2は物理的・常識的な知識を必要とする文脈において,LLMの推論能力を大幅に増強することが示された。
論文参考訳（メタデータ） (2023-11-27T12:29:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。