Fugu-MT 論文翻訳(概要): FuseChat: Knowledge Fusion of Chat Models

論文の概要: FuseChat: Knowledge Fusion of Chat Models

arxiv url: http://arxiv.org/abs/2402.16107v4
Date: Mon, 27 May 2024 10:16:51 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-29 07:05:34.226534
Title: FuseChat: Knowledge Fusion of Chat Models
Title（参考訳）: FuseChat: チャットモデルの知識融合
Authors: Fanqi Wan, Ziyi Yang, Longguang Zhong, Xiaojun Quan, Xinting Huang, Wei Bi,
Abstract要約: FuseChatは、チャット言語モデルのための知識融合フレームワークである。微調整前後のパラメータ行列の変動率に基づいて, マージ重量を決定する新しい手法を提案する。様々なチャット領域にまたがる実験結果から、7Bおよび34BスケールのチャットLLMにおけるFuseChat-7Bの優位性が示された。
参考スコア（独自算出の注目度）: 51.0178356903925
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While training large language models (LLMs) from scratch can indeed lead to models with distinct capabilities and strengths, this approach incurs substantial costs and may lead to potential redundancy in competencies. An alternative strategy is to combine existing LLMs into a more robust LLM, thereby diminishing the necessity for expensive pre-training. However, due to the diverse architectures of LLMs, direct parameter blending proves to be unfeasible. Recently, FuseLLM introduced the concept of knowledge fusion to transfer the collective knowledge of multiple structurally varied LLMs into a target LLM through lightweight continual training. In this report, we extend the scalability and flexibility of the FuseLLM framework to realize the fusion of chat LLMs, resulting in FuseChat. FuseChat comprises two main stages. Firstly, we undertake knowledge fusion for structurally and scale-varied source LLMs to derive multiple target LLMs of identical structure and size via lightweight fine-tuning. Then, these target LLMs are merged within the parameter space, wherein we propose a novel method for determining the merging weights based on the variation ratio of parameter matrices before and after fine-tuning. We validate our approach using three prominent chat LLMs with diverse architectures and scales, namely NH2-Mixtral-8x7B, NH2-Solar-10.7B, and OpenChat-3.5-7B. Experimental results spanning various chat domains demonstrate the superiority of FuseChat-7B across a broad spectrum of chat LLMs at 7B and 34B scales, even surpassing GPT-3.5 (March) and approaching Mixtral-8x7B-Instruct. Our code, model weights, and data are openly accessible at \url{https://github.com/fanqiwan/FuseLLM}.
Abstract（参考訳）: 大規模言語モデル(LLM)をスクラッチからトレーニングすることは、機能と強みの異なるモデルにつながる可能性があるが、このアプローチはかなりのコストを発生させ、能力の冗長性をもたらす可能性がある。代替戦略として、既存のLLMをより堅牢なLLMに組み込むことで、高価な事前訓練の必要性を減らすことがある。しかし、LLMの多様なアーキテクチャのため、直接パラメータブレンディングは実現不可能であることが証明されている。近年、FuseLLM は、複数の構造変化 LLM の集合的知識を、軽量な連続訓練により目標 LLM に転送する知識融合の概念を導入している。本稿では、FuseLLMフレームワークのスケーラビリティと柔軟性を拡張し、チャットLLMの融合を実現し、FuseChatを実現する。 FuseChatは2つの主要なステージから構成される。まず, 構造的および規模的に変化したLLMに対して知識融合を行い, 軽量微調整により同一構造と大きさの複数のLLMを導出する。次に,これらのLLMをパラメータ空間内にマージし,微調整前後のパラメータ行列の変動率に基づいてマージ重みを決定する手法を提案する。我々は,異なるアーキテクチャとスケールを持つ3つの著名なチャットLLM,すなわちNH2-Mixtral-8x7B,NH2-Solar-10.7B,OpenChat-3.5-7Bを用いて,我々のアプローチを検証する。様々なチャットドメインにまたがる実験結果は、7Bおよび34BスケールのチャットLLMにおけるFuseChat-7Bの優位性を示し、GPT-3.5(3月)を超え、Mixtral-8x7B-Instructに近づいた。私たちのコード、モデルウェイト、データは、 \url{https://github.com/fanqiwan/FuseLLM}で公開アクセスできます。

関連論文リスト

LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。 LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。 LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文参考訳（メタデータ） (2025-02-15T02:55:22Z)
FedCoLLM: A Parameter-Efficient Federated Co-tuning Framework for Large and Small Language Models [24.579015114518157]
FedCoLLMは、Large Language Models (LLM) とSmall Language Models (SLM) の共用用に設計された新しいフレームワークである。 FedCoLLM はサーバ側の LLM の知識をクライアントの SLM に適応的に転送し、同時にクライアントからのドメイン洞察で LLM を豊かにする。 NLPテキスト生成タスクの多種多様な公開LLMとSLMを利用してFedCoLLMの評価を行ったところ,LLMの助けを借りて顕著な改善が得られた。
論文参考訳（メタデータ） (2024-11-18T16:34:58Z)
LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [70.19607283302712]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。具体的には,l-MLLMとs-MLLMの視覚的テキスト出力分布のばらつきを最小限に抑えるために,MDist(Multimodal Distillation)を導入する。また,S-MLLMの可能性を完全に活用するための3段階学習手法を提案する。
論文参考訳（メタデータ） (2024-10-21T17:41:28Z)
FuseChat: Knowledge Fusion of Chat Models [35.90957231731829]
チャットLLMの知識融合のための新しいフレームワークを提案する。我々は, OpenChat-3.5-7B, Starling-LM-7B-alpha, NH2-SOLAR-10.7B, InternLM2-Chat-20B, Mixtral-8x7B-Instruct, Qwen-1.5-Chat-72B の6つの著名なチャット LLM を用いて,FuseChat の実装と検証を行った。
論文参考訳（メタデータ） (2024-08-15T07:37:24Z)
Extend Model Merging from Fine-Tuned to Pre-Trained Large Language Models via Weight Disentanglement [72.97553348776425]
我々は、FTからPT LLMへのマージ技術の適用性を拡大するための先駆的な取り組みを行っている。 WeIght DisENtanglement (WIDEN) に基づくアプローチを導入し、マージ範囲を効果的に拡張する。 Qwen1.5-Chat (FT LLM with instruction-following skills) と Sailor (PT LLM with multilingual abilities) を7Bおよび14Bモデルスケールにマージする。
論文参考訳（メタデータ） (2024-08-06T10:46:46Z)
Cool-Fusion: Fuse Large Language Models without Training [73.17551121242602]
Cool-Fusionは、トレーニングを必要としないソースLLMの知識を融合させる。さまざまなベンチマークデータセットで実験が行われた。 GSM8Kでは、Cool-Fusionは3つの強力なLLMからの精度を17.4%向上させた。
論文参考訳（メタデータ） (2024-07-29T09:02:19Z)
Delta-CoMe: Training-Free Delta-Compression with Mixed-Precision for Large Language Models [79.46938238953916]
多様なアプリケーションへの微調整された大規模言語モデル(LLM)は、複雑な要求を満たすために不可欠である。近年の研究では、微調整LDMをベースモデルと対応するデルタウェイトに分解し、低ランクまたは低ビットのアプローチで圧縮してコストを削減することが示唆されている。本研究では,従来の低ランク圧縮法と低ビット圧縮法がタスク固有の微調整LDMのモデル性能を著しく損なうことを観察する。
論文参考訳（メタデータ） (2024-06-13T07:57:27Z)
FedMKT: Federated Mutual Knowledge Transfer for Large and Small Language Models [28.284346666217207]
FedMKTは、大小の言語モデルのためのパラメータ効率の良い相互知識伝達フレームワークである。我々は,FedMKTがLLMとSLMの両方の性能を同時に向上させることを示す。
論文参考訳（メタデータ） (2024-06-04T11:36:09Z)
Knowledge Fusion of Large Language Models [73.28202188100646]
本稿では,大規模言語モデル(LLM)における知識融合の概念を紹介する。我々は、それらの集合的知識と独特な強みを外部化し、それによってターゲットモデルの能力が、どのソースLLMよりも高められるようにします。この結果から,LLMの融合により,推論やコモンセンス,コード生成など,対象モデルの性能が向上することが確認された。
論文参考訳（メタデータ） (2024-01-19T05:02:46Z)
Towards Vision Enhancing LLMs: Empowering Multimodal Knowledge Storage and Sharing in LLMs [72.49064988035126]
マルチモーダル大規模言語モデル(MLLM)の強化を目的としたMKS2という手法を提案する。具体的には、LLMの内部ブロックに組み込まれたコンポーネントであるModular Visual Memoryを導入し、オープンワールドの視覚情報を効率的に保存するように設計されている。実験により,MKS2は物理的・常識的な知識を必要とする文脈において,LLMの推論能力を大幅に増強することが示された。
論文参考訳（メタデータ） (2023-11-27T12:29:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。