論文の概要: FuseChat: Knowledge Fusion of Chat Models
- arxiv url: http://arxiv.org/abs/2402.16107v1
- Date: Sun, 25 Feb 2024 15:11:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 15:26:10.376291
- Title: FuseChat: Knowledge Fusion of Chat Models
- Title(参考訳): FuseChat: チャットモデルの知識融合
- Authors: Fanqi Wan, Ziyi Yang, Longguang Zhong, Xiaojun Quan, Xinting Huang,
Wei Bi
- Abstract要約: textscFuseChatはチャットLLMの融合を実現するフレームワークである。
textttFuseChat は texttGPT-3.5 (3月) よりも優れており、 textttMixtral-8x7B-Instruct に近づいている。
- 参考スコア(独自算出の注目度): 54.05930586705375
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While training large language models (LLMs) from scratch can indeed lead to
models with distinct capabilities and strengths, this approach incurs
substantial costs and may lead to potential redundancy in competencies. An
alternative strategy is to combine existing LLMs into a more robust LLM,
thereby diminishing the necessity for expensive pre-training. However, due to
the diverse architectures of LLMs, direct parameter blending proves to be
unfeasible. Recently, \textsc{FuseLLM} introduced the concept of knowledge
fusion to transfer the collective knowledge of multiple structurally varied
LLMs into a target LLM through lightweight continual training. In this report,
we extend the scalability and flexibility of the \textsc{FuseLLM} framework to
realize the fusion of chat LLMs, resulting in \textsc{FuseChat}.
\textsc{FuseChat} comprises two main stages. Firstly, we undertake knowledge
fusion for structurally and scale-varied source LLMs to derive multiple target
LLMs of identical structure and size via lightweight fine-tuning. Then, these
target LLMs are merged within the parameter space, wherein we propose a novel
method for determining the merging weights based on the variation ratio of
parameter matrices before and after fine-tuning. We validate our approach using
three prominent chat LLMs with diverse architectures and scales, namely
\texttt{NH2-Mixtral-8x7B}, \texttt{NH2-Solar-10.7B}, and
\texttt{OpenChat-3.5-7B}. Experimental results spanning various chat domains
demonstrate the superiority of \texttt{\textsc{FuseChat}-7B} across a broad
spectrum of chat LLMs at 7B and 34B scales, even surpassing \texttt{GPT-3.5
(March)} and approaching \texttt{Mixtral-8x7B-Instruct}. Our code, model
weights, and data are openly accessible at
\url{https://github.com/fanqiwan/FuseLLM}.
- Abstract(参考訳): 大きな言語モデル(LLM)をスクラッチからトレーニングすることは、機能と強みの異なるモデルにつながるが、このアプローチは相当なコストを発生させ、能力の冗長性をもたらす可能性がある。
代替戦略として、既存のLLMをより堅牢なLLMに組み込むことで、高価な事前訓練の必要性を軽減できる。
しかし、llmsの多様なアーキテクチャにより、直接パラメータブレンディングは実現不可能であることが証明される。
近年,複数の構造変化 LLM の集合的知識を,軽量な連続学習により目標 LLM に伝達する知識融合の概念を導入している。
本稿では、チャットLLMの融合を実現するために、textsc{FuseLLM}フレームワークのスケーラビリティと柔軟性を拡張し、その結果、textsc{FuseChat}を実現する。
\textsc{fusechat} は2つの主要なステージからなる。
まず,軽量な微調整による同一構造と大きさの複数のターゲットllmを導出するために,構造的およびスケール変数のソースllmに対する知識融合を行う。
次に,これらのLLMをパラメータ空間内にマージし,微調整前後のパラメータ行列の変動率に基づいてマージ重みを決定する手法を提案する。
アーキテクチャとスケールが多様である3つの著名なチャットLLM,すなわち \texttt{NH2-Mixtral-8x7B}, \texttt{NH2-Solar-10.7B}, \texttt{OpenChat-3.5-7B} を用いたアプローチを検証する。
様々なチャットドメインにまたがる実験結果は、7B と 34B スケールのチャット LLM の幅広い範囲における \texttt{\textsc{FuseChat}-7B} の優位性を示し、さらに \texttt{GPT-3.5 ( March)} を超え、 \texttt{Mixtral-8x7B-Instruct} に近づいた。
私たちのコード、モデルウェイト、データは、 \url{https://github.com/fanqiwan/FuseLLM}で公開アクセスできます。
関連論文リスト
- ST-LLM: Large Language Models Are Effective Temporal Learners [58.79456373423189]
大規模言語モデル(LLM)は、テキストの理解と生成において印象的な能力を示した。
ビデオベースの対話システムでビデオを効果的にエンコードし、理解する方法は、まだ解決されていない。
LLM内部の時空間シーケンスをモデル化したビデオLLMベースラインST-LLMを提案する。
論文 参考訳(メタデータ) (2024-03-30T10:11:26Z) - Found in the Middle: How Language Models Use Long Contexts Better via
Plug-and-Play Positional Encoding [78.36702055076456]
本稿では,マルチスケール位置決めについて紹介する。
(Ms-PoE)は、シンプルで効果的なプラグアンドプレイ方式で、キャパシティを向上させる。
LLMはコンテキストの中央に位置する関連情報を扱う。
論文 参考訳(メタデータ) (2024-03-05T04:58:37Z) - Knowledge Fusion of Large Language Models [73.28202188100646]
本稿では,大規模言語モデル(LLM)における知識融合の概念を紹介する。
我々は、それらの集合的知識と独特な強みを外部化し、それによってターゲットモデルの能力が、どのソースLLMよりも高められるようにします。
この結果から,LLMの融合により,推論やコモンセンス,コード生成など,対象モデルの性能が向上することが確認された。
論文 参考訳(メタデータ) (2024-01-19T05:02:46Z) - Zero- and Few-Shots Knowledge Graph Triplet Extraction with Large
Language Models [7.919349589245355]
本研究では,Zero-およびFew-Shots設定において,さまざまなサイズの大規模言語モデル(LLM)のトリプレット抽出機能を検証した。
我々は,知識ベース(KB)からコンテキスト情報を動的に収集するパイプラインを提案した。
論文 参考訳(メタデータ) (2023-12-04T15:12:04Z) - More Samples or More Prompts? Exploring Effective In-Context Sampling for LLM Few-Shot Prompt Engineering [35.086135550672864]
In-Context Smpling (ICS) を提案し、複数のICLプロンプト入力の構成を最適化し、確実な予測を行う。
3つのデータ類似性に基づくICS戦略による詳細な評価は、これらの戦略がLLMの性能をさらに高める可能性があることを示唆している。
論文 参考訳(メタデータ) (2023-11-16T11:02:49Z) - Let Models Speak Ciphers: Multiagent Debate through Embeddings [84.20336971784495]
この問題を解決するためにCIPHER(Communicative Inter-Model Protocol Through Embedding Representation)を導入する。
自然言語から逸脱することで、CIPHERはモデルの重みを変更することなく、より広い範囲の情報を符号化する利点を提供する。
このことは、LLM間の通信における代替の"言語"としての埋め込みの優越性と堅牢性を示している。
論文 参考訳(メタデータ) (2023-10-10T03:06:38Z) - Generative Multimodal Entity Linking [24.322540112710918]
MEL(Multimodal Entity Linking)は、知識ベースからの参照エンティティへの参照をマルチモーダルコンテキストでマッピングするタスクである。
既存のMEL法は主に複雑なマルチモーダル相互作用機構の設計に重点を置いており、すべてのモデルパラメータを微調整する必要がある。
大規模言語モデル(LLM)に基づくジェネレーティブマルチモーダルエンティティリンクフレームワークであるGEMELを提案する。
当社のフレームワークは市販の言語モデルと互換性があり、効率的で汎用的なソリューションへの道を開いたものです。
論文 参考訳(メタデータ) (2023-06-22T07:57:19Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。