論文の概要: Knowledge Fusion of Large Language Models
- arxiv url: http://arxiv.org/abs/2401.10491v2
- Date: Mon, 22 Jan 2024 17:16:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 18:39:57.310809
- Title: Knowledge Fusion of Large Language Models
- Title(参考訳): 大規模言語モデルの知識融合
- Authors: Fanqi Wan, Xinting Huang, Deng Cai, Xiaojun Quan, Wei Bi, Shuming Shi
- Abstract要約: 本稿では,大規模言語モデル(LLM)における知識融合の概念を紹介する。
我々は、それらの集合的知識と独特な強みを外部化し、それによってターゲットモデルの能力が、どのソースLLMよりも高められるようにします。
この結果から,LLMの融合により,推論やコモンセンス,コード生成など,対象モデルの性能が向上することが確認された。
- 参考スコア(独自算出の注目度): 73.28202188100646
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While training large language models (LLMs) from scratch can generate models
with distinct functionalities and strengths, it comes at significant costs and
may result in redundant capabilities. Alternatively, a cost-effective and
compelling approach is to merge existing pre-trained LLMs into a more potent
model. However, due to the varying architectures of these LLMs, directly
blending their weights is impractical. In this paper, we introduce the notion
of knowledge fusion for LLMs, aimed at combining the capabilities of existing
LLMs and transferring them into a single LLM. By leveraging the generative
distributions of source LLMs, we externalize their collective knowledge and
unique strengths, thereby potentially elevating the capabilities of the target
model beyond those of any individual source LLM. We validate our approach using
three popular LLMs with different architectures--Llama-2, MPT, and
OpenLLaMA--across various benchmarks and tasks. Our findings confirm that the
fusion of LLMs can improve the performance of the target model across a range
of capabilities such as reasoning, commonsense, and code generation. Our code,
model weights, and data are public at
\url{https://github.com/fanqiwan/FuseLLM}.
- Abstract(参考訳): 大規模言語モデル(LLM)をスクラッチからトレーニングすることで、機能と強みの異なるモデルを生成することができるが、かなりのコストがかかり、冗長な機能をもたらす可能性がある。
あるいは、コスト効率が高く魅力的なアプローチは、既存のトレーニング済みのLCMをより強力なモデルにマージすることである。
しかし、これらのllmの様々なアーキテクチャのため、重みを直接ブレンドすることは現実的ではない。
本稿では,LLM の知識融合の概念を紹介し,既存の LLM の能力とそれらを単一の LLM に変換することを目的とした。
ソースLLMの生成的分布を利用することで、それらの集合的知識と独特な強みを外部化し、任意のソースLLMよりもターゲットモデルの能力を高める可能性がある。
我々は,Llama-2,MPT,OpenLLaMAの3つのアーキテクチャを持つLLMを用いて,様々なベンチマークやタスクに対してアプローチを検証する。
その結果,llmの融合により,推論やコモンセンス,コード生成など,さまざまな機能にわたる対象モデルのパフォーマンス向上が期待できることがわかった。
我々のコード、モデルウェイト、データは \url{https://github.com/fanqiwan/FuseLLM} で公開されています。
関連論文リスト
- Extend Model Merging from Fine-Tuned to Pre-Trained Large Language Models via Weight Disentanglement [72.97553348776425]
我々は、FTからPT LLMへのマージ技術の適用性を拡大するための先駆的な取り組みを行っている。
WeIght DisENtanglement (WIDEN) に基づくアプローチを導入し、マージ範囲を効果的に拡張する。
Qwen1.5-Chat (FT LLM with instruction-following skills) と Sailor (PT LLM with multilingual abilities) を7Bおよび14Bモデルスケールにマージする。
論文 参考訳(メタデータ) (2024-08-06T10:46:46Z) - SoupLM: Model Integration in Large Language and Multi-Modal Models [51.12227693121004]
大規模言語モデル(LLM)の訓練には、かなりの計算資源が必要である。
既存の公開LLMは通常、さまざまなタスクにまたがる、多種多様なプライベートにキュレートされたデータセットで事前トレーニングされる。
論文 参考訳(メタデータ) (2024-07-11T05:38:15Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - Mutual Enhancement of Large and Small Language Models with Cross-Silo
Knowledge Transfer [27.63746419563747]
大規模言語モデル (LLM) には幅広い知識が与えられているが、そのタスク固有の性能は、しばしば準最適である。
タスク固有のデータで微調整 LLM を必要とするが、プライバシー上の懸念からアクセスできない可能性がある。
本研究では,より小さな言語モデル (SLM) でLLMを強化し,クライアント上でプライベートなタスク固有データを用いて学習する手法を提案する。
論文 参考訳(メタデータ) (2023-12-10T09:52:32Z) - Towards Vision Enhancing LLMs: Empowering Multimodal Knowledge Storage
and Sharing in LLMs [72.49064988035126]
マルチモーダル大規模言語モデル(MLLM)の強化を目的としたMKS2という手法を提案する。
具体的には、LLMの内部ブロックに組み込まれたコンポーネントであるModular Visual Memoryを導入し、オープンワールドの視覚情報を効率的に保存するように設計されている。
実験により,MKS2は物理的・常識的な知識を必要とする文脈において,LLMの推論能力を大幅に増強することが示された。
論文 参考訳(メタデータ) (2023-11-27T12:29:20Z) - Generative Multimodal Entity Linking [24.322540112710918]
MEL(Multimodal Entity Linking)は、知識ベースからの参照エンティティへの参照をマルチモーダルコンテキストでマッピングするタスクである。
既存のMEL法は主に複雑なマルチモーダル相互作用機構の設計に重点を置いており、すべてのモデルパラメータを微調整する必要がある。
大規模言語モデル(LLM)に基づくジェネレーティブマルチモーダルエンティティリンクフレームワークであるGEMELを提案する。
当社のフレームワークは市販の言語モデルと互換性があり、効率的で汎用的なソリューションへの道を開いたものです。
論文 参考訳(メタデータ) (2023-06-22T07:57:19Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。