論文の概要: Arcee's MergeKit: A Toolkit for Merging Large Language Models
- arxiv url: http://arxiv.org/abs/2403.13257v1
- Date: Wed, 20 Mar 2024 02:38:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-21 18:17:45.232317
- Title: Arcee's MergeKit: A Toolkit for Merging Large Language Models
- Title(参考訳): ArceeのMergeKit: 大規模言語モデルをマージするためのツールキット
- Authors: Charles Goddard, Shamane Siriwardhana, Malikeh Ehghaghi, Luke Meyers, Vlad Karpukhin, Brian Benedict, Mark McQuade, Jacob Solawetz,
- Abstract要約: MergeKitは、モデルマージ戦略の適用を容易にするように設計されたライブラリである。
何千ものモデルがオープンソースコミュニティによってマージされている。
- 参考スコア(独自算出の注目度): 0.6374098147778188
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The rapid expansion of the open-source language model landscape presents an opportunity to merge the competencies of these model checkpoints by combining their parameters. Advances in transfer learning, the process of fine-tuning pre-trained models for specific tasks, has resulted in the development of vast amounts of task-specific models, typically specialized in individual tasks and unable to utilize each other's strengths. Model merging facilitates the creation of multitask models without the need for additional training, offering a promising avenue for enhancing model performance and versatility. By preserving the intrinsic capabilities of the original models, model merging addresses complex challenges in AI - including the difficulties of catastrophic forgetting and multi-task learning. To support this expanding area of research, we introduce MergeKit, a comprehensive, open-source library designed to facilitate the application of model merging strategies. MergeKit offers an extensible framework to efficiently merge models on any hardware, providing utility to researchers and practitioners. To date, thousands of models have been merged by the open-source community, leading to the creation of some of the worlds most powerful open-source model checkpoints, as assessed by the Open LLM Leaderboard. The library is accessible at https://github.com/arcee-ai/MergeKit.
- Abstract(参考訳): オープンソースの言語モデルランドスケープの急速な拡張は、これらのモデルチェックポイントの能力を、それらのパラメータを組み合わせることによってマージする機会を提供する。
特定のタスクのための訓練済みモデルを微調整するプロセスであるトランスファーラーニングの進歩は、通常個々のタスクに特化して互いの強みを活用できない、膨大なタスク固有のモデルの開発をもたらした。
モデルマージは、追加のトレーニングを必要とせずにマルチタスクモデルの作成を容易にし、モデルパフォーマンスと汎用性を向上させるための有望な道を提供する。
原モデルの本質的な能力を維持することによって、モデルマージは、破滅的な忘れ込みとマルチタスク学習の困難を含む、AIの複雑な課題に対処する。
この拡大する研究領域をサポートするために,モデルマージ戦略の適用を容易にするために設計された,包括的なオープンソースライブラリであるMergeKitを紹介した。
MergeKitは、任意のハードウェア上でモデルを効率的にマージするための拡張可能なフレームワークを提供する。
これまでのところ、何千ものモデルがオープンソースコミュニティにマージされており、Open LLM Leaderboardが評価しているように、世界で最も強力なオープンソースのモデルチェックポイントが作成されている。
このライブラリはhttps://github.com/arcee-ai/MergeKitでアクセスできる。
関連論文リスト
- What Matters for Model Merging at Scale? [94.26607564817786]
モデルマージは、複数の専門家モデルとより有能な単一モデルを組み合わせることを目的としている。
これまでの研究は主に、いくつかの小さなモデルをマージすることに焦点を当ててきた。
本研究は,大規模モデルマージの有用性を体系的に評価する。
論文 参考訳(メタデータ) (2024-10-04T17:17:19Z) - HM3: Hierarchical Multi-Objective Model Merging for Pretrained Models [28.993221775758702]
モデルマージ(英: Model merging)は、複数の大きな事前訓練されたモデルを単一のモデルに組み合わせ、パフォーマンスを向上し、タスク適応性を高める手法である。
本稿では,よりフレキシブルで包括的なモデルマージ技術への大きな進歩を示す。
我々は、重みベクトルのオフラインサンプリングを用いてポリシーと価値ネットワークを訓練し、マージ戦略のオンライン最適化に使用される。
論文 参考訳(メタデータ) (2024-09-27T16:31:31Z) - xGen-MM (BLIP-3): A Family of Open Large Multimodal Models [157.44696790158784]
本稿では,LMM(Large Multimodal Models)を開発するためのフレームワークであるxGen-MMを紹介する。
このフレームワークは、慎重にキュレートされたデータセット、トレーニングレシピ、モデルアーキテクチャ、結果のLMMスイートで構成されている。
私たちのモデルは、シングルイメージとマルチイメージのベンチマークを含む、さまざまなタスクにわたって厳格な評価を受けています。
論文 参考訳(メタデータ) (2024-08-16T17:57:01Z) - Model Merging in LLMs, MLLMs, and Beyond: Methods, Theories, Applications and Opportunities [89.40778301238642]
モデルマージは、機械学習コミュニティにおける効率的なエンパワーメント技術である。
これらの手法の体系的かつ徹底的なレビューに関する文献には大きなギャップがある。
論文 参考訳(メタデータ) (2024-08-14T16:58:48Z) - Knowledge Fusion By Evolving Weights of Language Models [5.354527640064584]
本稿では,複数のモデルを統一モデルに統合するアプローチについて検討する。
本稿では進化的アルゴリズムに触発されたEvolverという知識融合手法を提案する。
論文 参考訳(メタデータ) (2024-06-18T02:12:34Z) - FlexModel: A Framework for Interpretability of Distributed Large
Language Models [0.0]
マルチGPUとマルチノード構成に分散したモデルを扱うための,合理化されたインターフェースを提供するソフトウェアパッケージであるFlexModelを紹介する。
このライブラリは既存のモデル配布ライブラリと互換性があり、PyTorchモデルをカプセル化している。
ユーザ登録可能なHookFunctionを公開して,分散モデル内部との直接的なインタラクションを容易にする。
論文 参考訳(メタデータ) (2023-12-05T21:19:33Z) - Reformulating Vision-Language Foundation Models and Datasets Towards
Universal Multimodal Assistants [65.47222691674074]
Muffinフレームワークは、事前訓練された視覚言語モデルを使用して視覚信号のプロバイダとして機能する。
UniMM-Chatデータセットはデータセットの相補性を探求し、高品質で多様なマルチモーダル命令を生成する。
論文 参考訳(メタデータ) (2023-10-01T12:35:18Z) - ModelScope-Agent: Building Your Customizable Agent System with
Open-source Large Language Models [74.64651681052628]
本稿では,オープンソースのLCMをコントローラとする実世界のアプリケーションのためのカスタマイズ可能なエージェントフレームワークであるModelScope-Agentを紹介する。
ユーザフレンドリーなシステムライブラリを提供し、カスタマイズ可能なエンジン設計により、複数のオープンソースLLMでモデルトレーニングをサポートする。
ツール使用データ収集、ツール検索、ツール登録、メモリ制御、カスタマイズされたモデルトレーニング、評価にまたがる包括的なフレームワークが提案されている。
論文 参考訳(メタデータ) (2023-09-02T16:50:30Z) - UnIVAL: Unified Model for Image, Video, Audio and Language Tasks [105.77733287326308]
UnIVALモデルは2つのモードを超えて、テキスト、画像、ビデオ、オーディオを1つのモデルに統合する。
本モデルは,タスクバランスとマルチモーダルカリキュラム学習に基づいて,多くのタスクに対して効率的に事前学習を行う。
統一モデルにより、重み一般化によるマルチモーダルモデルの融合に関する新しい研究を提案する。
論文 参考訳(メタデータ) (2023-07-30T09:48:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。