論文の概要: Training-Free Pretrained Model Merging
- arxiv url: http://arxiv.org/abs/2403.01753v1
- Date: Mon, 4 Mar 2024 06:19:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 20:09:03.795616
- Title: Training-Free Pretrained Model Merging
- Title(参考訳): トレーニングフリー事前学習モデルマージ
- Authors: Zhengqi Xu, Ke Yuan, Huiqiong Wang, Yong Wang, Mingli Song, Jie Song
- Abstract要約: 双対空間制約(MuDSC)の下でのマージという,革新的なモデルマージフレームワークを提案する。
ユーザビリティを高めるため,マルチヘッドアテンションやグループ正規化など,グループ構造への適応も取り入れた。
- 参考スコア(独自算出の注目度): 40.437790895994766
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, model merging techniques have surfaced as a solution to combine
multiple single-talent models into a single multi-talent model. However,
previous endeavors in this field have either necessitated additional training
or fine-tuning processes, or require that the models possess the same
pre-trained initialization. In this work, we identify a common drawback in
prior works w.r.t. the inconsistency of unit similarity in the weight space and
the activation space. To address this inconsistency, we propose an innovative
model merging framework, coined as merging under dual-space constraints
(MuDSC). Specifically, instead of solely maximizing the objective of a single
space, we advocate for the exploration of permutation matrices situated in a
region with a unified high similarity in the dual space, achieved through the
linear combination of activation and weight similarity matrices. In order to
enhance usability, we have also incorporated adaptations for group structure,
including Multi-Head Attention and Group Normalization. Comprehensive
experimental comparisons demonstrate that MuDSC can significantly boost the
performance of merged models with various task combinations and architectures.
Furthermore, the visualization of the merged model within the multi-task loss
landscape reveals that MuDSC enables the merged model to reside in the
overlapping segment, featuring a unified lower loss for each task. Our code is
publicly available at https://github.com/zju-vipa/training_free_model_merging.
- Abstract(参考訳): 近年,複数の単一タレントモデルと単一マルチタレントモデルを組み合わせたソリューションとして,モデルマージ技術が浮上している。
しかし、この分野における以前の取り組みでは、追加のトレーニングや微調整のプロセスが必要になるか、あるいはモデルに同じ事前訓練された初期化が必要である。
本研究では、ウェイト空間とアクティベーション空間における単位類似性の矛盾について、先行研究における共通の欠点を特定する。
この不整合に対処するために,双対空間制約(MuDSC)の下でのマージという,革新的なモデルマージフレームワークを提案する。
具体的には、単一空間の目的のみを最大化するのではなく、活性化と重み類似度行列の線形結合によって達成される双対空間の統一された類似性のある領域に位置する置換行列の探索を提唱する。
ユーザビリティを高めるために,マルチヘッドの注意やグループ正規化など,グループ構造への適応も取り入れた。
総合的な比較実験により、MuDSCは様々なタスクの組み合わせとアーキテクチャによる統合モデルの性能を大幅に向上させることができることが示された。
さらに、マルチタスクロスランドスケープにおけるマージモデルの可視化により、mudscはマージモデルを重なり合うセグメントに配置することができ、各タスクに統一された損失を特徴付ける。
私たちのコードはhttps://github.com/zju-vipa/training_free_model_mergingで公開されています。
関連論文リスト
- Collective Model Intelligence Requires Compatible Specialization [29.590052023903457]
モデルが専門化するにつれて、特徴空間構造における類似性が減少し、集合的使用能力の妨げとなることを示す。
我々は、互換性のある特殊化と呼ばれるものを通して、集合モデルインテリジェンスを達成するための新しい方向を提案する。
論文 参考訳(メタデータ) (2024-11-04T15:59:16Z) - The Non-Local Model Merging Problem: Permutation Symmetries and Variance Collapse [25.002218722102505]
モデルマージは、特定のタスクでトレーニングされた複数のエキスパートモデルの重みを、単一のマルチタスクモデルに効率的に結合することを目的としている。
この研究は、"非ローカル"マージのより困難なシナリオを探求する。
標準的なマージ技術は、この非局所的な環境で効果的に一般化できないことが多い。
本稿では,タスク毎のマージモデルの出力アクティベーションを再スケール・シフトするマルチタスク手法を提案する。
論文 参考訳(メタデータ) (2024-10-16T17:41:59Z) - HM3: Hierarchical Multi-Objective Model Merging for Pretrained Models [28.993221775758702]
モデルマージ(英: Model merging)は、複数の大きな事前訓練されたモデルを単一のモデルに組み合わせ、パフォーマンスを向上し、タスク適応性を高める手法である。
本稿では,よりフレキシブルで包括的なモデルマージ技術への大きな進歩を示す。
我々は、重みベクトルのオフラインサンプリングを用いてポリシーと価値ネットワークを訓練し、マージ戦略のオンライン最適化に使用される。
論文 参考訳(メタデータ) (2024-09-27T16:31:31Z) - PLeaS -- Merging Models with Permutations and Least Squares [43.17620198572947]
モデル決定型PLeaSをマージする2段階のアルゴリズムを提案する。
PLeaSはアライメントを最大化することで各層のノードに部分的にマッチする。
マージされたモデルの重みをレイヤワイズ・リースト・スクエアの解として計算する。
論文 参考訳(メタデータ) (2024-07-02T17:24:04Z) - Model Merging and Safety Alignment: One Bad Model Spoils the Bunch [70.614652904151]
LLM(Merging Large Language Models)は、複数の専門家のLLMを1つの汎用モデルに結合するコスト効率のよい手法である。
現在のアプローチでは、マージ時の安全性の整合性の重要性を見落とし、非常に不整合のモデルに繋がることが多い。
我々は,既存の手法がドメインの専門知識を伝達するだけでなく,ミスアライメントを伝播することを示すために,いくつかの一般的なモデルマージ手法を評価した。
論文 参考訳(メタデータ) (2024-06-20T17:59:58Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z) - An Empirical Study of Multimodal Model Merging [148.48412442848795]
モデルマージは、異なるタスクでトレーニングされた複数のモデルを融合してマルチタスクソリューションを生成するテクニックである。
我々は、モダリティ固有のアーキテクチャのビジョン、言語、およびクロスモーダルトランスフォーマーをマージできる新しい目標に向けて研究を行っている。
本稿では,重み間の距離を推定し,マージ結果の指標となる2つの指標を提案する。
論文 参考訳(メタデータ) (2023-04-28T15:43:21Z) - Switchable Representation Learning Framework with Self-compatibility [50.48336074436792]
自己整合性(SFSC)を考慮した交換可能な表現学習フレームワークを提案する。
SFSCは1つのトレーニングプロセスを通じて、異なる能力を持つ一連の互換性のあるサブモデルを生成する。
SFSCは評価データセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-06-16T16:46:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。