論文の概要: Training-Free Pretrained Model Merging
- arxiv url: http://arxiv.org/abs/2403.01753v2
- Date: Fri, 8 Mar 2024 07:33:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-11 10:49:20.771919
- Title: Training-Free Pretrained Model Merging
- Title(参考訳): トレーニングフリー事前学習モデルマージ
- Authors: Zhengqi Xu, Ke Yuan, Huiqiong Wang, Yong Wang, Mingli Song, Jie Song
- Abstract要約: 双対空間制約(MuDSC)の下でのマージという,革新的なモデルマージフレームワークを提案する。
ユーザビリティを高めるため,マルチヘッドアテンションやグループ正規化など,グループ構造への適応も取り入れた。
- 参考スコア(独自算出の注目度): 40.437790895994766
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, model merging techniques have surfaced as a solution to combine
multiple single-talent models into a single multi-talent model. However,
previous endeavors in this field have either necessitated additional training
or fine-tuning processes, or require that the models possess the same
pre-trained initialization. In this work, we identify a common drawback in
prior works w.r.t. the inconsistency of unit similarity in the weight space and
the activation space. To address this inconsistency, we propose an innovative
model merging framework, coined as merging under dual-space constraints
(MuDSC). Specifically, instead of solely maximizing the objective of a single
space, we advocate for the exploration of permutation matrices situated in a
region with a unified high similarity in the dual space, achieved through the
linear combination of activation and weight similarity matrices. In order to
enhance usability, we have also incorporated adaptations for group structure,
including Multi-Head Attention and Group Normalization. Comprehensive
experimental comparisons demonstrate that MuDSC can significantly boost the
performance of merged models with various task combinations and architectures.
Furthermore, the visualization of the merged model within the multi-task loss
landscape reveals that MuDSC enables the merged model to reside in the
overlapping segment, featuring a unified lower loss for each task. Our code is
publicly available at https://github.com/zju-vipa/training_free_model_merging.
- Abstract(参考訳): 近年,複数の単一タレントモデルと単一マルチタレントモデルを組み合わせたソリューションとして,モデルマージ技術が浮上している。
しかし、この分野における以前の取り組みでは、追加のトレーニングや微調整のプロセスが必要になるか、あるいはモデルに同じ事前訓練された初期化が必要である。
本研究では、ウェイト空間とアクティベーション空間における単位類似性の矛盾について、先行研究における共通の欠点を特定する。
この不整合に対処するために,双対空間制約(MuDSC)の下でのマージという,革新的なモデルマージフレームワークを提案する。
具体的には、単一空間の目的のみを最大化するのではなく、活性化と重み類似度行列の線形結合によって達成される双対空間の統一された類似性のある領域に位置する置換行列の探索を提唱する。
ユーザビリティを高めるために,マルチヘッドの注意やグループ正規化など,グループ構造への適応も取り入れた。
総合的な比較実験により、MuDSCは様々なタスクの組み合わせとアーキテクチャによる統合モデルの性能を大幅に向上させることができることが示された。
さらに、マルチタスクロスランドスケープにおけるマージモデルの可視化により、mudscはマージモデルを重なり合うセグメントに配置することができ、各タスクに統一された損失を特徴付ける。
私たちのコードはhttps://github.com/zju-vipa/training_free_model_mergingで公開されています。
関連論文リスト
- Merging Vision Transformers from Different Tasks and Domains [46.40701388197936]
この作業は、異なるタスク(オブジェクトカテゴリの異なるデータセット)やドメイン(同じカテゴリの異なるデータセット)でトレーニングされたさまざまなビジョントランスフォーマー(ViT)を1つの統一モデルにマージすることを目的としている。
これまでのモデルマージ作業はCNNまたはNLPモデルに重点を置いており、ViTsのマージ研究は未修正のままである。
論文 参考訳(メタデータ) (2023-12-25T09:32:28Z) - Concrete Subspace Learning based Interference Elimination for Multi-task
Model Fusion [86.6191592951269]
一般的な事前訓練された大規模モデルから微調整されたマージングモデルは、様々なタスクに特化しているが、様々なタスクでうまく機能するマルチタスクモデルを構築するための安価でスケーラブルな戦略として実証されている。
本稿では、共通低次元部分空間を同定し、その共有情報トラック干渉問題を性能を犠牲にすることなく利用するための連続緩和(Concrete)部分空間学習法を提案する。
論文 参考訳(メタデータ) (2023-12-11T07:24:54Z) - Merging by Matching Models in Task Subspaces [98.75848162153773]
モデルマージが方程式の線形系を解くとみなす方法が定式化される。
共役勾配法は閉形式解より優れていることを示す。
我々のフレームワークはマルチタスクモデルと中間タスクモデルの統合において最先端の結果を達成する。
論文 参考訳(メタデータ) (2023-12-07T14:59:15Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [72.2068175246167]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z) - An Empirical Study of Multimodal Model Merging [148.48412442848795]
モデルマージは、異なるタスクでトレーニングされた複数のモデルを融合してマルチタスクソリューションを生成するテクニックである。
我々は、モダリティ固有のアーキテクチャのビジョン、言語、およびクロスモーダルトランスフォーマーをマージできる新しい目標に向けて研究を行っている。
本稿では,重み間の距離を推定し,マージ結果の指標となる2つの指標を提案する。
論文 参考訳(メタデータ) (2023-04-28T15:43:21Z) - Switchable Representation Learning Framework with Self-compatibility [50.48336074436792]
自己整合性(SFSC)を考慮した交換可能な表現学習フレームワークを提案する。
SFSCは1つのトレーニングプロセスを通じて、異なる能力を持つ一連の互換性のあるサブモデルを生成する。
SFSCは評価データセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-06-16T16:46:32Z) - GAN Cocktail: mixing GANs without dataset access [18.664733153082146]
実世界でしばしば発生する2つの制約を考えると、モデルマージの問題に取り組みます。
第一段階では、モデルルートと呼ぶ手法により、全てのモデルの重みを同じパラメータ空間に変換する。
第2段階では、ルートモデルの重みを平均化し、元のトレーニングされたモデルによって生成されたデータのみを使用して、特定のドメイン毎に微調整することで、ルートモデルとマージする。
論文 参考訳(メタデータ) (2021-06-07T17:59:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。