論文の概要: Merging by Matching Models in Task Subspaces
- arxiv url: http://arxiv.org/abs/2312.04339v1
- Date: Thu, 7 Dec 2023 14:59:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 14:45:26.202200
- Title: Merging by Matching Models in Task Subspaces
- Title(参考訳): タスク部分空間におけるマッチングモデルによるマージ
- Authors: Derek Tam, Mohit Bansal, Colin Raffel
- Abstract要約: モデルマージが方程式の線形系を解くとみなす方法が定式化される。
共役勾配法は閉形式解より優れていることを示す。
我々のフレームワークはマルチタスクモデルと中間タスクモデルの統合において最先端の結果を達成する。
- 参考スコア(独自算出の注目度): 98.75848162153773
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model merging aims to cheaply combine individual task-specific models into a
single multitask model. In this work, we view past merging methods as
leveraging different notions of a ''task subspace'' in which models are matched
before being merged. We connect the task subspace of a given model to its loss
landscape and formalize how this approach to model merging can be seen as
solving a linear system of equations. While past work has generally been
limited to linear systems that have a closed-form solution, we consider using
the conjugate gradient method to find a solution. We show that using the
conjugate gradient method can outperform closed-form solutions, enables merging
via linear systems that are otherwise intractable to solve, and flexibly allows
choosing from a wide variety of initializations and estimates for the ''task
subspace''. We ultimately demonstrate that our merging framework called
''Matching Models in their Task Subspace'' (MaTS) achieves state-of-the-art
results in multitask and intermediate-task model merging. We release all of the
code and checkpoints used in our work at https://github.com/r-three/mats.
- Abstract(参考訳): モデルマージは、個々のタスク固有のモデルを単一のマルチタスクモデルに安価に結合することを目的としている。
本研究では,過去のマージ手法を,モデルがマージされる前に一致するような「タスク部分空間」の異なる概念の活用とみなす。
与えられたモデルのタスク部分空間をその損失ランドスケープに接続し、モデルマージに対するこのアプローチを、方程式の線形系を解くとみなすことができる。
過去の研究は一般に閉形式解を持つ線形系に限定されてきたが、共役勾配法を用いて解を見つけることを検討する。
共役勾配法は閉形式解よりも優れており、他の方法では解けない線形系によるマージが可能であり、「タスク部分空間」の様々な初期化と推定から柔軟に選択できることを示す。
最終的に、'Matching Models in their Task Subspace' (MaTS) と呼ばれる統合フレームワークが、マルチタスクおよび中間タスクモデルのマージにおいて、最先端の結果を達成することを実証した。
私たちはすべてのコードとチェックポイントをhttps://github.com/r-three/matsで公開しています。
関連論文リスト
- Parameter Competition Balancing for Model Merging [13.66727853299506]
PCB-Mergingは、効果的なモデルマージのために各パラメータの係数を調整する訓練不要の手法である。
PCB-Mergingは、複数のモダリティ、ドメイン、モデルサイズ、タスク数、微調整フォーム、および大きな言語モデルにわたる大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2024-10-03T11:17:58Z) - PLeaS -- Merging Models with Permutations and Least Squares [43.17620198572947]
モデル決定型PLeaSをマージする2段階のアルゴリズムを提案する。
PLeaSはアライメントを最大化することで各層のノードに部分的にマッチする。
マージされたモデルの重みをレイヤワイズ・リースト・スクエアの解として計算する。
論文 参考訳(メタデータ) (2024-07-02T17:24:04Z) - Training-Free Pretrained Model Merging [38.16269074353077]
双対空間制約(MuDSC)の下でのマージという,革新的なモデルマージフレームワークを提案する。
ユーザビリティを高めるため,マルチヘッドアテンションやグループ正規化など,グループ構造への適応も取り入れた。
論文 参考訳(メタデータ) (2024-03-04T06:19:27Z) - Merging Multi-Task Models via Weight-Ensembling Mixture of Experts [64.94129594112557]
異なるタスクでトレーニングされたTransformerベースのモデルを単一の統一モデルにマージすることで、すべてのタスクを同時に実行できる。
従来の手法は、タスク演算によって例示され、効率的かつスケーラブルであることが証明されている。
本稿では,Transformer層をMoEモジュールにアップスケーリングしながら,ほとんどのパラメータをマージすることを提案する。
論文 参考訳(メタデータ) (2024-02-01T08:58:57Z) - Concrete Subspace Learning based Interference Elimination for Multi-task
Model Fusion [86.6191592951269]
一般的な事前訓練された大規模モデルから微調整されたマージングモデルは、様々なタスクに特化しているが、様々なタスクでうまく機能するマルチタスクモデルを構築するための安価でスケーラブルな戦略として実証されている。
本稿では、共通低次元部分空間を同定し、その共有情報トラック干渉問題を性能を犠牲にすることなく利用するための連続緩和(Concrete)部分空間学習法を提案する。
論文 参考訳(メタデータ) (2023-12-11T07:24:54Z) - Parameter Efficient Multi-task Model Fusion with Partial Linearization [97.23530944186078]
パラメータ効率のよい微調整技術において,マルチタスク融合を改善する新しい手法を提案する。
提案手法は, アダプタモジュールのみを部分的に線形化し, 線形化アダプタにタスク演算を適用する。
我々の部分線形化手法は、複数のタスクをより効果的に1つのモデルに融合させることを可能にしている。
論文 参考訳(メタデータ) (2023-10-07T08:55:54Z) - TIES-Merging: Resolving Interference When Merging Models [95.59265307318752]
転送学習は、ダウンストリーム性能の改善、収束の高速化、サンプル効率の向上など、大きな利点をもたらす可能性がある。
モデルマージは、追加のトレーニングを行うことなく、複数のタスク固有のモデルを単一のモデルに組み合わせるソリューションとして登場した。
既存のマージ手法は、しばしば異なるモデルのパラメータ間の干渉を無視し、複数のモデルのマージ時に大きなパフォーマンス低下を引き起こす。
本稿では,モデル統合における新たな3つのステップとして,微調整時に少量だけ変化したパラメータをリセットし,符号衝突を解消し,最終的な一致した符号に一致したパラメータのみをマージするTIES-Mergingを提案する。
論文 参考訳(メタデータ) (2023-06-02T17:31:32Z) - Switchable Representation Learning Framework with Self-compatibility [50.48336074436792]
自己整合性(SFSC)を考慮した交換可能な表現学習フレームワークを提案する。
SFSCは1つのトレーニングプロセスを通じて、異なる能力を持つ一連の互換性のあるサブモデルを生成する。
SFSCは評価データセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-06-16T16:46:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。