論文の概要: Merging by Matching Models in Task Subspaces
- arxiv url: http://arxiv.org/abs/2312.04339v1
- Date: Thu, 7 Dec 2023 14:59:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 14:45:26.202200
- Title: Merging by Matching Models in Task Subspaces
- Title(参考訳): タスク部分空間におけるマッチングモデルによるマージ
- Authors: Derek Tam, Mohit Bansal, Colin Raffel
- Abstract要約: モデルマージが方程式の線形系を解くとみなす方法が定式化される。
共役勾配法は閉形式解より優れていることを示す。
我々のフレームワークはマルチタスクモデルと中間タスクモデルの統合において最先端の結果を達成する。
- 参考スコア(独自算出の注目度): 98.75848162153773
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model merging aims to cheaply combine individual task-specific models into a
single multitask model. In this work, we view past merging methods as
leveraging different notions of a ''task subspace'' in which models are matched
before being merged. We connect the task subspace of a given model to its loss
landscape and formalize how this approach to model merging can be seen as
solving a linear system of equations. While past work has generally been
limited to linear systems that have a closed-form solution, we consider using
the conjugate gradient method to find a solution. We show that using the
conjugate gradient method can outperform closed-form solutions, enables merging
via linear systems that are otherwise intractable to solve, and flexibly allows
choosing from a wide variety of initializations and estimates for the ''task
subspace''. We ultimately demonstrate that our merging framework called
''Matching Models in their Task Subspace'' (MaTS) achieves state-of-the-art
results in multitask and intermediate-task model merging. We release all of the
code and checkpoints used in our work at https://github.com/r-three/mats.
- Abstract(参考訳): モデルマージは、個々のタスク固有のモデルを単一のマルチタスクモデルに安価に結合することを目的としている。
本研究では,過去のマージ手法を,モデルがマージされる前に一致するような「タスク部分空間」の異なる概念の活用とみなす。
与えられたモデルのタスク部分空間をその損失ランドスケープに接続し、モデルマージに対するこのアプローチを、方程式の線形系を解くとみなすことができる。
過去の研究は一般に閉形式解を持つ線形系に限定されてきたが、共役勾配法を用いて解を見つけることを検討する。
共役勾配法は閉形式解よりも優れており、他の方法では解けない線形系によるマージが可能であり、「タスク部分空間」の様々な初期化と推定から柔軟に選択できることを示す。
最終的に、'Matching Models in their Task Subspace' (MaTS) と呼ばれる統合フレームワークが、マルチタスクおよび中間タスクモデルのマージにおいて、最先端の結果を達成することを実証した。
私たちはすべてのコードとチェックポイントをhttps://github.com/r-three/matsで公開しています。
関連論文リスト
- Training-Free Pretrained Model Merging [40.437790895994766]
双対空間制約(MuDSC)の下でのマージという,革新的なモデルマージフレームワークを提案する。
ユーザビリティを高めるため,マルチヘッドアテンションやグループ正規化など,グループ構造への適応も取り入れた。
論文 参考訳(メタデータ) (2024-03-04T06:19:27Z) - Concrete Subspace Learning based Interference Elimination for Multi-task
Model Fusion [86.6191592951269]
一般的な事前訓練された大規模モデルから微調整されたマージングモデルは、様々なタスクに特化しているが、様々なタスクでうまく機能するマルチタスクモデルを構築するための安価でスケーラブルな戦略として実証されている。
本稿では、共通低次元部分空間を同定し、その共有情報トラック干渉問題を性能を犠牲にすることなく利用するための連続緩和(Concrete)部分空間学習法を提案する。
論文 参考訳(メタデータ) (2023-12-11T07:24:54Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [72.2068175246167]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z) - TIES-Merging: Resolving Interference When Merging Models [95.59265307318752]
転送学習は、ダウンストリーム性能の改善、収束の高速化、サンプル効率の向上など、大きな利点をもたらす可能性がある。
モデルマージは、追加のトレーニングを行うことなく、複数のタスク固有のモデルを単一のモデルに組み合わせるソリューションとして登場した。
既存のマージ手法は、しばしば異なるモデルのパラメータ間の干渉を無視し、複数のモデルのマージ時に大きなパフォーマンス低下を引き起こす。
本稿では,モデル統合における新たな3つのステップとして,微調整時に少量だけ変化したパラメータをリセットし,符号衝突を解消し,最終的な一致した符号に一致したパラメータのみをマージするTIES-Mergingを提案する。
論文 参考訳(メタデータ) (2023-06-02T17:31:32Z) - ZipIt! Merging Models from Different Tasks without Training [20.2479633507354]
ZipIt!」は、同じアーキテクチャの2つの任意のモデルをマージする一般的な方法である。
これら2つの変更が組み合わさって、以前の作業よりも20~60%改善されていることが分かりました。
論文 参考訳(メタデータ) (2023-05-04T17:59:58Z) - Unite and Conquer: Plug & Play Multi-Modal Synthesis using Diffusion
Models [54.1843419649895]
拡散確率モデル(DDPM)に基づく解を提案する。
他の生成モデルよりも拡散モデルを選択する動機は、拡散モデルの柔軟な内部構造に由来する。
提案手法は,複数のサブタスクで訓練された複数の拡散モデルを統一し,組み合わせたタスクを克服する。
論文 参考訳(メタデータ) (2022-12-01T18:59:55Z) - Switchable Representation Learning Framework with Self-compatibility [50.48336074436792]
自己整合性(SFSC)を考慮した交換可能な表現学習フレームワークを提案する。
SFSCは1つのトレーニングプロセスを通じて、異なる能力を持つ一連の互換性のあるサブモデルを生成する。
SFSCは評価データセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-06-16T16:46:32Z) - Mixture of basis for interpretable continual learning with distribution
shifts [1.6114012813668934]
データ分散のシフトを伴う環境での継続的な学習は、いくつかの現実世界のアプリケーションでは難しい問題である。
本稿では,この問題設定に対処するために,ベイシモデル(MoB)の混合方式を提案する。
論文 参考訳(メタデータ) (2022-01-05T22:53:15Z) - GAN Cocktail: mixing GANs without dataset access [18.664733153082146]
実世界でしばしば発生する2つの制約を考えると、モデルマージの問題に取り組みます。
第一段階では、モデルルートと呼ぶ手法により、全てのモデルの重みを同じパラメータ空間に変換する。
第2段階では、ルートモデルの重みを平均化し、元のトレーニングされたモデルによって生成されたデータのみを使用して、特定のドメイン毎に微調整することで、ルートモデルとマージする。
論文 参考訳(メタデータ) (2021-06-07T17:59:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。