論文の概要: TIES-Merging: Resolving Interference When Merging Models
- arxiv url: http://arxiv.org/abs/2306.01708v2
- Date: Fri, 27 Oct 2023 01:09:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-30 17:57:13.164855
- Title: TIES-Merging: Resolving Interference When Merging Models
- Title(参考訳): tie-merging: モデルマージ時の干渉を解決する
- Authors: Prateek Yadav, Derek Tam, Leshem Choshen, Colin Raffel, Mohit Bansal
- Abstract要約: 転送学習は、ダウンストリーム性能の改善、収束の高速化、サンプル効率の向上など、大きな利点をもたらす可能性がある。
モデルマージは、追加のトレーニングを行うことなく、複数のタスク固有のモデルを単一のモデルに組み合わせるソリューションとして登場した。
既存のマージ手法は、しばしば異なるモデルのパラメータ間の干渉を無視し、複数のモデルのマージ時に大きなパフォーマンス低下を引き起こす。
本稿では,モデル統合における新たな3つのステップとして,微調整時に少量だけ変化したパラメータをリセットし,符号衝突を解消し,最終的な一致した符号に一致したパラメータのみをマージするTIES-Mergingを提案する。
- 参考スコア(独自算出の注目度): 95.59265307318752
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transfer learning - i.e., further fine-tuning a pre-trained model on a
downstream task - can confer significant advantages, including improved
downstream performance, faster convergence, and better sample efficiency. These
advantages have led to a proliferation of task-specific fine-tuned models,
which typically can only perform a single task and do not benefit from one
another. Recently, model merging techniques have emerged as a solution to
combine multiple task-specific models into a single multitask model without
performing additional training. However, existing merging methods often ignore
the interference between parameters of different models, resulting in large
performance drops when merging multiple models. In this paper, we demonstrate
that prior merging techniques inadvertently lose valuable information due to
two major sources of interference: (a) interference due to redundant parameter
values and (b) disagreement on the sign of a given parameter's values across
models. To address this, we propose our method, TRIM, ELECT SIGN & MERGE
(TIES-Merging), which introduces three novel steps when merging models: (1)
resetting parameters that only changed a small amount during fine-tuning, (2)
resolving sign conflicts, and (3) merging only the parameters that are in
alignment with the final agreed-upon sign. We find that TIES-Merging
outperforms several existing methods in diverse settings covering a range of
modalities, domains, number of tasks, model sizes, architectures, and
fine-tuning settings. We further analyze the impact of different types of
interference on model parameters, and highlight the importance of resolving
sign interference. Our code is available at
https://github.com/prateeky2806/ties-merging
- Abstract(参考訳): トランスファーラーニング(Transfer Learning) - 下流タスクで事前訓練されたモデルをさらに微調整することで、下流のパフォーマンスの向上、収束の高速化、サンプル効率の向上など、大きなメリットを期待できる。
これらの利点は、通常1つのタスクしか実行できず、互いに恩恵を受けないタスク固有の微調整モデルの普及につながっている。
近年,複数のタスク固有のモデルを追加のトレーニングを行わずに単一のマルチタスクモデルに組み合わせる手法として,モデルマージ技術が登場している。
しかし、既存のマージ手法は異なるモデルのパラメータ間の干渉を無視することが多く、複数のモデルのマージ時に大きなパフォーマンス低下が発生する。
本稿では,2つの主要な干渉源により,事前統合技術が必然的に貴重な情報を失うことを実証する。
(a)冗長パラメータ値による干渉と
(b)モデル間のパラメータの値の符号の不一致。
そこで本研究では,(1)微調整時に少量しか変化しないパラメータの再設定,(2)符号衝突の解消,(3)最終合意符号と一致したパラメータのみをマージする,という3つの新しいステップを導入する手法であるtrim,elect sign & merge (ties-merging)を提案する。
TIES-Mergingは、様々なモード、ドメイン、タスク数、モデルサイズ、アーキテクチャ、微調整設定を含む様々な設定において、既存のメソッドよりも優れています。
さらに,モデルパラメータに対する様々な干渉の影響を解析し,符号干渉の解消の重要性を強調した。
私たちのコードはhttps://github.com/prateeky2806/ties-mergingで利用可能です。
関連論文リスト
- DPPA: Pruning Method for Large Language Model to Model Merging [39.13317231533299]
本稿では、複雑な微調整モデルを統合するという課題に対処するため、DPPA(Dynamic Pruning Partition Amplification)と呼ばれる2段階の手法を提案する。
提案手法は,ドメイン固有のパラメータの20%しか保持せず,他の手法に匹敵する性能を提供する。
提案手法では, プレニング後の性能が優れており, モデルマージにおける性能が20%近く向上した。
論文 参考訳(メタデータ) (2024-03-05T09:12:49Z) - Merging Multi-Task Models via Weight-Ensembling Mixture of Experts [68.8128246362533]
異なるタスクでトレーニングされたTransformerベースのモデルを単一の統一モデルにマージすることで、すべてのタスクを同時に実行できる。
本稿では,Transformer層をMoEモジュールにアップスケーリングしながら,ほとんどのパラメータをマージすることを提案する。
我々の重要な洞察は、共有知識とタスク固有の知識を識別して分離し、それらを動的に統合することで、パラメータ干渉問題を大幅に緩和できるということです。
論文 参考訳(メタデータ) (2024-02-01T08:58:57Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [72.2068175246167]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z) - Understanding Parameter Sharing in Transformers [53.75988363281843]
トランスフォーマーに関するこれまでの研究は、異なるレイヤでパラメータを共有することに集中しており、モデルの深さを増大させることで、限られたパラメータを持つモデルの性能を向上させることができる。
このアプローチの成功は, モデル複雑性の増加により, ごく一部に過ぎず, 収束性の向上に大きく寄与することを示す。
8つの機械翻訳タスクの実験結果から,パラメータ共有モデルのモデル複雑性を半分に抑えて,我々のモデルが競合性能を達成することが示された。
論文 参考訳(メタデータ) (2023-06-15T10:48:59Z) - Parameter-efficient Tuning of Large-scale Multimodal Foundation Model [68.24510810095802]
我々はこれらの課題を克服するために、クロスモーダル転送(Aurora)のための優雅なプロンプトフレームワークを提案する。
既存のアーキテクチャの冗長性を考慮すると、まずモード近似を用いて0.1Mのトレーニング可能なパラメータを生成し、マルチモーダルプロンプトチューニングを実装する。
6つのクロスモーダルベンチマークの徹底的な評価は、最先端のベンチマークを上回るだけでなく、完全な微調整アプローチよりも優れていることを示している。
論文 参考訳(メタデータ) (2023-05-15T06:40:56Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。