論文の概要: TIES-Merging: Resolving Interference When Merging Models
- arxiv url: http://arxiv.org/abs/2306.01708v2
- Date: Fri, 27 Oct 2023 01:09:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-30 17:57:13.164855
- Title: TIES-Merging: Resolving Interference When Merging Models
- Title(参考訳): tie-merging: モデルマージ時の干渉を解決する
- Authors: Prateek Yadav, Derek Tam, Leshem Choshen, Colin Raffel, Mohit Bansal
- Abstract要約: 転送学習は、ダウンストリーム性能の改善、収束の高速化、サンプル効率の向上など、大きな利点をもたらす可能性がある。
モデルマージは、追加のトレーニングを行うことなく、複数のタスク固有のモデルを単一のモデルに組み合わせるソリューションとして登場した。
既存のマージ手法は、しばしば異なるモデルのパラメータ間の干渉を無視し、複数のモデルのマージ時に大きなパフォーマンス低下を引き起こす。
本稿では,モデル統合における新たな3つのステップとして,微調整時に少量だけ変化したパラメータをリセットし,符号衝突を解消し,最終的な一致した符号に一致したパラメータのみをマージするTIES-Mergingを提案する。
- 参考スコア(独自算出の注目度): 95.59265307318752
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transfer learning - i.e., further fine-tuning a pre-trained model on a
downstream task - can confer significant advantages, including improved
downstream performance, faster convergence, and better sample efficiency. These
advantages have led to a proliferation of task-specific fine-tuned models,
which typically can only perform a single task and do not benefit from one
another. Recently, model merging techniques have emerged as a solution to
combine multiple task-specific models into a single multitask model without
performing additional training. However, existing merging methods often ignore
the interference between parameters of different models, resulting in large
performance drops when merging multiple models. In this paper, we demonstrate
that prior merging techniques inadvertently lose valuable information due to
two major sources of interference: (a) interference due to redundant parameter
values and (b) disagreement on the sign of a given parameter's values across
models. To address this, we propose our method, TRIM, ELECT SIGN & MERGE
(TIES-Merging), which introduces three novel steps when merging models: (1)
resetting parameters that only changed a small amount during fine-tuning, (2)
resolving sign conflicts, and (3) merging only the parameters that are in
alignment with the final agreed-upon sign. We find that TIES-Merging
outperforms several existing methods in diverse settings covering a range of
modalities, domains, number of tasks, model sizes, architectures, and
fine-tuning settings. We further analyze the impact of different types of
interference on model parameters, and highlight the importance of resolving
sign interference. Our code is available at
https://github.com/prateeky2806/ties-merging
- Abstract(参考訳): トランスファーラーニング(Transfer Learning) - 下流タスクで事前訓練されたモデルをさらに微調整することで、下流のパフォーマンスの向上、収束の高速化、サンプル効率の向上など、大きなメリットを期待できる。
これらの利点は、通常1つのタスクしか実行できず、互いに恩恵を受けないタスク固有の微調整モデルの普及につながっている。
近年,複数のタスク固有のモデルを追加のトレーニングを行わずに単一のマルチタスクモデルに組み合わせる手法として,モデルマージ技術が登場している。
しかし、既存のマージ手法は異なるモデルのパラメータ間の干渉を無視することが多く、複数のモデルのマージ時に大きなパフォーマンス低下が発生する。
本稿では,2つの主要な干渉源により,事前統合技術が必然的に貴重な情報を失うことを実証する。
(a)冗長パラメータ値による干渉と
(b)モデル間のパラメータの値の符号の不一致。
そこで本研究では,(1)微調整時に少量しか変化しないパラメータの再設定,(2)符号衝突の解消,(3)最終合意符号と一致したパラメータのみをマージする,という3つの新しいステップを導入する手法であるtrim,elect sign & merge (ties-merging)を提案する。
TIES-Mergingは、様々なモード、ドメイン、タスク数、モデルサイズ、アーキテクチャ、微調整設定を含む様々な設定において、既存のメソッドよりも優れています。
さらに,モデルパラメータに対する様々な干渉の影響を解析し,符号干渉の解消の重要性を強調した。
私たちのコードはhttps://github.com/prateeky2806/ties-mergingで利用可能です。
関連論文リスト
- Parameter Competition Balancing for Model Merging [13.66727853299506]
PCB-Mergingは、効果的なモデルマージのために各パラメータの係数を調整する訓練不要の手法である。
PCB-Mergingは、複数のモダリティ、ドメイン、モデルサイズ、タスク数、微調整フォーム、および大きな言語モデルにわたる大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2024-10-03T11:17:58Z) - SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - Activated Parameter Locating via Causal Intervention for Model Merging [26.98015572633289]
モデルマージは複数のモデルを1つのモデルに組み合わせ、追加のトレーニングを必要とせずに、説得力のある一般化を実現する。
既存のモデルでは、デルタパラメータの一部を落として、パフォーマンスを維持しながらコンフリクトを緩和できることが示されている。
本稿では、因果的介入を利用して重要度を推定し、より正確なパラメータのドロップとコンフリクトの軽減を可能にするアクティブ・ロケーティング(APL)手法を提案する。
論文 参考訳(メタデータ) (2024-08-18T14:00:00Z) - Twin-Merging: Dynamic Integration of Modular Expertise in Model Merging [21.918559935122786]
モデルマージは、複数のタスク固有のモデルを、余分なトレーニングなしで単一のマルチタスクモデルに結合する、有望な方法である。
従来のモデルマージ手法は、微調整されたモデルに比べて大きな性能差を示すことが多い。
共有されたタスク固有の知識と排他的なタスク固有の知識の両方が、パフォーマンスのマージには不可欠であるが、排他的な知識を直接マージすることは、全体的なパフォーマンスを妨げていることを示す。
本稿では,1)知識を共有コンポーネントと排他コンポーネントにモジュール化し,冗長性を低減し効率を向上する圧縮,(2)共有およびタスク固有の知識を動的にマージする,という2つの主要な段階を包含する手法を提案する。
論文 参考訳(メタデータ) (2024-06-17T02:31:55Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - DPPA: Pruning Method for Large Language Model to Model Merging [39.13317231533299]
本稿では、複雑な微調整モデルを統合するという課題に対処するため、DPPA(Dynamic Pruning Partition Amplification)と呼ばれる2段階の手法を提案する。
提案手法は,ドメイン固有のパラメータの20%しか保持せず,他の手法に匹敵する性能を提供する。
提案手法では, プレニング後の性能が優れており, モデルマージにおける性能が20%近く向上した。
論文 参考訳(メタデータ) (2024-03-05T09:12:49Z) - Merging by Matching Models in Task Parameter Subspaces [87.8712523378141]
モデルマージは、個々のタスク固有のモデルを単一のマルチタスクモデルに安価に結合することを目的としている。
我々は、モデルマージに対するこのアプローチが、方程式の線形系を解くとみなす方法を定式化する。
共役勾配法は閉形式解より優れていることを示す。
論文 参考訳(メタデータ) (2023-12-07T14:59:15Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z) - Parameter-efficient Tuning of Large-scale Multimodal Foundation Model [68.24510810095802]
我々はこれらの課題を克服するために、クロスモーダル転送(Aurora)のための優雅なプロンプトフレームワークを提案する。
既存のアーキテクチャの冗長性を考慮すると、まずモード近似を用いて0.1Mのトレーニング可能なパラメータを生成し、マルチモーダルプロンプトチューニングを実装する。
6つのクロスモーダルベンチマークの徹底的な評価は、最先端のベンチマークを上回るだけでなく、完全な微調整アプローチよりも優れていることを示している。
論文 参考訳(メタデータ) (2023-05-15T06:40:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。