論文の概要: Parameter-Efficient Interventions for Enhanced Model Merging
- arxiv url: http://arxiv.org/abs/2412.17023v1
- Date: Sun, 22 Dec 2024 13:58:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:58:11.120298
- Title: Parameter-Efficient Interventions for Enhanced Model Merging
- Title(参考訳): 拡張モデルマージのためのパラメータ効率の良い干渉
- Authors: Marcin Osial, Daniel Marczak, Bartosz Zieliński,
- Abstract要約: モデルマージは、タスク固有のモデルからの知識を統一されたマルチタスクモデルに結合し、すべてのタスクデータに対する共同トレーニングを避ける。
モデル全体の表現バイアスを効果的に緩和するマルチタスクモデルマージの新しいアプローチであるIntervMergeを提案する。
IntervMergeは、パラメータが少なくて最先端のアプローチを一貫して上回ることを示す。
- 参考スコア(独自算出の注目度): 0.7373617024876725
- License:
- Abstract: Model merging combines knowledge from task-specific models into a unified multi-task model to avoid joint training on all task data. However, current methods face challenges due to representation bias, which can interfere with tasks performance. As a remedy, we propose IntervMerge, a novel approach to multi-task model merging that effectively mitigates representation bias across the model using taskspecific interventions. To further enhance its efficiency, we introduce mini-interventions, which modify only part of the representation, thereby reducing the additional parameters without compromising performance. Experimental results demonstrate that IntervMerge consistently outperforms the state-of-the-art approaches using fewer parameters.
- Abstract(参考訳): モデルマージは、タスク固有のモデルからの知識を統一されたマルチタスクモデルに結合し、すべてのタスクデータに対する共同トレーニングを避ける。
しかし、現在の手法は、タスクのパフォーマンスを妨げかねない表現バイアスによる課題に直面している。
本稿では,タスク固有の介入を用いて,モデル全体の表現バイアスを効果的に緩和するマルチタスクモデルマージの新しいアプローチであるIntervMergeを提案する。
効率をさらに高めるため,表現の一部だけを変更するミニインターベンションを導入し,性能を損なうことなく追加パラメータを削減した。
実験の結果、IntervMergeはパラメータが少なくて最先端のアプローチを一貫して上回っていることがわかった。
関連論文リスト
- FREE-Merging: Fourier Transform for Model Merging with Lightweight Experts [4.7478239658886325]
既存のモデルマージメソッドは、パフォーマンスとデプロイメントコストのトレードオフに直面する。
本稿では、周波数領域情報を利用して有害な特殊情報を効率的にフィルタリングするFR-Mergingを提案する。
フリーマージン(FR-Merging with light expert)は、トレーニングコスト、推論速度、ストレージ要件、パフォーマンスのバランスのとれたトレードオフを打つ。
論文 参考訳(メタデータ) (2024-11-25T15:35:01Z) - Parameter Competition Balancing for Model Merging [13.66727853299506]
PCB-Mergingは、効果的なモデルマージのために各パラメータの係数を調整する訓練不要の手法である。
PCB-Mergingは、複数のモダリティ、ドメイン、モデルサイズ、タスク数、微調整フォーム、および大きな言語モデルにわたる大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2024-10-03T11:17:58Z) - MAP: Low-compute Model Merging with Amortized Pareto Fronts via Quadratic Approximation [80.47072100963017]
Amortized Pareto Front (MAP) を用いた新しい低演算アルゴリズム Model Merging を導入する。
MAPは、複数のモデルをマージするためのスケーリング係数のセットを効率的に識別し、関連するトレードオフを反映する。
また,タスク数が比較的少ないシナリオではベイジアンMAP,タスク数の多い状況ではNested MAPを導入し,計算コストを削減した。
論文 参考訳(メタデータ) (2024-06-11T17:55:25Z) - Merging Multi-Task Models via Weight-Ensembling Mixture of Experts [64.94129594112557]
異なるタスクでトレーニングされたTransformerベースのモデルを単一の統一モデルにマージすることで、すべてのタスクを同時に実行できる。
従来の手法は、タスク演算によって例示され、効率的かつスケーラブルであることが証明されている。
本稿では,Transformer層をMoEモジュールにアップスケーリングしながら,ほとんどのパラメータをマージすることを提案する。
論文 参考訳(メタデータ) (2024-02-01T08:58:57Z) - Concrete Subspace Learning based Interference Elimination for Multi-task
Model Fusion [86.6191592951269]
一般的な事前訓練された大規模モデルから微調整されたマージングモデルは、様々なタスクに特化しているが、様々なタスクでうまく機能するマルチタスクモデルを構築するための安価でスケーラブルな戦略として実証されている。
本稿では、共通低次元部分空間を同定し、その共有情報トラック干渉問題を性能を犠牲にすることなく利用するための連続緩和(Concrete)部分空間学習法を提案する。
論文 参考訳(メタデータ) (2023-12-11T07:24:54Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z) - TIES-Merging: Resolving Interference When Merging Models [95.59265307318752]
転送学習は、ダウンストリーム性能の改善、収束の高速化、サンプル効率の向上など、大きな利点をもたらす可能性がある。
モデルマージは、追加のトレーニングを行うことなく、複数のタスク固有のモデルを単一のモデルに組み合わせるソリューションとして登場した。
既存のマージ手法は、しばしば異なるモデルのパラメータ間の干渉を無視し、複数のモデルのマージ時に大きなパフォーマンス低下を引き起こす。
本稿では,モデル統合における新たな3つのステップとして,微調整時に少量だけ変化したパラメータをリセットし,符号衝突を解消し,最終的な一致した符号に一致したパラメータのみをマージするTIES-Mergingを提案する。
論文 参考訳(メタデータ) (2023-06-02T17:31:32Z) - Task-Feature Collaborative Learning with Application to Personalized
Attribute Prediction [166.87111665908333]
本稿では,TFCL(Task-Feature Collaborative Learning)と呼ばれる新しいマルチタスク学習手法を提案する。
具体的には、まず、特徴とタスクの協調的なグループ化を活用するために、不均一なブロック対角構造正規化器を用いたベースモデルを提案する。
実際の拡張として,重なり合う機能と難易度を区別することで,基本モデルを拡張します。
論文 参考訳(メタデータ) (2020-04-29T02:32:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。