論文の概要: Modeling Multi-Task Model Merging as Adaptive Projective Gradient Descent
- arxiv url: http://arxiv.org/abs/2501.01230v2
- Date: Sat, 11 Jan 2025 07:52:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:23:14.064405
- Title: Modeling Multi-Task Model Merging as Adaptive Projective Gradient Descent
- Title(参考訳): 適応的射影勾配Descenceとしてのマルチタスクモデルマージのモデル化
- Authors: Yongxian Wei, Anke Tang, Li Shen, Chun Yuan, Xiaochun Cao,
- Abstract要約: 複数のエキスパートモデルをマージすることは、元のデータにアクセスせずにマルチタスク学習を実行するための有望なアプローチを提供する。
既存の手法は必然的にタスク固有の情報を破棄し、競合の原因となっているが、パフォーマンスには不可欠である。
我々の手法は従来の手法より一貫して優れており、視覚領域とNLP領域の両方において様々なアーキテクチャやタスクにまたがって最先端の結果が得られます。
- 参考スコア(独自算出の注目度): 74.02034188307857
- License:
- Abstract: Merging multiple expert models offers a promising approach for performing multi-task learning without accessing their original data. Existing methods attempt to alleviate task conflicts by sparsifying task vectors or promoting orthogonality among them. However, they overlook the fundamental requirement of model merging: ensuring the merged model performs comparably to task-specific models on respective tasks. We find these methods inevitably discard task-specific information that, while causing conflicts, is crucial for performance. Based on our findings, we frame model merging as a constrained optimization problem ($\textit{i.e.}$, minimizing the gap between the merged model and individual models, subject to the constraint of retaining shared knowledge) and solve it via adaptive projective gradient descent. Specifically, we align the merged model with individual models by decomposing and reconstituting the loss function, alleviating conflicts through $\textit{data-free}$ optimization of task vectors. To retain shared knowledge, we optimize this objective by projecting gradients within a $\textit{shared subspace}$ spanning all tasks. Moreover, we view merging coefficients as adaptive learning rates and propose a task-aware, training-free strategy. Experiments show that our plug-and-play approach consistently outperforms previous methods, achieving state-of-the-art results across diverse architectures and tasks in both vision and NLP domains.
- Abstract(参考訳): 複数のエキスパートモデルをマージすることは、元のデータにアクセスせずにマルチタスク学習を実行するための有望なアプローチを提供する。
既存の手法は、タスクベクトルをスペーシングしたり、それらの間の直交性を促進することによって、タスクの衝突を緩和しようとする。
しかし、彼らはモデルマージの基本的な要件を見落としている: マージされたモデルが各タスク上のタスク固有のモデルと相容れないことを保証する。
これらの手法は必然的にタスク固有の情報を破棄し、競合の原因となっているが、パフォーマンスには不可欠である。
この結果に基づき, モデル統合を制約付き最適化問題(\textit{i.e.}$, マージモデルと個別モデルとのギャップを最小化し, 共有知識の保持という制約を課す)として定式化し, 適応的射影勾配勾配を用いて解いた。
具体的には、統合モデルと個々のモデルとの整合性を、損失関数を分解して再構成し、$\textit{data-free}$タスクベクトルの最適化を通じて競合を緩和する。
共有知識を保持するために、すべてのタスクにまたがる$\textit{shared subspace}$内で勾配を投影することで、この目的を最適化する。
さらに,統合係数を適応学習率とみなし,タスク認識・学習自由戦略を提案する。
実験により,我々のプラグイン・アンド・プレイ方式は従来の手法より一貫して優れており,視覚領域とNLP領域の両方において,様々なアーキテクチャやタスクにまたがる最先端の結果が得られていることがわかった。
関連論文リスト
- Improving General Text Embedding Model: Tackling Task Conflict and Data Imbalance through Model Merging [33.23758947497205]
高度な埋め込みモデルは、通常、大規模マルチタスクデータと複数のタスクをまたいだ共同トレーニングを用いて開発される。
これらの課題を克服するために、独立に訓練されたモデルを組み合わせて勾配の衝突を緩和し、データ分散のバランスをとるモデルマージングについて検討する。
本稿では,勾配降下を用いたタスクベクトル空間内の最適モデル組合せを効率的に探索する新たな手法であるSelf Positioningを提案する。
論文 参考訳(メタデータ) (2024-10-19T08:39:21Z) - Layer-wise Model Merging for Unsupervised Domain Adaptation in Segmentation Tasks [3.776249047528669]
フリーでトレーニングされたモデルの豊富さを活用して、モデルマージにコストフリーのアプローチを導入します。
初期レイヤを統一しながら、タスク固有の最終レイヤの特異性を維持することを目的としている。
このアプローチは、パフォーマンスを高めるために不可欠な、すべてのレイヤにおけるパラメータの一貫性を保証する。
論文 参考訳(メタデータ) (2024-09-24T07:19:30Z) - Twin-Merging: Dynamic Integration of Modular Expertise in Model Merging [21.918559935122786]
モデルマージは、複数のタスク固有のモデルを、余分なトレーニングなしで単一のマルチタスクモデルに結合する、有望な方法である。
従来のモデルマージ手法は、微調整されたモデルに比べて大きな性能差を示すことが多い。
共有されたタスク固有の知識と排他的なタスク固有の知識の両方が、パフォーマンスのマージには不可欠であるが、排他的な知識を直接マージすることは、全体的なパフォーマンスを妨げていることを示す。
本稿では,1)知識を共有コンポーネントと排他コンポーネントにモジュール化し,冗長性を低減し効率を向上する圧縮,(2)共有およびタスク固有の知識を動的にマージする,という2つの主要な段階を包含する手法を提案する。
論文 参考訳(メタデータ) (2024-06-17T02:31:55Z) - Task Groupings Regularization: Data-Free Meta-Learning with Heterogeneous Pre-trained Models [83.02797560769285]
Data-Free Meta-Learning (DFML)は、トレーニング済みモデルのコレクションから、元のデータにアクセスせずに知識を抽出することを目的としている。
現在の手法は、事前訓練されたモデル間の不均一性を見落とし、タスクの衝突による性能低下につながることが多い。
論文 参考訳(メタデータ) (2024-05-26T13:11:55Z) - Merging Multi-Task Models via Weight-Ensembling Mixture of Experts [64.94129594112557]
異なるタスクでトレーニングされたTransformerベースのモデルを単一の統一モデルにマージすることで、すべてのタスクを同時に実行できる。
従来の手法は、タスク演算によって例示され、効率的かつスケーラブルであることが証明されている。
本稿では,Transformer層をMoEモジュールにアップスケーリングしながら,ほとんどのパラメータをマージすることを提案する。
論文 参考訳(メタデータ) (2024-02-01T08:58:57Z) - Concrete Subspace Learning based Interference Elimination for Multi-task
Model Fusion [86.6191592951269]
一般的な事前訓練された大規模モデルから微調整されたマージングモデルは、様々なタスクに特化しているが、様々なタスクでうまく機能するマルチタスクモデルを構築するための安価でスケーラブルな戦略として実証されている。
本稿では、共通低次元部分空間を同定し、その共有情報トラック干渉問題を性能を犠牲にすることなく利用するための連続緩和(Concrete)部分空間学習法を提案する。
論文 参考訳(メタデータ) (2023-12-11T07:24:54Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z) - Task-Feature Collaborative Learning with Application to Personalized
Attribute Prediction [166.87111665908333]
本稿では,TFCL(Task-Feature Collaborative Learning)と呼ばれる新しいマルチタスク学習手法を提案する。
具体的には、まず、特徴とタスクの協調的なグループ化を活用するために、不均一なブロック対角構造正規化器を用いたベースモデルを提案する。
実際の拡張として,重なり合う機能と難易度を区別することで,基本モデルを拡張します。
論文 参考訳(メタデータ) (2020-04-29T02:32:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。