論文の概要: ATM: Improving Model Merging by Alternating Tuning and Merging
- arxiv url: http://arxiv.org/abs/2411.03055v1
- Date: Tue, 05 Nov 2024 12:42:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-06 15:01:56.055341
- Title: ATM: Improving Model Merging by Alternating Tuning and Merging
- Title(参考訳): ATM: チューニングとマージの交換によるモデルマージの改善
- Authors: Luca Zhou, Daniele Solombrino, Donato Crisostomi, Maria Sofia Bucarelli, Fabrizio Silvestri, Emanuele Rodolà,
- Abstract要約: タスクベクトルをマルチタスク勾配にリンクすることで、タスクベクトルの有効性を動機付ける。
単一エポックなシナリオでは、タスクベクトルは、マルチタスク設定において勾配降下によって得られる勾配と数学的に等価である。
タスクベクトルは等式が維持されたときに最適に動作し、その有効性は最初のエポック勾配によって大きく駆動される。
- 参考スコア(独自算出の注目度): 16.12778778313037
- License:
- Abstract: Model merging has recently emerged as a cost-efficient paradigm for multi-task learning. Among current approaches, task arithmetic stands out for its simplicity and effectiveness. In this paper, we motivate the effectiveness of task vectors by linking them to multi-task gradients. We show that in a single-epoch scenario, task vectors are mathematically equivalent to the gradients obtained via gradient descent in a multi-task setting, and still approximate these gradients in subsequent epochs. Furthermore, we show that task vectors perform optimally when equality is maintained, and their effectiveness is largely driven by the first epoch's gradient. Building on this insight, we propose viewing model merging as a single step in an iterative process that Alternates between Tuning and Merging (ATM). This method acts as a bridge between model merging and multi-task gradient descent, achieving state-of-the-art results with the same data and computational requirements. We extensively evaluate ATM across diverse settings, achieving up to 20% higher accuracy in computer vision and NLP tasks, compared to the best baselines.Finally, we provide both empirical and theoretical support for its effectiveness, demonstrating increased orthogonality between task vectors and proving that ATM minimizes an upper bound on the loss obtained by jointly finetuning all tasks.
- Abstract(参考訳): モデルマージは、最近、マルチタスク学習のためのコスト効率のパラダイムとして登場した。
現在のアプローチでは、タスク算術はその単純さと有効性で際立っている。
本稿では,タスクベクトルをマルチタスク勾配にリンクすることで,タスクベクトルの有効性を動機づける。
一つのエポックなシナリオでは、タスクベクトルはマルチタスク設定における勾配降下によって得られる勾配と数学的に等価であり、なおもその後のエポックではこれらの勾配を近似していることが示される。
さらに,タスクベクトルは等式を維持する際に最適に動作し,その有効性は最初のエポック勾配によって大きく左右されることを示す。
この知見に基づいて、チューニングとマージ(ATM)を交互に行う反復プロセスにおける単一のステップとして、ビューングモデルマージを提案する。
この手法は、モデルマージとマルチタスク勾配勾配のブリッジとして機能し、同じデータと計算要求で最先端の結果を達成する。
我々は,コンピュータビジョンとNLPタスクの精度を最大20%向上させ,その有効性に対する実証的および理論的サポートを提供し,タスクベクトル間の直交性の向上を示し,ATMが全てのタスクを協調的に微調整することで得られる損失の上限を最小化することを証明する。
関連論文リスト
- Unlearning as multi-task optimization: A normalized gradient difference approach with an adaptive learning rate [105.86576388991713]
正規化勾配差(NGDiff)アルゴリズムを導入し、目的間のトレードオフをよりよく制御できるようにする。
本研究では,TOFUおよびMUSEデータセットにおける最先端の未学習手法において,NGDiffの優れた性能を実証的に実証し,理論的解析を行った。
論文 参考訳(メタデータ) (2024-10-29T14:41:44Z) - Scalable Multitask Learning Using Gradient-based Estimation of Task Affinity [16.643892206707854]
Grad-TAGは、様々なタスクの組み合わせからデータを繰り返し訓練することなく、タスク親和性を推定できる。
既存のアプローチと比較して,Grad-TAGは優れたパフォーマンスと実行時のトレードオフを実現していることを示す。
論文 参考訳(メタデータ) (2024-09-09T21:59:27Z) - Bayesian Uncertainty for Gradient Aggregation in Multi-Task Learning [39.4348419684885]
マルチタスク学習(MTL)は、複数のタスクを効率的に解決する単一のモデルを学習することを目的としている。
ベイジアン推論を用いた新しい勾配集約手法を提案する。
さまざまなデータセットで,アプローチのメリットを実証的に実証しています。
論文 参考訳(メタデータ) (2024-02-06T14:00:43Z) - Hessian Aware Low-Rank Perturbation for Order-Robust Continual Learning [19.850893012601638]
連続学習は、前のタスクから得た知識を忘れずに、一連のタスクを逐次学習することを目的としている。
本稿では,Hessian Aware Low-Rank Perturbationアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-11-26T01:44:01Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z) - ForkMerge: Mitigating Negative Transfer in Auxiliary-Task Learning [59.08197876733052]
補助タスク学習(ATL)は、関連するタスクから得られる知識を活用することにより、目標タスクの性能を向上させることを目的としている。
複数のタスクを同時に学習すると、ターゲットタスクのみを学習するよりも精度が低下することがある。
ForkMergeは、モデルを定期的に複数のブランチにフォークし、タスクの重みを自動的に検索する新しいアプローチである。
論文 参考訳(メタデータ) (2023-01-30T02:27:02Z) - Multi-Task Learning as a Bargaining Game [63.49888996291245]
マルチタスク学習(MTL)では、複数のタスクを同時に予測するためにジョイントモデルを訓練する。
これらの異なるタスクの勾配が矛盾する可能性があるため、MTLのジョイントモデルを訓練すると、対応するシングルタスクモデルよりも低いパフォーマンスが得られる。
本稿では,パラメータ更新のジョイント方向で合意に達するためのタスクを交渉する交渉ゲームとして,勾配の組み合わせステップを考察する。
論文 参考訳(メタデータ) (2022-02-02T13:21:53Z) - Conflict-Averse Gradient Descent for Multi-task Learning [56.379937772617]
マルチタスクモデルを最適化する際の大きな課題は、矛盾する勾配である。
本稿では、平均損失関数を最小化する衝突-逆勾配降下(CAGrad)を導入する。
CAGradは目標を自動的にバランスし、平均損失よりも最小限に確実に収束する。
論文 参考訳(メタデータ) (2021-10-26T22:03:51Z) - Energy-Efficient and Federated Meta-Learning via Projected Stochastic
Gradient Ascent [79.58680275615752]
エネルギー効率のよいメタラーニングフレームワークを提案する。
各タスクは別々のエージェントによって所有されていると仮定するため、メタモデルをトレーニングするために限られたタスクが使用される。
論文 参考訳(メタデータ) (2021-05-31T08:15:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。