論文の概要: ATM: Improving Model Merging by Alternating Tuning and Merging
- arxiv url: http://arxiv.org/abs/2411.03055v4
- Date: Fri, 08 Aug 2025 14:13:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 14:17:28.877526
- Title: ATM: Improving Model Merging by Alternating Tuning and Merging
- Title(参考訳): ATM: チューニングとマージの交換によるモデルマージの改善
- Authors: Luca Zhou, Daniele Solombrino, Donato Crisostomi, Maria Sofia Bucarelli, Fabrizio Silvestri, Emanuele Rodolà,
- Abstract要約: タスクベクトルの理論的モチベーションは、単一エポックな全バッチ勾配勾配下では、それらはマルチタスクと同値であることが強調される。
この洞察は、モデルマージを、チューニングとマージを交互に行う反復的な手順の1つのステップとして再解釈することにつながります。
本稿では,(1)データ共有が制限されたシナリオにおけるマルチタスク学習の代替として,(2)小さな検証セットを用いて既存のモデルマージ手法を改善するための軽量化ステップとして,ATMの2つの応用を提案する。
- 参考スコア(独自算出の注目度): 16.12778778313037
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model merging has emerged as a cost-efficient approximation to multitask learning. Among merging strategies, task arithmetic is notable for its simplicity and effectiveness. In this work, we provide a theoretical motivation for task vectors by highlighting that, under single-epoch full-batch gradient descent, they are equivalent to multitask gradients. This insight leads us to reinterpret model merging as a single step in an iterative procedure that Alternates between Tuning and Merging (ATM). We propose two applications of ATM: (1) as an alternative to multitask learning in scenarios where data sharing is restricted (e.g., federated settings), and (2) as a lightweight refinement step to improve existing model merging methods using a small validation set. Experiments across diverse vision tasks demonstrate the effectiveness of ATM.
- Abstract(参考訳): モデルマージは、マルチタスク学習に対するコスト効率の近似として登場した。
統合戦略の中で、タスク算術はその単純さと有効性で有名である。
本研究では,タスクベクトルに対する理論的動機付けとして,単一エポックな全バッチ勾配勾配下では,マルチタスク勾配と等価であることを示す。
この知見は,ATM (Tuning and Merging) の反復処理において,モデルマージを単一ステップとして再解釈することにつながる。
本稿では,(1)データ共有が制限されたシナリオ(例えば,フェデレートされた設定)におけるマルチタスク学習の代替として,(2)小さな検証セットを用いて既存のモデルマージ手法を改善するための軽量化ステップとして,ATMの2つの応用を提案する。
多様な視覚タスクに対する実験はATMの有効性を示す。
関連論文リスト
- Train with Perturbation, Infer after Merging: A Two-Stage Framework for Continual Learning [59.6658995479243]
P&M(texttext-Perturb-and-Merge)は,モデルマージをCLパラダイムに統合し,忘れることを避けるための新しい連続学習フレームワークである。
理論的解析により、全てのタスクにおける総損失増加を最小化し、最適マージ係数の解析解を導出する。
提案手法は,複数の連続学習ベンチマークデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2025-05-28T14:14:19Z) - Multi-Task Model Merging via Adaptive Weight Disentanglement [69.7292615212444]
モデルマージのための適応重み分散法を提案する。
余剰ベクトルの抽出に成功し, 減算後, タスクベクトルは頑健な性能を維持した。
論文 参考訳(メタデータ) (2024-11-27T20:08:55Z) - Unlearning as multi-task optimization: A normalized gradient difference approach with an adaptive learning rate [105.86576388991713]
正規化勾配差(NGDiff)アルゴリズムを導入し、目的間のトレードオフをよりよく制御できるようにする。
本研究では,TOFUおよびMUSEデータセットにおける最先端の未学習手法において,NGDiffの優れた性能を実証的に実証し,理論的解析を行った。
論文 参考訳(メタデータ) (2024-10-29T14:41:44Z) - Scalable Multitask Learning Using Gradient-based Estimation of Task Affinity [16.643892206707854]
Grad-TAGは、様々なタスクの組み合わせからデータを繰り返し訓練することなく、タスク親和性を推定できる。
既存のアプローチと比較して,Grad-TAGは優れたパフォーマンスと実行時のトレードオフを実現していることを示す。
論文 参考訳(メタデータ) (2024-09-09T21:59:27Z) - Bayesian Uncertainty for Gradient Aggregation in Multi-Task Learning [39.4348419684885]
マルチタスク学習(MTL)は、複数のタスクを効率的に解決する単一のモデルを学習することを目的としている。
ベイジアン推論を用いた新しい勾配集約手法を提案する。
さまざまなデータセットで,アプローチのメリットを実証的に実証しています。
論文 参考訳(メタデータ) (2024-02-06T14:00:43Z) - Hessian Aware Low-Rank Perturbation for Order-Robust Continual Learning [19.850893012601638]
連続学習は、前のタスクから得た知識を忘れずに、一連のタスクを逐次学習することを目的としている。
本稿では,Hessian Aware Low-Rank Perturbationアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-11-26T01:44:01Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z) - FAMO: Fast Adaptive Multitask Optimization [48.59232177073481]
本稿では,動的重み付け手法であるFast Adaptive Multitask Optimization FAMOを導入する。
この結果から,FAMOは最先端の勾配操作技術に匹敵する,あるいは優れた性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-06-06T15:39:54Z) - ForkMerge: Mitigating Negative Transfer in Auxiliary-Task Learning [59.08197876733052]
補助タスク学習(ATL)は、関連するタスクから得られる知識を活用することにより、目標タスクの性能を向上させることを目的としている。
複数のタスクを同時に学習すると、ターゲットタスクのみを学習するよりも精度が低下することがある。
ForkMergeは、モデルを定期的に複数のブランチにフォークし、タスクの重みを自動的に検索する新しいアプローチである。
論文 参考訳(メタデータ) (2023-01-30T02:27:02Z) - Multi-Task Learning as a Bargaining Game [63.49888996291245]
マルチタスク学習(MTL)では、複数のタスクを同時に予測するためにジョイントモデルを訓練する。
これらの異なるタスクの勾配が矛盾する可能性があるため、MTLのジョイントモデルを訓練すると、対応するシングルタスクモデルよりも低いパフォーマンスが得られる。
本稿では,パラメータ更新のジョイント方向で合意に達するためのタスクを交渉する交渉ゲームとして,勾配の組み合わせステップを考察する。
論文 参考訳(メタデータ) (2022-02-02T13:21:53Z) - Conflict-Averse Gradient Descent for Multi-task Learning [56.379937772617]
マルチタスクモデルを最適化する際の大きな課題は、矛盾する勾配である。
本稿では、平均損失関数を最小化する衝突-逆勾配降下(CAGrad)を導入する。
CAGradは目標を自動的にバランスし、平均損失よりも最小限に確実に収束する。
論文 参考訳(メタデータ) (2021-10-26T22:03:51Z) - Energy-Efficient and Federated Meta-Learning via Projected Stochastic
Gradient Ascent [79.58680275615752]
エネルギー効率のよいメタラーニングフレームワークを提案する。
各タスクは別々のエージェントによって所有されていると仮定するため、メタモデルをトレーニングするために限られたタスクが使用される。
論文 参考訳(メタデータ) (2021-05-31T08:15:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。