論文の概要: ATM: Improving Model Merging by Alternating Tuning and Merging
- arxiv url: http://arxiv.org/abs/2411.03055v4
- Date: Fri, 08 Aug 2025 14:13:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 14:17:28.877526
- Title: ATM: Improving Model Merging by Alternating Tuning and Merging
- Title(参考訳): ATM: チューニングとマージの交換によるモデルマージの改善
- Authors: Luca Zhou, Daniele Solombrino, Donato Crisostomi, Maria Sofia Bucarelli, Fabrizio Silvestri, Emanuele Rodolà,
- Abstract要約: タスクベクトルの理論的モチベーションは、単一エポックな全バッチ勾配勾配下では、それらはマルチタスクと同値であることが強調される。
この洞察は、モデルマージを、チューニングとマージを交互に行う反復的な手順の1つのステップとして再解釈することにつながります。
本稿では,(1)データ共有が制限されたシナリオにおけるマルチタスク学習の代替として,(2)小さな検証セットを用いて既存のモデルマージ手法を改善するための軽量化ステップとして,ATMの2つの応用を提案する。
- 参考スコア(独自算出の注目度): 16.12778778313037
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model merging has emerged as a cost-efficient approximation to multitask learning. Among merging strategies, task arithmetic is notable for its simplicity and effectiveness. In this work, we provide a theoretical motivation for task vectors by highlighting that, under single-epoch full-batch gradient descent, they are equivalent to multitask gradients. This insight leads us to reinterpret model merging as a single step in an iterative procedure that Alternates between Tuning and Merging (ATM). We propose two applications of ATM: (1) as an alternative to multitask learning in scenarios where data sharing is restricted (e.g., federated settings), and (2) as a lightweight refinement step to improve existing model merging methods using a small validation set. Experiments across diverse vision tasks demonstrate the effectiveness of ATM.
- Abstract(参考訳): モデルマージは、マルチタスク学習に対するコスト効率の近似として登場した。
統合戦略の中で、タスク算術はその単純さと有効性で有名である。
本研究では,タスクベクトルに対する理論的動機付けとして,単一エポックな全バッチ勾配勾配下では,マルチタスク勾配と等価であることを示す。
この知見は,ATM (Tuning and Merging) の反復処理において,モデルマージを単一ステップとして再解釈することにつながる。
本稿では,(1)データ共有が制限されたシナリオ(例えば,フェデレートされた設定)におけるマルチタスク学習の代替として,(2)小さな検証セットを用いて既存のモデルマージ手法を改善するための軽量化ステップとして,ATMの2つの応用を提案する。
多様な視覚タスクに対する実験はATMの有効性を示す。
関連論文リスト
- Model Merging in the Essential Subspace [78.5390284258307]
モデルマージは、複数のタスク固有の細調整されたモデルを、追加のトレーニングなしで単一のマルチタスクモデルに統合することを目的としている。
広範囲の研究にもかかわらず、タスク干渉は依然として大きな障害であり、しばしば統合されたモデルの性能を損なう。
効率的なモデルマージのための堅牢なフレームワークであるESM(Essential Subspace Merging)を提案する。
論文 参考訳(メタデータ) (2026-02-23T00:33:38Z) - Parameter-Efficient Multi-Task Learning via Progressive Task-Specific Adaptation [5.461305353111217]
タスク固有のマルチタスク適応を導入し、マルチタスク学習のための新しいパラメータ効率のアプローチを提案する。
提案手法は,訓練可能なパラメータの数を削減しつつ,単一タスクの微調整に対してより優れた相対的改善を実現する。
論文 参考訳(メタデータ) (2025-09-23T21:51:04Z) - Towards Minimizing Feature Drift in Model Merging: Layer-wise Task Vector Fusion for Adaptive Knowledge Integration [14.503741632243646]
マルチタスクモデルマージは、複数のタスク固有のエキスパートからの知識を統一モデルに統合することを目的としている。
既存の手法では、タスク固有の専門家と統一モデルの違いを最小限に抑える。
本稿では,タスク固有の専門家と統一モデルとの間の機能ドリフトを明示的に最小化する手法であるレイヤワイズ・タスクベクトル・マージを提案する。
論文 参考訳(メタデータ) (2025-05-29T08:11:31Z) - Train with Perturbation, Infer after Merging: A Two-Stage Framework for Continual Learning [59.6658995479243]
P&M(texttext-Perturb-and-Merge)は,モデルマージをCLパラダイムに統合し,忘れることを避けるための新しい連続学習フレームワークである。
理論的解析により、全てのタスクにおける総損失増加を最小化し、最適マージ係数の解析解を導出する。
提案手法は,複数の連続学習ベンチマークデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2025-05-28T14:14:19Z) - OptMerge: Unifying Multimodal LLM Capabilities and Modalities via Model Merging [124.91183814854126]
モデルマージは、複数のエキスパートモデルをひとつのモデルに組み合わせようとしている。
本稿ではMLLMのトレーニングと評価のタスクを明確に分割したモデルマージ研究のベンチマークを紹介する。
モデルマージは、トレーニングデータを必要とせずに改善されたMLLMを構築するための有望な方法であることがわかった。
論文 参考訳(メタデータ) (2025-05-26T12:23:14Z) - Single-Input Multi-Output Model Merging: Leveraging Foundation Models for Dense Multi-Task Learning [46.51245338355645]
モデルマージは、シングルタスクのチェックポイントをマルチタスクモデルにマージするための、柔軟で計算的に抽出可能なアプローチである。
本研究は,タスク固有デコーダの存在により,文献で研究されている単一入出力・複数出力モデルのマージ設定と定性的に異なることを示す。
SIMO設定に対する2つの単純かつ効率的な修正を提案し,統合後の特徴表現を再調整する。
論文 参考訳(メタデータ) (2025-04-15T15:10:46Z) - Transforming Vision Transformer: Towards Efficient Multi-Task Asynchronous Learning [59.001091197106085]
Vision TransformerのためのMulti-Task Learning (MTL)は、複数のタスクを同時に処理することでモデル能力を向上させることを目的としている。
最近の研究は、Mixture-of-Experts(MoE)構造の設計とローランド適応(LoRA)によるマルチタスク学習の効率化に重点を置いている。
本稿では,事前学習した視覚変換器を効率的なマルチタスク学習器に変換することで,EMTAL(Efficient Multi-Task Learning)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2025-01-12T17:41:23Z) - Modeling Multi-Task Model Merging as Adaptive Projective Gradient Descent [72.10987117380584]
複数のエキスパートモデルをマージすることは、元のデータにアクセスせずにマルチタスク学習を実行するための有望なアプローチを提供する。
既存のメソッドは、競合を引き起こす一方で、パフォーマンスにとって重要なタスク固有の情報を捨てている。
我々の手法は従来の手法より一貫して優れており、視覚領域とNLP領域の両方において様々なアーキテクチャやタスクにまたがって最先端の結果が得られます。
論文 参考訳(メタデータ) (2025-01-02T12:45:21Z) - Multi-Task Model Merging via Adaptive Weight Disentanglement [69.7292615212444]
モデルマージのための適応重み分散法を提案する。
余剰ベクトルの抽出に成功し, 減算後, タスクベクトルは頑健な性能を維持した。
論文 参考訳(メタデータ) (2024-11-27T20:08:55Z) - Unlearning as multi-task optimization: A normalized gradient difference approach with an adaptive learning rate [105.86576388991713]
正規化勾配差(NGDiff)アルゴリズムを導入し、目的間のトレードオフをよりよく制御できるようにする。
本研究では,TOFUおよびMUSEデータセットにおける最先端の未学習手法において,NGDiffの優れた性能を実証的に実証し,理論的解析を行った。
論文 参考訳(メタデータ) (2024-10-29T14:41:44Z) - Scalable Multitask Learning Using Gradient-based Estimation of Task Affinity [16.643892206707854]
Grad-TAGは、様々なタスクの組み合わせからデータを繰り返し訓練することなく、タスク親和性を推定できる。
既存のアプローチと比較して,Grad-TAGは優れたパフォーマンスと実行時のトレードオフを実現していることを示す。
論文 参考訳(メタデータ) (2024-09-09T21:59:27Z) - Bayesian Uncertainty for Gradient Aggregation in Multi-Task Learning [39.4348419684885]
マルチタスク学習(MTL)は、複数のタスクを効率的に解決する単一のモデルを学習することを目的としている。
ベイジアン推論を用いた新しい勾配集約手法を提案する。
さまざまなデータセットで,アプローチのメリットを実証的に実証しています。
論文 参考訳(メタデータ) (2024-02-06T14:00:43Z) - Hessian Aware Low-Rank Perturbation for Order-Robust Continual Learning [19.850893012601638]
連続学習は、前のタスクから得た知識を忘れずに、一連のタスクを逐次学習することを目的としている。
本稿では,Hessian Aware Low-Rank Perturbationアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-11-26T01:44:01Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z) - FAMO: Fast Adaptive Multitask Optimization [48.59232177073481]
本稿では,動的重み付け手法であるFast Adaptive Multitask Optimization FAMOを導入する。
この結果から,FAMOは最先端の勾配操作技術に匹敵する,あるいは優れた性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-06-06T15:39:54Z) - ForkMerge: Mitigating Negative Transfer in Auxiliary-Task Learning [59.08197876733052]
補助タスク学習(ATL)は、関連するタスクから得られる知識を活用することにより、目標タスクの性能を向上させることを目的としている。
複数のタスクを同時に学習すると、ターゲットタスクのみを学習するよりも精度が低下することがある。
ForkMergeは、モデルを定期的に複数のブランチにフォークし、タスクの重みを自動的に検索する新しいアプローチである。
論文 参考訳(メタデータ) (2023-01-30T02:27:02Z) - Multi-task Highly Adaptive Lasso [1.4680035572775534]
マルチタスク学習のための新しい非パラメトリックアプローチであるマルチタスク高適応ラッソ(MT-HAL)を提案する。
MT-HALは、共通モデルにとって重要な特徴、サンプル、タスク関連を同時に学習し、類似したタスク間で共有スパース構造を付与する。
MT-HALは、幅広いシミュレーション研究において、スパーシティーベースのMTL競合よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-01-27T23:46:57Z) - Multi-Task Learning as a Bargaining Game [63.49888996291245]
マルチタスク学習(MTL)では、複数のタスクを同時に予測するためにジョイントモデルを訓練する。
これらの異なるタスクの勾配が矛盾する可能性があるため、MTLのジョイントモデルを訓練すると、対応するシングルタスクモデルよりも低いパフォーマンスが得られる。
本稿では,パラメータ更新のジョイント方向で合意に達するためのタスクを交渉する交渉ゲームとして,勾配の組み合わせステップを考察する。
論文 参考訳(メタデータ) (2022-02-02T13:21:53Z) - Conflict-Averse Gradient Descent for Multi-task Learning [56.379937772617]
マルチタスクモデルを最適化する際の大きな課題は、矛盾する勾配である。
本稿では、平均損失関数を最小化する衝突-逆勾配降下(CAGrad)を導入する。
CAGradは目標を自動的にバランスし、平均損失よりも最小限に確実に収束する。
論文 参考訳(メタデータ) (2021-10-26T22:03:51Z) - Energy-Efficient and Federated Meta-Learning via Projected Stochastic
Gradient Ascent [79.58680275615752]
エネルギー効率のよいメタラーニングフレームワークを提案する。
各タスクは別々のエージェントによって所有されていると仮定するため、メタモデルをトレーニングするために限られたタスクが使用される。
論文 参考訳(メタデータ) (2021-05-31T08:15:44Z) - Reparameterizing Convolutions for Incremental Multi-Task Learning
without Task Interference [75.95287293847697]
マルチタスクモデルを開発する際の2つの一般的な課題は、しばしば文献で見過ごされる。
まず、モデルを本質的に漸進的に可能にし、以前に学んだことを忘れずに新しいタスクから情報を継続的に取り入れる(インクリメンタルラーニング)。
第二に、タスク間の有害な相互作用を排除し、マルチタスク設定(タスク干渉)においてシングルタスクのパフォーマンスを著しく低下させることが示されている。
論文 参考訳(メタデータ) (2020-07-24T14:44:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。