Fugu-MT 論文翻訳(概要): Multi-Task Model Merging via Adaptive Weight Disentanglement

論文の概要: Multi-Task Model Merging via Adaptive Weight Disentanglement

arxiv url: http://arxiv.org/abs/2411.18729v2
Date: Thu, 09 Jan 2025 03:34:55 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-10 15:31:16.96475
Title: Multi-Task Model Merging via Adaptive Weight Disentanglement
Title（参考訳）: Adaptive Weight Disentanglementによるマルチタスクモデルマージ
Authors: Feng Xiong, Runxi Cheng, Wang Chen, Zhanqiu Zhang, Yiwen Guo, Chun Yuan, Ruifeng Xu,
Abstract要約: モデルマージのための適応重み分散法を提案する。余剰ベクトルの抽出に成功し, 減算後, タスクベクトルは頑健な性能を維持した。
参考スコア（独自算出の注目度）: 69.7292615212444
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Model merging has recently gained attention as an economical and scalable approach to incorporate task-specific weights from various tasks into a unified multi-task model. For example, in Task Arithmetic (TA), adding the fine-tuned weights of different tasks can enhance the model's performance on those tasks, while subtracting them leads to task forgetting. Although TA is highly effective, interference among task still hampers the performance of the merged model. Existing methods for handling conflicts between task generally rely on empirical selection, resulting in suboptimal performance. In this paper, we introduce an Adaptive Weight Disentanglement method. We begin by theoretically proving that task vectors employed in model merging should be orthogonal to minimize interference among tasks. Guided by this insight, we initialize redundant vectors such that, when subtracted from the original task vectors, the resulting vectors exhibit increased orthogonality. Additionally, we impose an norm constraint on the redundant vectors to preserve the performance of the task-specific models. Experimental results demonstrate the effectiveness of our proposed technique: it successfully extracts redundant vectors, and after their subtraction, the task vectors not only retain robust performance but also achieve superior fusion outcomes. Our code is available at \href{https://github.com/FarisXiong/AWD.git}{https://github.com/FarisXiong/AWD.git}.
Abstract（参考訳）: モデルマージは、様々なタスクからタスク固有の重みを統一されたマルチタスクモデルに組み込む、経済的でスケーラブルなアプローチとして最近注目を集めている。例えば、Task Arithmetic (TA)では、異なるタスクの微調整された重みを加えることで、それらのタスクにおけるモデルのパフォーマンスが向上し、それらを減じるとタスクを忘れてしまう。 TAは非常に有効であるが、タスク間の干渉は統合されたモデルの性能を損なう。タスク間の競合を処理する既存の方法は一般的に経験的選択に依存しており、結果として準最適性能をもたらす。本稿では,適応重み距離法を提案する。まず、モデルマージで使用されるタスクベクトルは、タスク間の干渉を最小限に抑えるために直交するべきであることを理論的に証明することから始める。この知見に導かれ、余剰ベクトルを初期化して、元のタスクベクトルから減算すると、結果として得られるベクトルは直交性を高める。さらに,タスク固有モデルの性能を維持するために,冗長ベクトルにノルム制約を課す。提案手法の有効性を実験的に検証し, 冗長ベクトルの抽出に成功し, 減算後, タスクベクトルは頑健な性能を維持するだけでなく, 優れた融合結果を得ることができた。我々のコードは \href{https://github.com/FarisXiong/AWD.git}{https://github.com/FarisXiong/AWD.git} で入手できる。

関連論文リスト

AdaRank: Adaptive Rank Pruning for Enhanced Model Merging [15.383220675351076]
モデルマージは、独立して微調整されたモデルを統合されたフレームワークに統合するための有望なアプローチとして現れている。 AdaRankは、タスクベクトルの最も有用な特異な方向を適応的に選択し、複数のモデルをマージする新しいモデルマージフレームワークである。 AdaRankは、さまざまなバックボーンとタスク数で一貫して最先端のパフォーマンスを実現し、微調整されたモデル間のパフォーマンスギャップを1%近く削減している。
論文参考訳（メタデータ） (2025-03-28T06:49:06Z)
Task Arithmetic in Trust Region: A Training-Free Model Merging Approach to Navigate Knowledge Conflicts [13.356826891549856]
マルチタスクモデルマージは、複数の微調整されたモデルから知識を統合するための効率的なソリューションを提供する。 Task Arithmetic (TA) の有望なパフォーマンスにもかかわらず、タスクベクトル間で衝突が発生する可能性がある。本稿では,信頼領域をモデルパラメータ空間の次元として定義するタスク算術的信頼領域(TATR)を提案する。
論文参考訳（メタデータ） (2025-01-25T04:09:56Z)
Modeling Multi-Task Model Merging as Adaptive Projective Gradient Descent [74.02034188307857]
複数のエキスパートモデルをマージすることは、元のデータにアクセスせずにマルチタスク学習を実行するための有望なアプローチを提供する。既存の手法は必然的にタスク固有の情報を破棄し、競合の原因となっているが、パフォーマンスには不可欠である。我々の手法は従来の手法より一貫して優れており、視覚領域とNLP領域の両方において様々なアーキテクチャやタスクにまたがって最先端の結果が得られます。
論文参考訳（メタデータ） (2025-01-02T12:45:21Z)
Revisiting Weight Averaging for Model Merging [16.503826062785773]
モデルマージは、個別に調整されたモデルのパラメータを追加のトレーニングなしで組み合わせることで、マルチタスク学習者を構築することを目的としている。ウェイト平均化は、ウェイト平均化自身を中心としたタスクベクトルを暗黙的に誘導する。これらの中心となるタスクベクトルに低ランク近似を適用することにより、マージ性能が大幅に向上する。
論文参考訳（メタデータ） (2024-12-11T06:29:20Z)
ATM: Improving Model Merging by Alternating Tuning and Merging [16.12778778313037]
タスクベクトルをマルチタスク勾配にリンクすることで、タスクベクトルの有効性を動機付ける。単一エポックなシナリオでは、タスクベクトルは、マルチタスク設定において勾配降下によって得られる勾配と数学的に等価である。タスクベクトルは等式が維持されたときに最適に動作し、その有効性は最初のエポック勾配によって大きく駆動される。
論文参考訳（メタデータ） (2024-11-05T12:42:42Z)
Localizing Task Information for Improved Model Merging and Compression [61.16012721460561]
我々は,各タスクの重み付けが重なり合わないことが多いため,各タスクがマージされた後も,各タスクの解決に必要な情報が保存されていることを示す。本稿では,そのような重みを排除し,既存のモデルマージ手法の一般的な性能を改善するアルゴリズムであるConsensus Mergingを提案する。
論文参考訳（メタデータ） (2024-05-13T14:54:37Z)
Parameter Efficient Multi-task Model Fusion with Partial Linearization [97.23530944186078]
パラメータ効率のよい微調整技術において,マルチタスク融合を改善する新しい手法を提案する。提案手法は, アダプタモジュールのみを部分的に線形化し, 線形化アダプタにタスク演算を適用する。我々の部分線形化手法は、複数のタスクをより効果的に1つのモデルに融合させることを可能にしている。
論文参考訳（メタデータ） (2023-10-07T08:55:54Z)
AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。 AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文参考訳（メタデータ） (2023-10-04T04:26:33Z)
Editing Models with Task Arithmetic [69.97273155842966]
事前訓練されたモデルの振る舞いを変えることは、機械学習システムの開発において一般的なプラクティスである。タスクを微調整した後、同じモデルの重みから事前学習したモデルの重みを減らしてタスクベクトルを構築する。これらのタスクベクトルは、否定や加算といった算術演算によって変更・結合可能であることを示す。
論文参考訳（メタデータ） (2022-12-08T05:50:53Z)
Parameter-Efficient Transfer Learning with Diff Pruning [108.03864629388404]
diff pruningは、プリトレイン・ファインチューンフレームワーク内でパラメータ効率の高い転送学習を可能にするシンプルなアプローチです。 diff pruningで微調整されたモデルは、GLUEベンチマークで完全に微調整されたベースラインのパフォーマンスと一致します。
論文参考訳（メタデータ） (2020-12-14T12:34:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。