論文の概要: Multi-Task Model Merging via Adaptive Weight Disentanglement
- arxiv url: http://arxiv.org/abs/2411.18729v1
- Date: Wed, 27 Nov 2024 20:08:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:23:09.599859
- Title: Multi-Task Model Merging via Adaptive Weight Disentanglement
- Title(参考訳): Adaptive Weight Disentanglementによるマルチタスクモデルマージ
- Authors: Feng Xiong, Runxi Cheng, Wang Chen, Zhanqiu Zhang, Yiwen Guo, Chun Yuan, Ruifeng Xu,
- Abstract要約: モデルマージは、様々なタスクからのタスク固有の重みを、再トレーニングや追加データなしで統一されたマルチタスクモデルに統合するテクニックである。
Task Arithmetic (TA) は、算術演算によるタスクベクトルの組み合わせは、異なるタスク間の効率的な能力伝達を促進することを実証している。
TAの顕著な効果にもかかわらず、タスクベクトル間の干渉は、マージされたモデルの性能に悪影響を及ぼす可能性がある。
本稿では,従来のタスクベクトルを冗長なベクトルと複数の不整合タスクベクトルに分解するAdaptive Weight Disentanglement (AWD)を提案する。
- 参考スコア(独自算出の注目度): 69.7292615212444
- License:
- Abstract: Model merging has gained increasing attention as an efficient and effective technique for integrating task-specific weights from various tasks into a unified multi-task model without retraining or additional data. As a representative approach, Task Arithmetic (TA) has demonstrated that combining task vectors through arithmetic operations facilitates efficient capability transfer between different tasks. In this framework, task vectors are obtained by subtracting the parameter values of a pre-trained model from those of individually fine-tuned models initialized from it. Despite the notable effectiveness of TA, interference among task vectors can adversely affect the performance of the merged model. In this paper, we relax the constraints of Task Arithmetic Property and propose Task Consistency Property, which can be regarded as being free from task interference. Through theoretical derivation, we show that such a property can be approximately achieved by seeking orthogonal task vectors. Guiding by this insight, we propose Adaptive Weight Disentanglement (AWD), which decomposes traditional task vectors into a redundant vector and several disentangled task vectors. The primary optimization objective of AWD is to achieve orthogonality among the disentangled task vectors, thereby closely approximating the desired solution. Notably, these disentangled task vectors can be seamlessly integrated into existing merging methodologies. Experimental results demonstrate that our AWD consistently and significantly improves upon previous merging approaches, achieving state-of-the-art results. Our code is available at \href{https://github.com/FarisXiong/AWD.git}{https://github.com/FarisXiong/AWD.git}.
- Abstract(参考訳): モデルマージは、様々なタスクからタスク固有の重みを、再トレーニングや追加データなしで統一されたマルチタスクモデルに統合する、効率的かつ効果的な手法として注目されている。
タスク算術(TA)は、算術演算によるタスクベクトルの結合が、異なるタスク間の効率的な能力伝達を促進することを実証している。
この枠組みでは、個別に微調整されたモデルから事前訓練されたモデルのパラメータ値を減じることでタスクベクトルを得る。
TAの顕著な効果にもかかわらず、タスクベクトル間の干渉は、マージされたモデルの性能に悪影響を及ぼす可能性がある。
本稿では,タスク算術的特性の制約を緩和し,タスク干渉のないものとみなすタスク整合性特性を提案する。
理論的導出により、直交タスクベクトルを求めることにより、そのような性質を概ね達成できることが示される。
そこで本研究では,従来のタスクベクトルを冗長なベクトルと複数の不整合タスクベクトルに分解するAdaptive Weight Disentanglement (AWD)を提案する。
AWDの主な最適化目的は、不整合タスクベクトル間の直交性を達成し、所望の解を密接に近似することである。
特に、これらの非絡み合ったタスクベクトルは、既存のマージ手法にシームレスに統合できる。
実験結果から,AWDは従来の統合手法を一貫して改善し,最先端の成果が得られた。
我々のコードは \href{https://github.com/FarisXiong/AWD.git}{https://github.com/FarisXiong/AWD.git} で入手できる。
関連論文リスト
- No Task Left Behind: Isotropic Model Merging with Common and Task-Specific Subspaces [17.69597528370121]
モデルマージは、複数のタスク固有のモデルの重みを単一のマルチタスクモデルに統合する。
この問題に対する最近の関心にもかかわらず、シングルタスクモデルと組み合わせたモデルの間には大きなパフォーマンスギャップが残っている。
タスク固有成分とマージ行列の特異成分のアライメントは,性能改善と強く相関していることを示す。
論文 参考訳(メタデータ) (2025-02-07T14:22:56Z) - Task Arithmetic in Trust Region: A Training-Free Model Merging Approach to Navigate Knowledge Conflicts [13.356826891549856]
マルチタスクモデルマージは、複数の微調整されたモデルから知識を統合するための効率的なソリューションを提供する。
Task Arithmetic (TA) の有望なパフォーマンスにもかかわらず、タスクベクトル間で衝突が発生する可能性がある。
本稿では,信頼領域をモデルパラメータ空間の次元として定義するタスク算術的信頼領域(TATR)を提案する。
論文 参考訳(メタデータ) (2025-01-25T04:09:56Z) - Modeling Multi-Task Model Merging as Adaptive Projective Gradient Descent [74.02034188307857]
複数のエキスパートモデルをマージすることは、元のデータにアクセスせずにマルチタスク学習を実行するための有望なアプローチを提供する。
既存の手法は必然的にタスク固有の情報を破棄し、競合の原因となっているが、パフォーマンスには不可欠である。
我々の手法は従来の手法より一貫して優れており、視覚領域とNLP領域の両方において様々なアーキテクチャやタスクにまたがって最先端の結果が得られます。
論文 参考訳(メタデータ) (2025-01-02T12:45:21Z) - Localizing Task Information for Improved Model Merging and Compression [61.16012721460561]
我々は,各タスクの重み付けが重なり合わないことが多いため,各タスクがマージされた後も,各タスクの解決に必要な情報が保存されていることを示す。
本稿では,そのような重みを排除し,既存のモデルマージ手法の一般的な性能を改善するアルゴリズムであるConsensus Mergingを提案する。
論文 参考訳(メタデータ) (2024-05-13T14:54:37Z) - Parameter Efficient Multi-task Model Fusion with Partial Linearization [97.23530944186078]
パラメータ効率のよい微調整技術において,マルチタスク融合を改善する新しい手法を提案する。
提案手法は, アダプタモジュールのみを部分的に線形化し, 線形化アダプタにタスク演算を適用する。
我々の部分線形化手法は、複数のタスクをより効果的に1つのモデルに融合させることを可能にしている。
論文 参考訳(メタデータ) (2023-10-07T08:55:54Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z) - Editing Models with Task Arithmetic [69.97273155842966]
事前訓練されたモデルの振る舞いを変えることは、機械学習システムの開発において一般的なプラクティスである。
タスクを微調整した後、同じモデルの重みから事前学習したモデルの重みを減らしてタスクベクトルを構築する。
これらのタスクベクトルは、否定や加算といった算術演算によって変更・結合可能であることを示す。
論文 参考訳(メタデータ) (2022-12-08T05:50:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。