論文の概要: Towards Minimizing Feature Drift in Model Merging: Layer-wise Task Vector Fusion for Adaptive Knowledge Integration
- arxiv url: http://arxiv.org/abs/2505.23859v1
- Date: Thu, 29 May 2025 08:11:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.577186
- Title: Towards Minimizing Feature Drift in Model Merging: Layer-wise Task Vector Fusion for Adaptive Knowledge Integration
- Title(参考訳): モデル統合における特徴量最小化に向けて:適応的知識統合のための階層型タスクベクトル融合
- Authors: Wenju Sun, Qingyong Li, Wen Wang, Yang Liu, Yangli-ao Geng, Boyang Li,
- Abstract要約: マルチタスクモデルマージは、複数のタスク固有のエキスパートからの知識を統一モデルに統合することを目的としている。
既存の手法では、タスク固有の専門家と統一モデルの違いを最小限に抑える。
本稿では,タスク固有の専門家と統一モデルとの間の機能ドリフトを明示的に最小化する手法であるレイヤワイズ・タスクベクトル・マージを提案する。
- 参考スコア(独自算出の注目度): 16.667053306761364
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-task model merging aims to consolidate knowledge from multiple fine-tuned task-specific experts into a unified model while minimizing performance degradation. Existing methods primarily approach this by minimizing differences between task-specific experts and the unified model, either from a parameter-level or a task-loss perspective. However, parameter-level methods exhibit a significant performance gap compared to the upper bound, while task-loss approaches entail costly secondary training procedures. In contrast, we observe that performance degradation closely correlates with feature drift, i.e., differences in feature representations of the same sample caused by model merging. Motivated by this observation, we propose Layer-wise Optimal Task Vector Merging (LOT Merging), a technique that explicitly minimizes feature drift between task-specific experts and the unified model in a layer-by-layer manner. LOT Merging can be formulated as a convex quadratic optimization problem, enabling us to analytically derive closed-form solutions for the parameters of linear and normalization layers. Consequently, LOT Merging achieves efficient model consolidation through basic matrix operations. Extensive experiments across vision and vision-language benchmarks demonstrate that LOT Merging significantly outperforms baseline methods, achieving improvements of up to 4.4% (ViT-B/32) over state-of-the-art approaches.
- Abstract(参考訳): マルチタスクモデルマージは、複数の微調整されたタスク固有のエキスパートからの知識を、パフォーマンスの低下を最小限に抑えながら統一されたモデルに統合することを目的としている。
既存の手法は、パラメータレベルまたはタスクロスの観点から、タスク固有の専門家と統一モデルの違いを最小限に抑えることで、この問題にアプローチする。
しかし, パラメータレベルの手法は上界に比べて大きな性能差を示し, タスクロス手法はコストのかかる二次訓練手順を必要とする。
対照的に、性能劣化は特徴のドリフトと密接に相関していること、すなわちモデルマージによる同一試料の特徴表現の違いが観察される。
本研究の目的は,タスク固有の専門家と統一モデルとの間の特徴ドリフトを階層的に明確に最小化する手法であるレイヤワイズ・タスクベクトル・マージ(LOT Merging)を提案することである。
LOTメルギングは凸二次最適化問題として定式化することができ、線形および正規化層のパラメータに対する閉形式解を解析的に導出することができる。
その結果、LOTメルギングは基本行列演算による効率的なモデル統合を実現する。
ビジョンとヴィジュアル言語ベンチマークの広範な実験により、LOTマージは最先端のアプローチよりも最大4.4%(ViT-B/32)改善された。
関連論文リスト
- CAT Merging: A Training-Free Approach for Resolving Conflicts in Model Merging [10.386229962375548]
マルチタスクモデルの統合は、追加のトレーニングなしで複数のエキスパートモデルを統一モデルに統合するための有望なパラダイムを提供する。
本稿では,タスクベクトルから競合要因を選択的にトリムするトレーニングフリーフレームワークであるConflict-Aware Task Mergingを提案する。
視覚、言語、視覚言語タスクの実験では、CATメルジングが知識の衝突を効果的に抑制し、平均精度を最大2.5%向上させることが示されている。
論文 参考訳(メタデータ) (2025-05-11T13:24:09Z) - AdaRank: Adaptive Rank Pruning for Enhanced Model Merging [15.383220675351076]
モデルマージは、独立して微調整されたモデルを統合されたフレームワークに統合するための有望なアプローチとして現れている。
AdaRankは、タスクベクトルの最も有用な特異な方向を適応的に選択し、複数のモデルをマージする新しいモデルマージフレームワークである。
AdaRankは、さまざまなバックボーンとタスク数で一貫して最先端のパフォーマンスを実現し、微調整されたモデル間のパフォーマンスギャップを1%近く削減している。
論文 参考訳(メタデータ) (2025-03-28T06:49:06Z) - Merging Models on the Fly Without Retraining: A Sequential Approach to Scalable Continual Model Merging [75.93960998357812]
ディープモデルマージ(Deep Modelmerging)は、複数の微調整モデルを組み合わせて、さまざまなタスクやドメインにまたがる能力を活用する、新たな研究方向を示すものだ。
現在のモデルマージ技術は、全ての利用可能なモデルを同時にマージすることに集中しており、重量行列に基づく手法が主要なアプローチである。
本稿では,モデルを逐次処理するトレーニングフリーなプロジェクションベース連続マージ手法を提案する。
論文 参考訳(メタデータ) (2025-01-16T13:17:24Z) - Modeling Multi-Task Model Merging as Adaptive Projective Gradient Descent [72.10987117380584]
複数のエキスパートモデルをマージすることは、元のデータにアクセスせずにマルチタスク学習を実行するための有望なアプローチを提供する。
既存のメソッドは、競合を引き起こす一方で、パフォーマンスにとって重要なタスク固有の情報を捨てている。
我々の手法は従来の手法より一貫して優れており、視覚領域とNLP領域の両方において様々なアーキテクチャやタスクにまたがって最先端の結果が得られます。
論文 参考訳(メタデータ) (2025-01-02T12:45:21Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。