論文の概要: SurgeryV2: Bridging the Gap Between Model Merging and Multi-Task Learning with Deep Representation Surgery
- arxiv url: http://arxiv.org/abs/2410.14389v1
- Date: Fri, 18 Oct 2024 11:49:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-21 14:27:19.006457
- Title: SurgeryV2: Bridging the Gap Between Model Merging and Multi-Task Learning with Deep Representation Surgery
- Title(参考訳): SurgeryV2: 深部表現手術によるモデル統合とマルチタスク学習のギャップを埋める
- Authors: Enneng Yang, Li Shen, Zhenyi Wang, Guibing Guo, Xingwei Wang, Xiaocun Cao, Jie Zhang, Dacheng Tao,
- Abstract要約: モデルマージに基づくマルチタスク学習(MTL)は、複数のエキスパートモデルをマージしてMTLを実行するための有望なアプローチを提供する。
本稿では,統合モデルの表現分布について検討し,「表現バイアス」の重要な問題を明らかにする。
このバイアスは、マージされたMTLモデルの表現と専門家モデルの間の大きな分布ギャップから生じ、マージされたMTLモデルの最適下性能に繋がる。
- 参考スコア(独自算出の注目度): 54.866490321241905
- License:
- Abstract: Model merging-based multitask learning (MTL) offers a promising approach for performing MTL by merging multiple expert models without requiring access to raw training data. However, in this paper, we examine the merged model's representation distribution and uncover a critical issue of "representation bias". This bias arises from a significant distribution gap between the representations of the merged and expert models, leading to the suboptimal performance of the merged MTL model. To address this challenge, we first propose a representation surgery solution called Surgery. Surgery is a lightweight, task-specific module that aligns the final layer representations of the merged model with those of the expert models, effectively alleviating bias and improving the merged model's performance. Despite these improvements, a performance gap remains compared to the traditional MTL method. Further analysis reveals that representation bias phenomena exist at each layer of the merged model, and aligning representations only in the last layer is insufficient for fully reducing systemic bias because biases introduced at each layer can accumulate and interact in complex ways. To tackle this, we then propose a more comprehensive solution, deep representation surgery (also called SurgeryV2), which mitigates representation bias across all layers, and thus bridges the performance gap between model merging-based MTL and traditional MTL. Finally, we design an unsupervised optimization objective to optimize both the Surgery and SurgeryV2 modules. Our experimental results show that incorporating these modules into state-of-the-art (SOTA) model merging schemes leads to significant performance gains. Notably, our SurgeryV2 scheme reaches almost the same level as individual expert models or the traditional MTL model. The code is available at \url{https://github.com/EnnengYang/SurgeryV2}.
- Abstract(参考訳): モデルマージベースのマルチタスク学習(MTL)は、生のトレーニングデータにアクセスすることなく、複数のエキスパートモデルをマージすることで、MTLを実行するための有望なアプローチを提供する。
しかし,本論文では,統合モデルの表現分布について検討し,「表現バイアス」の重要な問題を明らかにする。
このバイアスは、マージされたMTLモデルの表現と専門家モデルの間の大きな分布ギャップから生じ、マージされたMTLモデルの最適下性能に繋がる。
この課題に対処するために,我々はまず,手術という表現型手術ソリューションを提案する。
手術は軽量でタスク固有のモジュールで、マージされたモデルの最終的な層表現と専門家モデルの層表現を一致させ、バイアスを効果的に軽減し、マージされたモデルの性能を改善する。
これらの改善にもかかわらず、従来のMTL法と比較してパフォーマンスのギャップは残る。
さらに解析により, 結合モデルの各層に表現バイアス現象が存在し, 最終層のみの配向表現は, 各層で導入されたバイアスが複雑な方法で蓄積・相互作用できるため, 全身バイアスを完全に低減するには不十分であることが判明した。
そこで我々は,すべての層にまたがる表現バイアスを緩和し,モデルマージベースMTLと従来のMTLのパフォーマンスギャップを埋める,より包括的な表現手術(deep representation surgery, surgeryV2)を提案する。
最後に,オペレーショナルV2モジュールとオペレーショナルV2モジュールの両方を最適化するために,教師なし最適化を設計する。
実験の結果,これらのモジュールをSOTA(State-of-the-art Model merging scheme)に組み込むことで,性能が大幅に向上することがわかった。
特に,我々のオペレーショナルV2スキームは,個々の専門家モデルや従来のMLLモデルとほぼ同じレベルに達する。
コードは \url{https://github.com/EnnengYang/SurgeryV2} で公開されている。
関連論文リスト
- The Non-Local Model Merging Problem: Permutation Symmetries and Variance Collapse [25.002218722102505]
モデルマージは、特定のタスクでトレーニングされた複数のエキスパートモデルの重みを、単一のマルチタスクモデルに効率的に結合することを目的としている。
この研究は、"非ローカル"マージのより困難なシナリオを探求する。
標準的なマージ技術は、この非局所的な環境で効果的に一般化できないことが多い。
本稿では,タスク毎のマージモデルの出力アクティベーションを再スケール・シフトするマルチタスク手法を提案する。
論文 参考訳(メタデータ) (2024-10-16T17:41:59Z) - Model-GLUE: Democratized LLM Scaling for A Large Model Zoo in the Wild [84.57103623507082]
本稿では,全体論的な大規模言語モデルスケーリングガイドラインであるModel-GLUEを紹介する。
我々の研究は、既存のLCMスケーリングテクニック、特に選択的マージと混合のバリエーションのベンチマークから始まります。
我々の手法は、マージ可能なモデルのクラスタリングと最適なマージ戦略選択、モデルミックスによるクラスタの統合を含む。
論文 参考訳(メタデータ) (2024-10-07T15:55:55Z) - Federated Model Heterogeneous Matryoshka Representation Learning [33.04969829305812]
モデルヘテロジニアスフェデレーション学習(MteroFL)により、FLクライアントは、異種構造を持つモデルを分散的に訓練することができる。
既存の方法は、MteroFLサーバとクライアントモデルの間で知識を伝達するために、トレーニング損失に依存する。
本研究では,Matryoshkaモデルを用いた教師付き学習タスクのための新しい表現手法を提案する。
論文 参考訳(メタデータ) (2024-06-01T16:37:08Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - Representation Surgery for Multi-Task Model Merging [57.63643005215592]
マルチタスク学習(MTL)は、複数のタスクから情報を統一されたバックボーンに圧縮し、計算効率と一般化を改善する。
最近の研究は、複数の独立して訓練されたモデルをマージして、共同トレーニングのために生データを収集する代わりにMLLを実行する。
既存のモデルマージスキームの表現分布を可視化することにより、マージモデルはしばしば表現バイアスのジレンマに悩まされる。
論文 参考訳(メタデータ) (2024-02-05T03:39:39Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z) - Robust Finite Mixture Regression for Heterogeneous Targets [70.19798470463378]
本稿では,サンプルクラスタの探索と,複数の不完全な混合型ターゲットを同時にモデル化するFMRモデルを提案する。
我々は、高次元の学習フレームワークの下で、無症状のオラクルのパフォーマンス境界をモデルに提供します。
その結果,我々のモデルは最先端の性能を達成できることがわかった。
論文 参考訳(メタデータ) (2020-10-12T03:27:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。