論文の概要: Efficient and Effective Weight-Ensembling Mixture of Experts for Multi-Task Model Merging
- arxiv url: http://arxiv.org/abs/2410.21804v1
- Date: Tue, 29 Oct 2024 07:16:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-30 13:41:46.766644
- Title: Efficient and Effective Weight-Ensembling Mixture of Experts for Multi-Task Model Merging
- Title(参考訳): マルチタスクモデルマージにおけるエキスパートの効率的かつ効果的な重み付け混合
- Authors: Li Shen, Anke Tang, Enneng Yang, Guibing Guo, Yong Luo, Lefei Zhang, Xiaochun Cao, Bo Du, Dacheng Tao,
- Abstract要約: マルチタスク学習(MTL)は、共有モデルを利用して複数のタスクを遂行し、知識伝達を促進する。
マルチタスクモデル統合のためのウェイトエンセブリング・ミックス・オブ・エキスパート(WEMoE)手法を提案する。
WEMoEとE-WEMoEは, MTL性能, 一般化, 堅牢性の観点から, 最先端(SOTA)モデルマージ法より優れていることを示す。
- 参考スコア(独自算出の注目度): 111.8456671452411
- License:
- Abstract: Multi-task learning (MTL) leverages a shared model to accomplish multiple tasks and facilitate knowledge transfer. Recent research on task arithmetic-based MTL demonstrates that merging the parameters of independently fine-tuned models can effectively achieve MTL. However, existing merging methods primarily seek a static optimal solution within the original model parameter space, which often results in performance degradation due to the inherent diversity among tasks and potential interferences. To address this challenge, in this paper, we propose a Weight-Ensembling Mixture of Experts (WEMoE) method for multi-task model merging. Specifically, we first identify critical (or sensitive) modules by analyzing parameter variations in core modules of Transformer-based models before and after finetuning. Then, our WEMoE statically merges non-critical modules while transforming critical modules into a mixture-of-experts (MoE) structure. During inference, expert modules in the MoE are dynamically merged based on input samples, enabling a more flexible and adaptive merging approach. Building on WEMoE, we further introduce an efficient-and-effective WEMoE (E-WEMoE) method, whose core mechanism involves eliminating non-essential elements in the critical modules of WEMoE and implementing shared routing across multiple MoE modules, thereby significantly reducing both the trainable parameters, the overall parameter count, and computational overhead of the merged model by WEMoE. Experimental results across various architectures and tasks demonstrate that both WEMoE and E-WEMoE outperform state-of-the-art (SOTA) model merging methods in terms of MTL performance, generalization, and robustness.
- Abstract(参考訳): マルチタスク学習(MTL)は、共有モデルを利用して複数のタスクを遂行し、知識伝達を促進する。
タスク演算に基づくMTLに関する最近の研究は、独立に微調整されたモデルのパラメータをマージすることで、MTLを効果的に実現できることを実証している。
しかし、既存のマージ手法は、主に元のモデルパラメータ空間内で静的な最適解を求めており、多くの場合、タスクの固有の多様性と潜在的な干渉によって性能が劣化する。
そこで本研究では,マルチタスクモデル統合のためのWEMoE法を提案する。
具体的には,Transformer ベースモデルのコアモジュールのパラメータ変動を微調整前後に解析することにより,まず重要なモジュール(あるいはセンシティブなモジュール)を同定する。
そして、WEMoEは非臨界モジュールを静的にマージし、臨界モジュールをMix-of-experts(MoE)構造に変換する。
推論中、MoEのエキスパートモジュールは入力サンプルに基づいて動的にマージされるため、より柔軟で適応的なマージアプローチが可能になる。
さらに,WEMoE をベースとした WEMoE (E-WEMoE) 手法を導入し,WEMoE の臨界モジュールにおける非必要要素を除去し,複数の MoE モジュール間の共有ルーティングを実装することで,WEMoE による統合モデルのトレーニング可能なパラメータ,全体パラメータ数,計算オーバーヘッドを著しく低減する。
WEMoE と E-WEMoE は MTL 性能,一般化,ロバストネスの両モデルマージ手法より優れていることを示す。
関連論文リスト
- Closed-form merging of parameter-efficient modules for Federated Continual Learning [9.940242741914748]
一度に1つのLoRA行列をトレーニングする交代最適化戦略であるLoRMを導入する。
これにより、未知の変数を個別に解くことができ、ユニークな解を見つけることができる。
本手法は,さまざまなFCILシナリオにおける最先端性能を示す。
論文 参考訳(メタデータ) (2024-10-23T15:30:13Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - Model Composition for Multimodal Large Language Models [71.5729418523411]
本稿では,既存のMLLMのモデル構成による新しいパラダイムを提案する。
我々の基本的な実装であるNaiveMCは、モダリティエンコーダを再利用し、LLMパラメータをマージすることで、このパラダイムの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-20T06:38:10Z) - Representation Surgery for Multi-Task Model Merging [57.63643005215592]
マルチタスク学習(MTL)は、複数のタスクから情報を統一されたバックボーンに圧縮し、計算効率と一般化を改善する。
最近の研究は、複数の独立して訓練されたモデルをマージして、共同トレーニングのために生データを収集する代わりにMLLを実行する。
既存のモデルマージスキームの表現分布を可視化することにより、マージモデルはしばしば表現バイアスのジレンマに悩まされる。
論文 参考訳(メタデータ) (2024-02-05T03:39:39Z) - Merging Multi-Task Models via Weight-Ensembling Mixture of Experts [64.94129594112557]
異なるタスクでトレーニングされたTransformerベースのモデルを単一の統一モデルにマージすることで、すべてのタスクを同時に実行できる。
従来の手法は、タスク演算によって例示され、効率的かつスケーラブルであることが証明されている。
本稿では,Transformer層をMoEモジュールにアップスケーリングしながら,ほとんどのパラメータをマージすることを提案する。
論文 参考訳(メタデータ) (2024-02-01T08:58:57Z) - BYOM: Building Your Own Multi-Task Model For Free [69.63765907216442]
BYOM-FFTは完全微調整モデルのマージ用であり、BYOM-LoRAはLoRA微調整モデルのマージ用である。
コンピュータビジョンと自然言語処理タスクの実験により、提案手法は既存のマージ手法よりも大きなマージ率で優れていることが示された。
論文 参考訳(メタデータ) (2023-10-03T08:39:33Z) - MMSFormer: Multimodal Transformer for Material and Semantic Segmentation [16.17270247327955]
本稿では,異なるモダリティの組み合わせから情報を効果的に融合できる新しい融合戦略を提案する。
また,MMSFormer(Multi-Modal TransFormer)と呼ばれる新たなモデルを提案する。
MMSFormerは、現在の最先端モデルを3つの異なるデータセットで上回る。
論文 参考訳(メタデータ) (2023-09-07T20:07:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。