論文の概要: Merging Multi-Task Models via Weight-Ensembling Mixture of Experts
- arxiv url: http://arxiv.org/abs/2402.00433v1
- Date: Thu, 1 Feb 2024 08:58:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-02 15:46:50.385420
- Title: Merging Multi-Task Models via Weight-Ensembling Mixture of Experts
- Title(参考訳): 重みを混合した専門家によるマルチタスクモデルの統合
- Authors: Anke Tang, Li Shen, Yong Luo, Nan Yin, Lefei Zhang, Dacheng Tao
- Abstract要約: 異なるタスクでトレーニングされたTransformerベースのモデルを単一の統一モデルにマージすることで、すべてのタスクを同時に実行できる。
本稿では,Transformer層をMoEモジュールにアップスケーリングしながら,ほとんどのパラメータをマージすることを提案する。
我々の重要な洞察は、共有知識とタスク固有の知識を識別して分離し、それらを動的に統合することで、パラメータ干渉問題を大幅に緩和できるということです。
- 参考スコア(独自算出の注目度): 68.8128246362533
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Merging various task-specific Transformer-based models trained on different
tasks into a single unified model can execute all the tasks concurrently.
Previous methods, exemplified by task arithmetic, have been proven to be both
effective and scalable. Existing methods have primarily focused on seeking a
static optimal solution within the original model parameter space. A notable
challenge is mitigating the interference between parameters of different
models, which can substantially deteriorate performance. In this paper, we
propose to merge most of the parameters while upscaling the MLP of the
Transformer layers to a weight-ensembling mixture of experts (MoE) module,
which can dynamically integrate shared and task-specific knowledge based on the
input, thereby providing a more flexible solution that can adapt to the
specific needs of each instance. Our key insight is that by identifying and
separating shared knowledge and task-specific knowledge, and then dynamically
integrating them, we can mitigate the parameter interference problem to a great
extent. We conduct the conventional multi-task model merging experiments and
evaluate the generalization and robustness of our method. The results
demonstrate the effectiveness of our method and provide a comprehensive
understanding of our method. The code is available at
https://anonymous.4open.science/r/weight-ensembling_MoE-67C9/
- Abstract(参考訳): 異なるタスクでトレーニングされた様々なタスク固有のトランスフォーマティブベースのモデルを単一の統一モデルにマージすることで、すべてのタスクを同時実行することができる。
タスク演算によって例示される以前の手法は、効果的かつスケーラブルであることが証明されている。
既存の手法は主に、元のモデルパラメータ空間内で静的最適解を求めることに重点を置いている。
注目すべき課題は、異なるモデルのパラメータ間の干渉を軽減することである。
本稿では、トランスフォーマー層のmlpを、入力に基づいて共有およびタスク固有の知識を動的に統合し、各インスタンスの特定のニーズに適応可能なより柔軟なソリューションを提供する、専門家(moe)モジュールの重みセンブラリング混合物にスケールアップしながら、ほとんどのパラメータをマージすることを提案する。
私たちの重要な洞察は、共有知識とタスク固有の知識を識別し分離し、それらを動的に統合することで、パラメータ干渉問題をかなり緩和できるということです。
従来のマルチタスクモデルマージ実験を行い,本手法の一般化とロバスト性を評価する。
提案手法の有効性を実証し,本手法の総合的な理解を提供する。
コードはhttps://anonymous.4open.science/r/weight-ensembling_moe-67c9/で入手できる。
関連論文リスト
- Efficient and Effective Weight-Ensembling Mixture of Experts for Multi-Task Model Merging [111.8456671452411]
マルチタスク学習(MTL)は、共有モデルを利用して複数のタスクを遂行し、知識伝達を促進する。
マルチタスクモデル統合のためのウェイトエンセブリング・ミックス・オブ・エキスパート(WEMoE)手法を提案する。
WEMoEとE-WEMoEは, MTL性能, 一般化, 堅牢性の観点から, 最先端(SOTA)モデルマージ法より優れていることを示す。
論文 参考訳(メタデータ) (2024-10-29T07:16:31Z) - The Non-Local Model Merging Problem: Permutation Symmetries and Variance Collapse [25.002218722102505]
モデルマージは、特定のタスクでトレーニングされた複数のエキスパートモデルの重みを、単一のマルチタスクモデルに効率的に結合することを目的としている。
この研究は、"非ローカル"マージのより困難なシナリオを探求する。
標準的なマージ技術は、この非局所的な環境で効果的に一般化できないことが多い。
本稿では,タスク毎のマージモデルの出力アクティベーションを再スケール・シフトするマルチタスク手法を提案する。
論文 参考訳(メタデータ) (2024-10-16T17:41:59Z) - Twin-Merging: Dynamic Integration of Modular Expertise in Model Merging [21.918559935122786]
モデルマージは、複数のタスク固有のモデルを、余分なトレーニングなしで単一のマルチタスクモデルに結合する、有望な方法である。
従来のモデルマージ手法は、微調整されたモデルに比べて大きな性能差を示すことが多い。
共有されたタスク固有の知識と排他的なタスク固有の知識の両方が、パフォーマンスのマージには不可欠であるが、排他的な知識を直接マージすることは、全体的なパフォーマンスを妨げていることを示す。
本稿では,1)知識を共有コンポーネントと排他コンポーネントにモジュール化し,冗長性を低減し効率を向上する圧縮,(2)共有およびタスク固有の知識を動的にマージする,という2つの主要な段階を包含する手法を提案する。
論文 参考訳(メタデータ) (2024-06-17T02:31:55Z) - Concrete Subspace Learning based Interference Elimination for Multi-task
Model Fusion [86.6191592951269]
一般的な事前訓練された大規模モデルから微調整されたマージングモデルは、様々なタスクに特化しているが、様々なタスクでうまく機能するマルチタスクモデルを構築するための安価でスケーラブルな戦略として実証されている。
本稿では、共通低次元部分空間を同定し、その共有情報トラック干渉問題を性能を犠牲にすることなく利用するための連続緩和(Concrete)部分空間学習法を提案する。
論文 参考訳(メタデータ) (2023-12-11T07:24:54Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z) - Model ensemble instead of prompt fusion: a sample-specific knowledge
transfer method for few-shot prompt tuning [85.55727213502402]
我々は、ソースタスクのソフトプロンプトから知識を伝達することで、プロンプトチューニングにおける数ショットのパフォーマンスを改善することに集中する。
我々はソースモデル(SESoM)のサンプル固有アンサンブルを提案する。
SESoMは、ソースモデルが出力されるときに、ターゲットの各サンプルに対するソースモデルのコントリビューションを個別に調整することを学ぶ。
論文 参考訳(メタデータ) (2022-10-23T01:33:16Z) - Task Adaptive Parameter Sharing for Multi-Task Learning [114.80350786535952]
Adaptive Task Adapting Sharing(TAPS)は、階層の小さなタスク固有のサブセットを適応的に修正することで、ベースモデルを新しいタスクにチューニングする手法である。
他の手法と比較して、TAPSはダウンストリームタスクに対して高い精度を維持し、タスク固有のパラメータは少ない。
我々は,タスクやアーキテクチャ(ResNet,DenseNet,ViT)を微調整して評価し,実装が簡単でありながら最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2022-03-30T23:16:07Z) - Generalized Hidden Parameter MDPs Transferable Model-based RL in a
Handful of Trials [13.051708608864539]
一般化隠れMDP(英: Generalized Hidden MDPs、GHP-MDPs)は、タスクによって異なる隠れパラメータの関数として、力学と報酬の両方が変化するMDPのファミリーを指す。
我々は、報酬空間と動的潜伏空間を用いた新しい課題である MuJoCo タスクに対して、最先端性能とサンプル効率を実験的に実証した。
論文 参考訳(メタデータ) (2020-02-08T02:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。