論文の概要: Mod-Squad: Designing Mixture of Experts As Modular Multi-Task Learners
- arxiv url: http://arxiv.org/abs/2212.08066v1
- Date: Thu, 15 Dec 2022 18:59:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 15:49:01.644057
- Title: Mod-Squad: Designing Mixture of Experts As Modular Multi-Task Learners
- Title(参考訳): Mod-Squad: モジュール型マルチタスク学習者としてのエキスパートの混合設計
- Authors: Zitian Chen, Yikang Shen, Mingyu Ding, Zhenfang Chen, Hengshuang Zhao,
Erik Learned-Miller, Chuang Gan
- Abstract要約: 専門家グループ("スクワッド")にモジュール化された新しいモデルであるMod-Squadを提案する。
単一モデルのトレーニング中に、このマッチングプロセスを最適化する。
13の視覚タスクを持つタスクノミーデータセットと、5つの視覚タスクを持つPASCAL-Contextデータセットの実験は、我々のアプローチの優位性を示している。
- 参考スコア(独自算出の注目度): 74.92558307689265
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Optimization in multi-task learning (MTL) is more challenging than
single-task learning (STL), as the gradient from different tasks can be
contradictory. When tasks are related, it can be beneficial to share some
parameters among them (cooperation). However, some tasks require additional
parameters with expertise in a specific type of data or discrimination
(specialization). To address the MTL challenge, we propose Mod-Squad, a new
model that is Modularized into groups of experts (a 'Squad'). This structure
allows us to formalize cooperation and specialization as the process of
matching experts and tasks. We optimize this matching process during the
training of a single model. Specifically, we incorporate mixture of experts
(MoE) layers into a transformer model, with a new loss that incorporates the
mutual dependence between tasks and experts. As a result, only a small set of
experts are activated for each task. This prevents the sharing of the entire
backbone model between all tasks, which strengthens the model, especially when
the training set size and the number of tasks scale up. More interestingly, for
each task, we can extract the small set of experts as a standalone model that
maintains the same performance as the large model. Extensive experiments on the
Taskonomy dataset with 13 vision tasks and the PASCAL-Context dataset with 5
vision tasks show the superiority of our approach.
- Abstract(参考訳): マルチタスク学習(MTL)の最適化は、異なるタスクからの勾配が矛盾する可能性があるため、シングルタスク学習(STL)よりも難しい。
タスクが関連している場合、いくつかのパラメータ(協調)を共有することは有益である。
しかし、特定の種類のデータや識別(特殊化)に関する専門知識を持つ追加のパラメータを必要とするタスクもある。
mtlの課題に対処するため,我々はmod-squadという,専門家のグループにモジュール化された新しいモデルを提案する(squad)。
この構造により、専門家とタスクのマッチングプロセスとして、協力と専門化を形式化できます。
単一モデルのトレーニング中に、このマッチングプロセスを最適化する。
具体的には、複数の専門家(MoE)層をトランスフォーマーモデルに組み込み、タスクとエキスパート間の相互依存を取り入れた新たな損失を発生させる。
結果として、タスクごとに少数の専門家のみが活性化されます。
これによりすべてのタスク間でバックボーンモデル全体の共有が防止されるため、特にトレーニングセットのサイズとタスク数の増加によって、モデルが強化される。
さらに興味深いのは、各タスクに対して、大きなモデルと同じパフォーマンスを維持するスタンドアロンモデルとして、専門家の小さなセットを抽出できることです。
13の視覚タスクを持つタスクノミーデータセットと、5つの視覚タスクを持つPASCAL-Contextデータセットに関する大規模な実験は、我々のアプローチの優位性を示している。
関連論文リスト
- Concrete Subspace Learning based Interference Elimination for Multi-task
Model Fusion [86.6191592951269]
一般的な事前訓練された大規模モデルから微調整されたマージングモデルは、様々なタスクに特化しているが、様々なタスクでうまく機能するマルチタスクモデルを構築するための安価でスケーラブルな戦略として実証されている。
本稿では、共通低次元部分空間を同定し、その共有情報トラック干渉問題を性能を犠牲にすることなく利用するための連続緩和(Concrete)部分空間学習法を提案する。
論文 参考訳(メタデータ) (2023-12-11T07:24:54Z) - An Efficient General-Purpose Modular Vision Model via Multi-Task
Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。
提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文 参考訳(メタデータ) (2023-06-29T17:59:57Z) - JiuZhang 2.0: A Unified Chinese Pre-trained Language Model for
Multi-task Mathematical Problem Solving [77.51817534090789]
マルチタスク数学問題の解法を専門とする統一中国語 PLM である textbfJiuZhang2.0 を提案する。
我々の考えは、中規模のモデルを維持し、マルチタスク設定におけるモデル容量を改善するために、Emphcross-taskの知識共有を利用することである。
論文 参考訳(メタデータ) (2023-06-19T15:45:36Z) - Musketeer: Joint Training for Multi-task Vision Language Model with Task Explanation Prompts [75.75548749888029]
本稿では,全てのタスクに対してパラメータを共同で訓練し,複数の異種タスク間で完全に共有する視覚言語モデルを提案する。
単一のモデルで、Musteteerは単一のタスクでトレーニングされた強いベースラインに匹敵する結果を得る。
論文 参考訳(メタデータ) (2023-05-11T17:57:49Z) - Eliciting Transferability in Multi-task Learning with Task-level
Mixture-of-Experts [29.34065746373841]
トランスモデルは多様なNLPタスクでマルチタスク学習を行うことができる。
人間は、どんなスキルや知識が関連しているかを適切に推定することで、より柔軟な方法でタスクに取り組む。
学習したルーティング決定と専門家は、NLPタスクの人間の分類を部分的に再発見する。
論文 参考訳(メタデータ) (2022-05-25T11:59:05Z) - Task Adaptive Parameter Sharing for Multi-Task Learning [114.80350786535952]
Adaptive Task Adapting Sharing(TAPS)は、階層の小さなタスク固有のサブセットを適応的に修正することで、ベースモデルを新しいタスクにチューニングする手法である。
他の手法と比較して、TAPSはダウンストリームタスクに対して高い精度を維持し、タスク固有のパラメータは少ない。
我々は,タスクやアーキテクチャ(ResNet,DenseNet,ViT)を微調整して評価し,実装が簡単でありながら最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2022-03-30T23:16:07Z) - Rethinking Hard-Parameter Sharing in Multi-Task Learning [20.792654758645302]
マルチタスク学習(MTL)におけるハードパラメータ共有により、タスクはモデルのパラメータの一部を共有でき、ストレージコストを低減し、予測精度を向上させることができる。
共通の共有プラクティスは、タスク毎に別々のトップレイヤを使用しながら、タスク間でディープニューラルネットワークのボトムレイヤを共有することだ。
異なるボトム層パラメータを使用することで、一般的なプラクティスよりも大幅にパフォーマンスが向上する可能性がある。
論文 参考訳(メタデータ) (2021-07-23T17:26:40Z) - Latent Group Structured Multi-task Learning [2.827177139912107]
マルチタスク学習(MTL)では,様々なタスクを共同で学習することで,鍵となる機械学習アルゴリズムの性能を向上させる。
本稿では,事前情報によって定義されたグループ構造化タスクを奨励するグループ構造化潜在空間マルチタスク学習モデルを提案する。
合成データセットと実世界のデータセットの両方で実験が行われ、シングルタスク学習よりも競争力のあるパフォーマンスを示している。
論文 参考訳(メタデータ) (2020-11-24T05:38:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。