論文の概要: Sparsely Activated Mixture-of-Experts are Robust Multi-Task Learners
- arxiv url: http://arxiv.org/abs/2204.07689v1
- Date: Sat, 16 Apr 2022 00:56:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-20 13:09:02.087664
- Title: Sparsely Activated Mixture-of-Experts are Robust Multi-Task Learners
- Title(参考訳): 未熟なマルチタスク学習者に対するSparsely Activated Mixture-of-Experts
- Authors: Shashank Gupta, Subhabrata Mukherjee, Krishan Subudhi, Eduardo
Gonzalez, Damien Jose, Ahmed H. Awadallah, Jianfeng Gao
- Abstract要約: 本研究では,Mixture-of-Experts (MoE) がマルチタスク学習を改善するかを検討した。
タスク認識ゲーティング関数を考案し、異なるタスクから専門の専門家にサンプルをルーティングする。
これにより、多数のパラメータを持つ疎活性化マルチタスクモデルが得られるが、高密度モデルの計算コストは同じである。
- 参考スコア(独自算出の注目度): 67.5865966762559
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditional multi-task learning (MTL) methods use dense networks that use the
same set of shared weights across several different tasks. This often creates
interference where two or more tasks compete to pull model parameters in
different directions. In this work, we study whether sparsely activated
Mixture-of-Experts (MoE) improve multi-task learning by specializing some
weights for learning shared representations and using the others for learning
task-specific information. To this end, we devise task-aware gating functions
to route examples from different tasks to specialized experts which share
subsets of network weights conditioned on the task. This results in a sparsely
activated multi-task model with a large number of parameters, but with the same
computational cost as that of a dense model. We demonstrate such sparse
networks to improve multi-task learning along three key dimensions: (i)
transfer to low-resource tasks from related tasks in the training mixture; (ii)
sample-efficient generalization to tasks not seen during training by making use
of task-aware routing from seen related tasks; (iii) robustness to the addition
of unrelated tasks by avoiding catastrophic forgetting of existing tasks.
- Abstract(参考訳): 従来のマルチタスク学習(MTL)手法は、複数の異なるタスクで同じ共有重みのセットを使用する高密度ネットワークを使用する。
これはしばしば、2つ以上のタスクが異なる方向にモデルパラメータを引き出すために競合する干渉を引き起こす。
本研究では,共有表現の学習やタスク固有情報の学習に用いた重みを特化して,多タスク学習の改善を図る。
この目的のために,タスクに規定されたネットワーク重みのサブセットを共有する専門専門家に,異なるタスクからサンプルをルーティングするタスク認識ゲーティング関数を考案した。
これにより、多数のパラメータを持つが、密集したモデルと同じ計算コストを持つ、スパースにアクティベートされたマルチタスクモデルが得られる。
3つの重要な側面に沿ってマルチタスク学習を改善するための疎ネットワークを実証する。
(i)訓練混合物の関連タスクから低リソースタスクに移行すること。
2 関連課題からのタスク認識ルーティングを利用することにより、トレーニング中に見えないタスクに対するサンプル効率の一般化
(iii)既存のタスクの破滅的な忘れ去らないことによる無関係なタスクの追加に対する堅牢性。
関連論文リスト
- DiSparse: Disentangled Sparsification for Multitask Model Compression [92.84435347164435]
DiSparseは、シンプルで効果的で、第一級のマルチタスクプルーニングとスパーストレーニングスキームである。
実験の結果,様々な設定や設定において優れた性能を示した。
論文 参考訳(メタデータ) (2022-06-09T17:57:46Z) - Modular Adaptive Policy Selection for Multi-Task Imitation Learning
through Task Division [60.232542918414985]
マルチタスク学習は、しばしば負の伝達に悩まされ、タスク固有の情報を共有する。
これは、プロトポリケーションをモジュールとして使用して、タスクを共有可能な単純なサブ振る舞いに分割する。
また、タスクを共有サブ行動とタスク固有のサブ行動の両方に自律的に分割する能力を示す。
論文 参考訳(メタデータ) (2022-03-28T15:53:17Z) - Multi-Task Learning with Sequence-Conditioned Transporter Networks [67.57293592529517]
シーケンスコンディショニングと重み付きサンプリングのレンズによるマルチタスク学習の実現を目指している。
合成タスクを対象とした新しいベンチマークであるMultiRavensを提案する。
次に,視覚に基づくエンドツーエンドシステムアーキテクチャであるSequence-Conditioned Transporter Networksを提案する。
論文 参考訳(メタデータ) (2021-09-15T21:19:11Z) - MultiTask-CenterNet (MCN): Efficient and Diverse Multitask Learning
using an Anchor Free Approach [0.13764085113103217]
マルチタスク学習は機械学習における一般的なアプローチである。
本稿では,複数の知覚関連タスクを同時に学習するためのCenterNetアンカーフリーアプローチを強化する。
論文 参考訳(メタデータ) (2021-08-11T06:57:04Z) - Multi-Task Learning with Deep Neural Networks: A Survey [0.0]
マルチタスク学習(Multi-task learning、MTL)は、複数のタスクを共有モデルで同時に学習する機械学習のサブフィールドである。
深層ニューラルネットワークにおけるマルチタスク学習手法の概要を述べる。
論文 参考訳(メタデータ) (2020-09-10T19:31:04Z) - Reparameterizing Convolutions for Incremental Multi-Task Learning
without Task Interference [75.95287293847697]
マルチタスクモデルを開発する際の2つの一般的な課題は、しばしば文献で見過ごされる。
まず、モデルを本質的に漸進的に可能にし、以前に学んだことを忘れずに新しいタスクから情報を継続的に取り入れる(インクリメンタルラーニング)。
第二に、タスク間の有害な相互作用を排除し、マルチタスク設定(タスク干渉)においてシングルタスクのパフォーマンスを著しく低下させることが示されている。
論文 参考訳(メタデータ) (2020-07-24T14:44:46Z) - Navigating the Trade-Off between Multi-Task Learning and Learning to
Multitask in Deep Neural Networks [9.278739724750343]
マルチタスク学習(マルチタスクきゅう、英: Multi-task learning)とは、機械学習において、ネットワークがタスクの取得を容易にするために様々なタスクで訓練されるパラダイムである。
マルチタスクは、特に認知科学の文献において、複数のタスクを同時に実行する能力を示すために用いられる。
深層ネットワークでも同様の緊張が生じていることを示し、エージェントが不慣れな環境でこのトレードオフを管理するためのメタ学習アルゴリズムについて議論する。
論文 参考訳(メタデータ) (2020-07-20T23:26:16Z) - Knowledge Distillation for Multi-task Learning [38.20005345733544]
マルチタスク学習(MTL)は、全てのタスクで優れたパフォーマンスを達成し、計算コストを下げるための複数のタスクを実行する単一のモデルを学習することである。
そのようなモデルを学ぶには、難易度、大きさ、特性の異なる一連のタスクの損失を共同で最適化する必要がある。
本研究では,マルチタスク学習における不均衡問題に対処するために,知識蒸留に基づく手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T08:02:42Z) - MTI-Net: Multi-Scale Task Interaction Networks for Multi-Task Learning [82.62433731378455]
特定のスケールで高い親和性を持つタスクは、他のスケールでこの動作を維持することが保証されていないことを示す。
本稿では,この発見に基づく新しいアーキテクチャ MTI-Net を提案する。
論文 参考訳(メタデータ) (2020-01-19T21:02:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。