論文の概要: Combining Modular Skills in Multitask Learning
- arxiv url: http://arxiv.org/abs/2202.13914v2
- Date: Tue, 1 Mar 2022 10:50:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-02 12:46:22.595227
- Title: Combining Modular Skills in Multitask Learning
- Title(参考訳): マルチタスク学習におけるモジュールスキルの組み合わせ
- Authors: Edoardo M. Ponti, Alessandro Sordoni, Yoshua Bengio and Siva Reddy
- Abstract要約: モジュラー設計は、ニューラルネットワークが様々な知識の面をアンタングルして再結合し、新しいタスクにより系統的に一般化することを奨励する。
この研究では、各タスクは(潜在的に小さな)インベントリから潜在的な離散スキルのサブセットと関連付けられていると仮定する。
ネットワークのモジュラー設計により、強化学習におけるサンプル効率が著しく向上し、教師あり学習における数ショットの一般化が図られる。
- 参考スコア(独自算出の注目度): 149.8001096811708
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A modular design encourages neural models to disentangle and recombine
different facets of knowledge to generalise more systematically to new tasks.
In this work, we assume that each task is associated with a subset of latent
discrete skills from a (potentially small) inventory. In turn, skills
correspond to parameter-efficient (sparse / low-rank) model parameterisations.
By jointly learning these and a task-skill allocation matrix, the network for
each task is instantiated as the average of the parameters of active skills. To
favour non-trivial soft partitions of skills across tasks, we experiment with a
series of inductive biases, such as an Indian Buffet Process prior and a
two-speed learning rate. We evaluate our latent-skill model on two main
settings: 1) multitask reinforcement learning for grounded instruction
following on 8 levels of the BabyAI platform; and 2) few-shot adaptation of
pre-trained text-to-text generative models on CrossFit, a benchmark comprising
160 NLP tasks. We find that the modular design of a network significantly
increases sample efficiency in reinforcement learning and few-shot
generalisation in supervised learning, compared to baselines with fully shared,
task-specific, or conditionally generated parameters where knowledge is
entangled across tasks. In addition, we show how discrete skills help
interpretability, as they yield an explicit hierarchy of tasks.
- Abstract(参考訳): モジュール設計は、神経モデルに対して、異なる知識の面を分離し、再結合し、より体系的に新しいタスクに一般化することを奨励する。
この研究において、各タスクは(潜在的に小さい)在庫から潜在的な離散スキルのサブセットと関連づけられていると仮定する。
すると、スキルはパラメータ効率(スパース/ローランク)モデルのパラメータ化に対応する。
これらとタスクスキル割り当て行列を共同で学習することにより、各タスクのネットワークをアクティブスキルのパラメータの平均としてインスタンス化する。
タスク間での非自明なソフトなスキル分割を好むために、インドのビュッフェプロセスや2速学習率といった一連の帰納的バイアスを試す。
我々は2つの主要な設定で潜在スキルモデルを評価する。
1)BabyAIプラットフォーム8レベルに追従した接地指導のためのマルチタスク強化学習
2)160nlpタスクからなるベンチマークであるcrossfit上での事前学習されたテキストからテキストへの生成モデルの数少ない適応。
ネットワークのモジュラー設計は強化学習におけるサンプル効率と教師あり学習における限定的一般化を著しく向上させ、知識がタスク間で絡み合うような完全共有、タスク固有、あるいは条件付き生成パラメータを持つベースラインと比較した。
さらに,タスクの階層構造を明示するため,個々のスキルが解釈可能性にどのように役立つかを示す。
関連論文リスト
- Customizable Combination of Parameter-Efficient Modules for Multi-Task
Learning [11.260650180067278]
タスク共通スキルとタスク特化スキルを組み合わせた,新しいアプローチを提案する。
スキル割り当て行列を共同で学習する。
以上の結果から, C-Polyは, 完全共有, タスク特化, スキル非差別性ベースラインよりも優れていた。
論文 参考訳(メタデータ) (2023-12-06T02:47:56Z) - Saliency-Regularized Deep Multi-Task Learning [7.3810864598379755]
マルチタスク学習は、知識を共有するために複数の学習タスクを強制し、一般化能力を改善する。
現代のディープマルチタスク学習は、潜在機能とタスク共有を共同で学習することができるが、それらはタスク関係において不明瞭である。
本稿では,潜在的特徴と明示的な課題関係を共同で学習するマルチタスク学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-03T20:26:44Z) - An Evolutionary Approach to Dynamic Introduction of Tasks in Large-scale
Multitask Learning Systems [4.675744559395732]
マルチタスク学習は、複数のタスクから学習できるモデルが知識伝達によってより良い品質と効率を達成すると仮定する。
最先端のMLモデルは、タスクごとに高いカスタマイズに依存し、タスクの数をスケールするのではなく、サイズとデータスケールを活用する。
本稿では,大規模マルチタスクモデルを生成でき,新しいタスクの動的かつ連続的な追加を支援する進化的手法を提案する。
論文 参考訳(メタデータ) (2022-05-25T13:10:47Z) - Sparsely Activated Mixture-of-Experts are Robust Multi-Task Learners [67.5865966762559]
本研究では,Mixture-of-Experts (MoE) がマルチタスク学習を改善するかを検討した。
タスク認識ゲーティング関数を考案し、異なるタスクから専門の専門家にサンプルをルーティングする。
これにより、多数のパラメータを持つ疎活性化マルチタスクモデルが得られるが、高密度モデルの計算コストは同じである。
論文 参考訳(メタデータ) (2022-04-16T00:56:12Z) - Task Adaptive Parameter Sharing for Multi-Task Learning [114.80350786535952]
Adaptive Task Adapting Sharing(TAPS)は、階層の小さなタスク固有のサブセットを適応的に修正することで、ベースモデルを新しいタスクにチューニングする手法である。
他の手法と比較して、TAPSはダウンストリームタスクに対して高い精度を維持し、タスク固有のパラメータは少ない。
我々は,タスクやアーキテクチャ(ResNet,DenseNet,ViT)を微調整して評価し,実装が簡単でありながら最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2022-03-30T23:16:07Z) - One Model, Multiple Tasks: Pathways for Natural Language Understanding [34.58880663537492]
本稿では,複数のタスクを同時に処理するためのPathwaysアプローチを提案する。
個々のタスクに過度に特化し、新しいタスクに拡張された時にスクラッチから学習する一般的な単一目的モデルとは異なり、我々のアプローチは既存のスキルを縫い合わせ、新しいタスクをより効果的に学習する能力で汎用的である。
論文 参考訳(メタデータ) (2022-03-07T11:48:09Z) - Multi-Task Learning with Sequence-Conditioned Transporter Networks [67.57293592529517]
シーケンスコンディショニングと重み付きサンプリングのレンズによるマルチタスク学習の実現を目指している。
合成タスクを対象とした新しいベンチマークであるMultiRavensを提案する。
次に,視覚に基づくエンドツーエンドシステムアーキテクチャであるSequence-Conditioned Transporter Networksを提案する。
論文 参考訳(メタデータ) (2021-09-15T21:19:11Z) - Reparameterizing Convolutions for Incremental Multi-Task Learning
without Task Interference [75.95287293847697]
マルチタスクモデルを開発する際の2つの一般的な課題は、しばしば文献で見過ごされる。
まず、モデルを本質的に漸進的に可能にし、以前に学んだことを忘れずに新しいタスクから情報を継続的に取り入れる(インクリメンタルラーニング)。
第二に、タスク間の有害な相互作用を排除し、マルチタスク設定(タスク干渉)においてシングルタスクのパフォーマンスを著しく低下させることが示されている。
論文 参考訳(メタデータ) (2020-07-24T14:44:46Z) - Adversarial Continual Learning [99.56738010842301]
本稿では,タスク不変およびタスク特化機能に対する不整合表現を学習するハイブリッド連続学習フレームワークを提案する。
本モデルでは,タスク固有のスキルの忘れを防止するためにアーキテクチャの成長と,共有スキルを維持するための経験的リプレイアプローチを組み合わせる。
論文 参考訳(メタデータ) (2020-03-21T02:08:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。