論文の概要: ExT5: Towards Extreme Multi-Task Scaling for Transfer Learning
- arxiv url: http://arxiv.org/abs/2111.10952v1
- Date: Mon, 22 Nov 2021 02:34:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-24 03:14:43.531853
- Title: ExT5: Towards Extreme Multi-Task Scaling for Transfer Learning
- Title(参考訳): ExT5:トランスファー学習のための超多タスクスケーリングを目指す
- Authors: Vamsi Aribandi, Yi Tay, Tal Schuster, Jinfeng Rao, Huaixiu Steven
Zheng, Sanket Vaibhav Mehta, Honglei Zhuang, Vinh Q. Tran, Dara Bahri, Jianmo
Ni, Jai Gupta, Kai Hui, Sebastian Ruder, Donald Metzler
- Abstract要約: 本稿では,多様なドメインやタスクファミリにまたがる107個の教師付きNLPタスクの大規模なコレクションであるExMixを紹介する。
ExMixを用いて,これまでで最大規模のマルチタスク事前学習の効果を調べた。
本稿では,ExMix の自己教師型スパンのマルチタスク目標を用いた事前学習モデル ExT5 を提案する。
- 参考スコア(独自算出の注目度): 56.54359715403561
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the recent success of multi-task learning and transfer learning for
natural language processing (NLP), few works have systematically studied the
effect of scaling up the number of tasks during pre-training. Towards this
goal, this paper introduces ExMix (Extreme Mixture): a massive collection of
107 supervised NLP tasks across diverse domains and task-families. Using ExMix,
we study the effect of multi-task pre-training at the largest scale to date,
and analyze co-training transfer amongst common families of tasks. Through this
analysis, we show that manually curating an ideal set of tasks for multi-task
pre-training is not straightforward, and that multi-task scaling can vastly
improve models on its own. Finally, we propose ExT5: a model pre-trained using
a multi-task objective of self-supervised span denoising and supervised ExMix.
Via extensive experiments, we show that ExT5 outperforms strong T5 baselines on
SuperGLUE, GEM, Rainbow, Closed-Book QA tasks, and several tasks outside of
ExMix. ExT5 also significantly improves sample efficiency while pre-training.
- Abstract(参考訳): 近年、自然言語処理(NLP)におけるマルチタスク学習と伝達学習の成功にもかかわらず、事前学習中のタスク数をスケールアップする効果を体系的に研究する研究は少ない。
そこで本稿では,様々なドメインやタスクファミリにまたがる107個のnlpタスクの膨大なコレクションであるexmix(extreme mixed)を紹介する。
exmixを用いて,これまでで最大のスケールでマルチタスク事前トレーニングが与えた影響について検討し,共通のタスクファミリー間でのコトレーニング転送の分析を行った。
この分析により、マルチタスク事前学習のための理想的なタスクセットを手動でキュレートすることは簡単ではなく、マルチタスクスケーリングは独自のモデルを大幅に改善できることを示す。
最後に,ExMix の自己教師型スパンのマルチタスク目標を用いた事前学習モデル ExT5 を提案する。
広範な実験の結果,ExT5はSuperGLUE, GEM, Rainbow, Closed-Book QAタスク, ExMix以外のタスクにおいて,強力なT5ベースラインを上回っていることがわかった。
ExT5はまた、事前トレーニング中にサンプル効率を大幅に改善する。
関連論文リスト
- VMT-Adapter: Parameter-Efficient Transfer Learning for Multi-Task Dense
Scene Understanding [6.816428690763012]
大規模な事前訓練モデルを活用するための標準的なアプローチは、下流タスクのすべてのモデルパラメータを微調整することである。
本稿では,複数のタスクから知識を共有するVMT-Adapterを提案する。
また、ダウンプロジェクションとアッププロジェクションの間で共有パラメータを学習することで、トレーニング可能なパラメータをさらに削減するVMT-Adapter-Liteを提案する。
論文 参考訳(メタデータ) (2023-12-14T08:25:04Z) - DynaPipe: Optimizing Multi-task Training through Dynamic Pipelines [15.332562681746081]
本稿では,シーケンス長の変動に対処し,マルチタスクモデルの効率的なトレーニングを実現するための動的マイクロバッチ手法を提案する。
動的プログラミングを用いたマイクロバッチ構築を最適化し、動的パイプラインと通信スケジューリングによるマイクロバッチ実行時間変動を処理する。
論文 参考訳(メタデータ) (2023-11-17T09:48:45Z) - Task Compass: Scaling Multi-task Pre-training with Task Prefix [122.49242976184617]
既存の研究では、大規模教師付きタスクによるマルチタスク学習がタスク間の負の効果に悩まされていることが示されている。
タスク間の関係を探索するために,タスクプレフィックスガイド付きマルチタスク事前学習フレームワークを提案する。
我々のモデルは、幅広いタスクの強力な基盤バックボーンとして機能するだけでなく、タスク関係を分析するための探索ツールとしても実現可能である。
論文 参考訳(メタデータ) (2022-10-12T15:02:04Z) - Effective Adaptation in Multi-Task Co-Training for Unified Autonomous
Driving [103.745551954983]
本稿では,3つの下流タスクにおけるMoCoやSimCLRなど,多種多様な自己監督手法の転送性能について検討する。
彼らのパフォーマンスは、サブ最適か、あるいはシングルタスクベースラインよりもはるかに遅れていることに気付きました。
汎用マルチタスクトレーニングのための,単純かつ効果的な事前訓練-適応-ファインチューンパラダイムを提案する。
論文 参考訳(メタデータ) (2022-09-19T12:15:31Z) - Sparsely Activated Mixture-of-Experts are Robust Multi-Task Learners [67.5865966762559]
本研究では,Mixture-of-Experts (MoE) がマルチタスク学習を改善するかを検討した。
タスク認識ゲーティング関数を考案し、異なるタスクから専門の専門家にサンプルをルーティングする。
これにより、多数のパラメータを持つ疎活性化マルチタスクモデルが得られるが、高密度モデルの計算コストは同じである。
論文 参考訳(メタデータ) (2022-04-16T00:56:12Z) - Multi-Task Learning with Sequence-Conditioned Transporter Networks [67.57293592529517]
シーケンスコンディショニングと重み付きサンプリングのレンズによるマルチタスク学習の実現を目指している。
合成タスクを対象とした新しいベンチマークであるMultiRavensを提案する。
次に,視覚に基づくエンドツーエンドシステムアーキテクチャであるSequence-Conditioned Transporter Networksを提案する。
論文 参考訳(メタデータ) (2021-09-15T21:19:11Z) - Understanding and Improving Information Transfer in Multi-Task Learning [14.43111978531182]
すべてのタスクに対して共有モジュール,各タスクに対して別個の出力モジュールを備えたアーキテクチャについて検討する。
タスクデータ間の不一致が負の転送(または性能の低下)を引き起こし、ポジティブな転送に十分な条件を提供することを示す。
理論的洞察から着想を得た結果,タスクの埋め込みレイヤの整合がマルチタスクトレーニングやトランスファー学習のパフォーマンス向上につながることが示された。
論文 参考訳(メタデータ) (2020-05-02T23:43:52Z) - MTI-Net: Multi-Scale Task Interaction Networks for Multi-Task Learning [82.62433731378455]
特定のスケールで高い親和性を持つタスクは、他のスケールでこの動作を維持することが保証されていないことを示す。
本稿では,この発見に基づく新しいアーキテクチャ MTI-Net を提案する。
論文 参考訳(メタデータ) (2020-01-19T21:02:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。