論文の概要: ExT5: Towards Extreme Multi-Task Scaling for Transfer Learning
- arxiv url: http://arxiv.org/abs/2111.10952v1
- Date: Mon, 22 Nov 2021 02:34:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-24 03:14:43.531853
- Title: ExT5: Towards Extreme Multi-Task Scaling for Transfer Learning
- Title(参考訳): ExT5:トランスファー学習のための超多タスクスケーリングを目指す
- Authors: Vamsi Aribandi, Yi Tay, Tal Schuster, Jinfeng Rao, Huaixiu Steven
Zheng, Sanket Vaibhav Mehta, Honglei Zhuang, Vinh Q. Tran, Dara Bahri, Jianmo
Ni, Jai Gupta, Kai Hui, Sebastian Ruder, Donald Metzler
- Abstract要約: 本稿では,多様なドメインやタスクファミリにまたがる107個の教師付きNLPタスクの大規模なコレクションであるExMixを紹介する。
ExMixを用いて,これまでで最大規模のマルチタスク事前学習の効果を調べた。
本稿では,ExMix の自己教師型スパンのマルチタスク目標を用いた事前学習モデル ExT5 を提案する。
- 参考スコア(独自算出の注目度): 56.54359715403561
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the recent success of multi-task learning and transfer learning for
natural language processing (NLP), few works have systematically studied the
effect of scaling up the number of tasks during pre-training. Towards this
goal, this paper introduces ExMix (Extreme Mixture): a massive collection of
107 supervised NLP tasks across diverse domains and task-families. Using ExMix,
we study the effect of multi-task pre-training at the largest scale to date,
and analyze co-training transfer amongst common families of tasks. Through this
analysis, we show that manually curating an ideal set of tasks for multi-task
pre-training is not straightforward, and that multi-task scaling can vastly
improve models on its own. Finally, we propose ExT5: a model pre-trained using
a multi-task objective of self-supervised span denoising and supervised ExMix.
Via extensive experiments, we show that ExT5 outperforms strong T5 baselines on
SuperGLUE, GEM, Rainbow, Closed-Book QA tasks, and several tasks outside of
ExMix. ExT5 also significantly improves sample efficiency while pre-training.
- Abstract(参考訳): 近年、自然言語処理(NLP)におけるマルチタスク学習と伝達学習の成功にもかかわらず、事前学習中のタスク数をスケールアップする効果を体系的に研究する研究は少ない。
そこで本稿では,様々なドメインやタスクファミリにまたがる107個のnlpタスクの膨大なコレクションであるexmix(extreme mixed)を紹介する。
exmixを用いて,これまでで最大のスケールでマルチタスク事前トレーニングが与えた影響について検討し,共通のタスクファミリー間でのコトレーニング転送の分析を行った。
この分析により、マルチタスク事前学習のための理想的なタスクセットを手動でキュレートすることは簡単ではなく、マルチタスクスケーリングは独自のモデルを大幅に改善できることを示す。
最後に,ExMix の自己教師型スパンのマルチタスク目標を用いた事前学習モデル ExT5 を提案する。
広範な実験の結果,ExT5はSuperGLUE, GEM, Rainbow, Closed-Book QAタスク, ExMix以外のタスクにおいて,強力なT5ベースラインを上回っていることがわかった。
ExT5はまた、事前トレーニング中にサンプル効率を大幅に改善する。
関連論文リスト
- Instruction Pre-Training: Language Models are Supervised Multitask Learners [115.95022434390181]
本稿では,事前学習言語モデル(LM)に対して,命令応答対を用いた大規模生コーパスを付加するフレームワークを提案する。
実験では,40以上のタスクカテゴリをカバーする2億の命令応答ペアを合成し,インストラクション事前学習の有効性を検証する。
論文 参考訳(メタデータ) (2024-06-20T16:55:33Z) - Multi-Stage Multi-Modal Pre-Training for Automatic Speech Recognition [10.36399200974439]
本稿では,マルチモーダルとマルチタスクによる教師なし事前学習と,翻訳に基づく教師付き中間学習を併用した新しい手法を提案する。
このような多段階的なアプローチが,Librispeech と SUPERB のベースラインを最大38.45%上回る相対単語誤り率 (WER) の向上につながることを実証的に実証した。
論文 参考訳(メタデータ) (2024-03-28T20:23:39Z) - Cross-Task Affinity Learning for Multitask Dense Scene Predictions [5.939164722752263]
マルチタスク学習(MTL)は,複数のタスクを同時に予測する能力で注目されている。
マルチタスクネットワークにおけるタスク改善を強化する軽量フレームワークであるクロスタスク親和性学習(CTAL)モジュールを紹介する。
以上の結果から,CNNとトランスフォーマーの両バックボーンに対して,シングルタスク学習よりもはるかに少ないパラメータを用いて,最先端のMTL性能を実証した。
論文 参考訳(メタデータ) (2024-01-20T05:31:47Z) - DynaPipe: Optimizing Multi-task Training through Dynamic Pipelines [15.332562681746081]
本稿では,シーケンス長の変動に対処し,マルチタスクモデルの効率的なトレーニングを実現するための動的マイクロバッチ手法を提案する。
動的プログラミングを用いたマイクロバッチ構築を最適化し、動的パイプラインと通信スケジューリングによるマイクロバッチ実行時間変動を処理する。
論文 参考訳(メタデータ) (2023-11-17T09:48:45Z) - Task Compass: Scaling Multi-task Pre-training with Task Prefix [122.49242976184617]
既存の研究では、大規模教師付きタスクによるマルチタスク学習がタスク間の負の効果に悩まされていることが示されている。
タスク間の関係を探索するために,タスクプレフィックスガイド付きマルチタスク事前学習フレームワークを提案する。
我々のモデルは、幅広いタスクの強力な基盤バックボーンとして機能するだけでなく、タスク関係を分析するための探索ツールとしても実現可能である。
論文 参考訳(メタデータ) (2022-10-12T15:02:04Z) - Sparsely Activated Mixture-of-Experts are Robust Multi-Task Learners [67.5865966762559]
本研究では,Mixture-of-Experts (MoE) がマルチタスク学習を改善するかを検討した。
タスク認識ゲーティング関数を考案し、異なるタスクから専門の専門家にサンプルをルーティングする。
これにより、多数のパラメータを持つ疎活性化マルチタスクモデルが得られるが、高密度モデルの計算コストは同じである。
論文 参考訳(メタデータ) (2022-04-16T00:56:12Z) - Multi-Task Learning with Sequence-Conditioned Transporter Networks [67.57293592529517]
シーケンスコンディショニングと重み付きサンプリングのレンズによるマルチタスク学習の実現を目指している。
合成タスクを対象とした新しいベンチマークであるMultiRavensを提案する。
次に,視覚に基づくエンドツーエンドシステムアーキテクチャであるSequence-Conditioned Transporter Networksを提案する。
論文 参考訳(メタデータ) (2021-09-15T21:19:11Z) - Understanding and Improving Information Transfer in Multi-Task Learning [14.43111978531182]
すべてのタスクに対して共有モジュール,各タスクに対して別個の出力モジュールを備えたアーキテクチャについて検討する。
タスクデータ間の不一致が負の転送(または性能の低下)を引き起こし、ポジティブな転送に十分な条件を提供することを示す。
理論的洞察から着想を得た結果,タスクの埋め込みレイヤの整合がマルチタスクトレーニングやトランスファー学習のパフォーマンス向上につながることが示された。
論文 参考訳(メタデータ) (2020-05-02T23:43:52Z) - MTI-Net: Multi-Scale Task Interaction Networks for Multi-Task Learning [82.62433731378455]
特定のスケールで高い親和性を持つタスクは、他のスケールでこの動作を維持することが保証されていないことを示す。
本稿では,この発見に基づく新しいアーキテクチャ MTI-Net を提案する。
論文 参考訳(メタデータ) (2020-01-19T21:02:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。