論文の概要: Multitask Prompted Training Enables Zero-Shot Task Generalization
- arxiv url: http://arxiv.org/abs/2110.08207v1
- Date: Fri, 15 Oct 2021 17:08:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-18 13:22:37.184403
- Title: Multitask Prompted Training Enables Zero-Shot Task Generalization
- Title(参考訳): ゼロショットタスクの一般化を可能にするマルチタスクプロンプトトレーニング
- Authors: Victor Sanh, Albert Webson, Colin Raffel, Stephen H. Bach, Lintang
Sutawika, Zaid Alyafeai, Antoine Chaffin, Arnaud Stiegler, Teven Le Scao,
Arun Raja, Manan Dey, M Saiful Bari, Canwen Xu, Urmish Thakker, Shanya Sharma
Sharma, Eliza Szczechla, Taewoon Kim, Gunjan Chhablani, Nihal Nayak,
Debajyoti Datta, Jonathan Chang, Mike Tian-Jian Jiang, Han Wang, Matteo
Manica, Sheng Shen, Zheng Xin Yong, Harshit Pandey, Rachel Bawden, Thomas
Wang, Trishala Neeraj, Jos Rozen, Abheesht Sharma, Andrea Santilli, Thibault
Fevry, Jason Alan Fries, Ryan Teehan, Stella Biderman, Leo Gao, Tali Bers,
Thomas Wolf, Alexander M. Rush
- Abstract要約: 本研究では,一般的な自然言語タスクを人間に読まれる入力形式にマッピングするシステムを開発した。
様々なタスクをカバーしたマルチタスクミックス上に,事前学習したエンコーダ・デコーダモデルを微調整する。
このモデルは、いくつかの標準データセット上で強力なゼロショット性能を達成し、しばしば16倍のサイズのモデルより優れている。
- 参考スコア(独自算出の注目度): 70.12770442071657
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models have recently been shown to attain reasonable zero-shot
generalization on a diverse set of tasks. It has been hypothesized that this is
a consequence of implicit multitask learning in language model training. Can
zero-shot generalization instead be directly induced by explicit multitask
learning? To test this question at scale, we develop a system for easily
mapping general natural language tasks into a human-readable prompted form. We
convert a large set of supervised datasets, each with multiple prompts using
varying natural language. These prompted datasets allow for benchmarking the
ability of a model to perform completely unseen tasks specified in natural
language. We fine-tune a pretrained encoder-decoder model on this multitask
mixture covering a wide variety of tasks. The model attains strong zero-shot
performance on several standard datasets, often outperforming models 16x its
size. Further, our approach attains strong performance on a subset of tasks
from the BIG-Bench benchmark, outperforming models 6x its size. All prompts and
trained models are available at github.com/bigscience-workshop/promptsource/.
- Abstract(参考訳): 大規模言語モデルは最近、様々なタスクで合理的なゼロショット一般化を達成することが示されている。
これは言語モデルトレーニングにおける暗黙のマルチタスク学習の結果であると考えられている。
ゼロショット一般化は明示的なマルチタスク学習によって直接誘導できるのか?
この質問を大規模に検証するために,汎用自然言語タスクを人間に読み取れる入力形式に容易にマッピングするシステムを開発した。
我々は、様々な自然言語を用いて複数のプロンプトを持つ教師付きデータセットの集合を変換する。
これらのトリガーデータセットは、自然言語で指定された完全に見えないタスクをモデルが実行する能力のベンチマークを可能にする。
プリトレーニングエンコーダ-デコーダモデルを,多種多様なタスクをカバーするマルチタスク混合上で微調整する。
このモデルは、いくつかの標準データセットで強力なゼロショット性能を達成し、しばしばモデルのサイズを16倍に上回っている。
さらに,本手法はBIG-Benchベンチマークのタスクのサブセットに対して高い性能を達成し,モデルのサイズを6倍に向上させる。
全てのプロンプトと訓練されたモデルはgithub.com/bigscience-workshop/promptsource/で入手できる。
関連論文リスト
- SpeechVerse: A Large-scale Generalizable Audio Language Model [38.67969337605572]
SpeechVerseは堅牢なマルチタスクトレーニングおよびカリキュラム学習フレームワークである。
学習可能なパラメータの小さなセットを通じて、事前訓練された音声とテキスト基礎モデルを組み合わせる。
実験により、我々のマルチタスクSpeechVerseモデルは、従来のタスク固有のベースラインよりも11タスク中9タスクの方が優れていることが判明した。
論文 参考訳(メタデータ) (2024-05-14T03:33:31Z) - UniverSLU: Universal Spoken Language Understanding for Diverse Tasks with Natural Language Instructions [64.50935101415776]
我々は,様々な音声言語理解(SLU)タスクを共同で行う単一モデルを構築した。
我々は17のデータセットと9の言語にまたがる12の音声分類とシーケンス生成タスクタイプに対して,1つのマルチタスク学習モデル"UniverSLU"の有効性を実証した。
論文 参考訳(メタデータ) (2023-10-04T17:10:23Z) - Crosslingual Generalization through Multitask Finetuning [80.8822603322471]
マルチタスク誘導ファインタニング(MTF)は、大きな言語モデルがゼロショット設定で新しいタスクに一般化するのに役立つことが示されている。
MTFを事前訓練された多言語BLOOMおよびmT5モデルファミリーに適用し、BLOOMZおよびmT0と呼ばれる微調整された変種を生成する。
英語のプロンプトを用いた英語タスクにおける多言語多言語モデルの微調整により、非英語言語へのタスク一般化が可能となる。
論文 参考訳(メタデータ) (2022-11-03T13:19:32Z) - Zemi: Learning Zero-Shot Semi-Parametric Language Models from Multiple
Tasks [77.90900650816046]
ゼロショットセミパラメトリック言語モデルである$textZemi$を紹介します。
私たちは、新しいセミパラメトリックマルチタスクによるトレーニングパラダイムで、textZemi$をトレーニングします。
具体的には、大規模タスクに依存しない未ラベルコーパスからの検索により、マルチタスクトレーニングとゼロショット評価を強化する。
論文 参考訳(メタデータ) (2022-10-01T04:08:50Z) - Multi Task Learning For Zero Shot Performance Prediction of Multilingual
Models [12.759281077118567]
多言語トランスフォーマーに基づく言語モデルは、言語間のゼロショット転送において驚くほど効果的であることが観察されている。
我々は,タスク上のゼロショット性能をマルチタスク学習問題としてモデル化することにより,タスク上のゼロショット性能を予測するための既存の手法を構築した。
論文 参考訳(メタデータ) (2022-05-12T14:47:03Z) - XtremeDistilTransformers: Task Transfer for Task-agnostic Distillation [80.18830380517753]
我々は新しいタスク非依存蒸留フレームワーク XtremeDistilTransformers を開発した。
本研究は, 蒸留における複数のソースタスク, 拡張資源, モデルアーキテクチャの伝達可能性について検討する。
論文 参考訳(メタデータ) (2021-06-08T17:49:33Z) - Exploring Versatile Generative Language Model Via Parameter-Efficient
Transfer Learning [70.81910984985683]
本稿では,1つの大規模事前学習モデルを用いて,複数のダウンストリーム生成タスクを同時に微調整する効果的な方法を提案する。
5つの多様な言語生成タスクの実験は、各タスクに2-3%のパラメータを追加するだけで、モデル全体の微調整性能を維持または改善できることを示している。
論文 参考訳(メタデータ) (2020-04-08T06:18:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。