論文の概要: Muppet: Massive Multi-task Representations with Pre-Finetuning
- arxiv url: http://arxiv.org/abs/2101.11038v1
- Date: Tue, 26 Jan 2021 19:18:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-14 05:06:45.580183
- Title: Muppet: Massive Multi-task Representations with Pre-Finetuning
- Title(参考訳): Muppet: 事前ネットワークによる大規模マルチタスク表現
- Authors: Armen Aghajanyan, Anchit Gupta, Akshat Shrivastava, Xilun Chen, Luke
Zettlemoyer, Sonal Gupta
- Abstract要約: 事前調整は、事前訓練された判別器および生成モデルのパフォーマンスを一貫して改善することを示す。
我々はまた、大規模なマルチタスクが重要であることも示しています。事前調整は、重要なポイントまでタスクがほとんど使用されない場合にパフォーマンスを損なう可能性があります。
- 参考スコア(独自算出の注目度): 43.9101576877044
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose pre-finetuning, an additional large-scale learning stage between
language model pre-training and fine-tuning. Pre-finetuning is massively
multi-task learning (around 50 datasets, over 4.8 million total labeled
examples), and is designed to encourage learning of representations that
generalize better to many different tasks. We show that pre-finetuning
consistently improves performance for pretrained discriminators (e.g.~RoBERTa)
and generation models (e.g.~BART) on a wide range of tasks (sentence
prediction, commonsense reasoning, MRC, etc.), while also significantly
improving sample efficiency during fine-tuning. We also show that large-scale
multi-tasking is crucial; pre-finetuning can hurt performance when few tasks
are used up until a critical point (usually above 15) after which performance
improves linearly in the number of tasks.
- Abstract(参考訳): 本稿では,言語モデルの事前学習と微調整の間の大規模学習ステージであるpre-finetuningを提案する。
事前調整は、大量のマルチタスク学習(約50のデータセット、合計480万のラベル付きサンプル)であり、多くの異なるタスクに一般化する表現の学習を促進するように設計されている。
事前精細化は,事前学習された判別器(例:roberta)と生成モデル(例:bart)の性能を,幅広いタスク(sentence prediction, commonsense reasoning, mrcなど)において一貫して向上させる。
また,微調整時の試料効率も有意に向上した。
また,大規模マルチタスクが重要であり,タスク数において性能が線形に向上する臨界点(通常15以上)までタスクがほとんど使用されない場合,プレファクチュニングがパフォーマンスを損なう可能性があることを示す。
関連論文リスト
- Context-Aware Multimodal Pretraining [72.04020920042574]
視覚言語モデルをトレーニングすることで,数ショット適応を著しく向上させることができることを示す。
テストタイムのサンプル効率は最大で4倍改善され、平均的な数ショット適応率は5%以上向上した。
論文 参考訳(メタデータ) (2024-11-22T17:55:39Z) - Amuro & Char: Analyzing the Relationship between Pre-Training and Fine-Tuning of Large Language Models [17.288865972774587]
本研究では,複数の中間学習モデルチェックポイントの微調整による事前学習と微調整の関係について検討する。
18のデータセットで得られた結果は、事前学習が微調整後に発表される潜在的な方法でモデルを改善することを示唆している。
論文 参考訳(メタデータ) (2024-08-13T06:28:43Z) - LEVI: Generalizable Fine-tuning via Layer-wise Ensemble of Different Views [28.081794908107604]
ファインチューニングは、新しい下流タスクで事前訓練された基礎モデルのパワーを活用するために使用される。
近年の研究では、微調整されたモデルから目に見えない分布への一般化の課題が観察されている。
そこで本研究では,タスク固有モデルを用いて,事前学習したモデルを階層的に適応的に組み立てる,一般化可能なファインチューニング手法LEVIを提案する。
論文 参考訳(メタデータ) (2024-02-07T08:16:40Z) - Efficient Grammatical Error Correction Via Multi-Task Training and
Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。
我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。
トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文 参考訳(メタデータ) (2023-11-20T14:50:12Z) - Instruction Tuned Models are Quick Learners [20.771930945083994]
そこで本研究では,各種タスクにおける指導調律モデルのサンプル効率について述べる。
STL設定では、下流列車データの25%を備えた指導調律モデルが下流タスクのSOTA性能を上回っている。
MTL設定では、下流のトレーニングデータの6%しか訓練されていない指導調律モデルがSOTAを達成する一方で、100%のトレーニングデータを使用することで3.69%の改善が達成される。
論文 参考訳(メタデータ) (2023-05-17T22:30:01Z) - Two-stage LLM Fine-tuning with Less Specialization and More
Generalization [93.12197594813378]
本稿では,Model Tuning (ProMoT) を用いた Prompt Tuning を提案する。
ProMoTは、タスク固有のフォーマット学習を、最初はプロンプトチューニングを行い、次にこのソフトプロンプトでモデル自体を微調整することで、追加的で取り外し可能なパラメータにオフロードする。
ProMoTは、微調整タスクと意味的に関連するコンテキスト内学習タスクの一般化を強化することもできる。
論文 参考訳(メタデータ) (2022-11-01T17:56:57Z) - Multi-Stage Influence Function [97.19210942277354]
我々は、事前学習データまで遡って、微調整されたモデルから予測を追跡するための多段階影響関数スコアを開発する。
本研究は,2つのシナリオについて検討し,事前訓練した埋め込みを微調整タスクで固定または更新する。
論文 参考訳(メタデータ) (2020-07-17T16:03:11Z) - Fine-Tuning Pretrained Language Models: Weight Initializations, Data
Orders, and Early Stopping [62.78338049381917]
教師付き下流タスクのための微調整済み文脈単語埋め込みモデルは、自然言語処理において一般的なものとなっている。
GLUEベンチマークから得られた4つのデータセットを実験し、無作為な種だけを変えながら、それぞれに数百回微調整されたBERTを実験した。
これまでに報告した結果と比較すると,性能が大幅に向上し,微調整試行回数の関数としてベストファウンドモデルの性能がどう変化するかが定量化される。
論文 参考訳(メタデータ) (2020-02-15T02:40:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。