論文の概要: Train No Evil: Selective Masking for Task-Guided Pre-Training
- arxiv url: http://arxiv.org/abs/2004.09733v2
- Date: Wed, 7 Oct 2020 09:47:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-11 06:48:18.159997
- Title: Train No Evil: Selective Masking for Task-Guided Pre-Training
- Title(参考訳): Train No Evil: タスクガイドによる事前トレーニングのための選択型マスキング
- Authors: Yuxian Gu, Zhengyan Zhang, Xiaozhi Wang, Zhiyuan Liu, Maosong Sun
- Abstract要約: 一般的な事前学習と微調整の間を選択的にマスキングするタスク誘導事前学習段階を付加した3段階のフレームワークを提案する。
提案手法は,50%未満のコストで同等あるいはさらに優れた性能が得られることを示す。
- 参考スコア(独自算出の注目度): 97.03615486457065
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, pre-trained language models mostly follow the
pre-train-then-fine-tuning paradigm and have achieved great performance on
various downstream tasks. However, since the pre-training stage is typically
task-agnostic and the fine-tuning stage usually suffers from insufficient
supervised data, the models cannot always well capture the domain-specific and
task-specific patterns. In this paper, we propose a three-stage framework by
adding a task-guided pre-training stage with selective masking between general
pre-training and fine-tuning. In this stage, the model is trained by masked
language modeling on in-domain unsupervised data to learn domain-specific
patterns and we propose a novel selective masking strategy to learn
task-specific patterns. Specifically, we design a method to measure the
importance of each token in sequences and selectively mask the important
tokens. Experimental results on two sentiment analysis tasks show that our
method can achieve comparable or even better performance with less than 50% of
computation cost, which indicates our method is both effective and efficient.
The source code of this paper can be obtained from
https://github.com/thunlp/SelectiveMasking.
- Abstract(参考訳): 近年、訓練済み言語モデルは、主に訓練前の微調整パラダイムに従っており、様々な下流タスクにおいて優れた性能を発揮している。
しかしながら、事前学習段階は通常タスク非依存であり、微調整段階は通常教師付きデータ不足に苦しむため、モデルは常にドメイン固有およびタスク固有のパターンをキャプチャできない。
本稿では,一般的なプレトレーニングと微調整の間を選択的にマスキングするタスク誘導前トレーニングステージを付加した3段階フレームワークを提案する。
この段階では、ドメイン内の教師なしデータにマスキング言語モデルを用いてドメイン固有のパターンを学習し、タスク固有のパターンを学習するための新しい選択的マスキング戦略を提案する。
具体的には,各トークンのシーケンスにおける重要性を測定し,重要なトークンを選択的にマスキングする手法を設計する。
2つの感情分析タスクの実験結果から,提案手法は計算コストの50%未満で同等あるいはさらに優れた性能を達成可能であることが示され,本手法が効率的かつ効果的であることが示唆された。
本論文のソースコードはhttps://github.com/thunlp/SelectiveMaskingから取得できる。
関連論文リスト
- Hybrid diffusion models: combining supervised and generative pretraining for label-efficient fine-tuning of segmentation models [55.2480439325792]
そこで本研究では,第1領域における画像のデノベーションとマスク予測を同時に行うことを目的とした,新しいプレテキストタスクを提案する。
提案手法を用いて事前学習したモデルを微調整すると、教師なしまたは教師なしの事前学習を用いて訓練した類似モデルの微調整よりも優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2024-08-06T20:19:06Z) - Exploring Transferability for Randomized Smoothing [37.60675615521106]
本稿では,頑健なモデルを事前学習する手法を提案する。
クリーンな画像のみを微調整しても、驚くほど強力な認証精度が得られます。
論文 参考訳(メタデータ) (2023-12-14T15:08:27Z) - Self-Distillation for Further Pre-training of Transformers [83.84227016847096]
我々は、さらなる事前学習段階の正則化として自己蒸留を提案する。
画像およびテキスト分類タスクのための様々なベンチマークデータセットにおける自己蒸留の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2022-09-30T02:25:12Z) - Masking as an Efficient Alternative to Finetuning for Pretrained
Language Models [49.64561153284428]
我々は、微調整によって修正する代わりに、事前訓練された重量に対する選択的な二乗マスクを学習する。
内在的評価では、マスキング言語モデルによって計算された表現が、下流タスクの解決に必要な情報を符号化していることを示す。
論文 参考訳(メタデータ) (2020-04-26T15:03:47Z) - Don't Stop Pretraining: Adapt Language Models to Domains and Tasks [81.99843216550306]
バイオメディカルおよびコンピュータサイエンスの出版物、ニュース、レビュー)と8つの分類タスクについて調査する。
ドメイン内の事前トレーニング(ドメイン適応型事前トレーニング)の第2フェーズでは、パフォーマンスが向上する。
タスクの未ラベルデータ(タスク適応事前トレーニング)に適応することで、ドメイン適応事前トレーニング後のパフォーマンスが向上する。
論文 参考訳(メタデータ) (2020-04-23T04:21:19Z) - Pre-training Text Representations as Meta Learning [113.3361289756749]
本稿では,下流タスクを効果的に学習するために,モデルがテキスト表現を学習する能力を直接最適化する学習アルゴリズムを提案する。
マルチタスク事前学習とモデル非依存型メタラーニングの間には,一連のメタトレインステップによる本質的な関係があることが示されている。
論文 参考訳(メタデータ) (2020-04-12T09:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。