論文の概要: Downstream Datasets Make Surprisingly Good Pretraining Corpora
- arxiv url: http://arxiv.org/abs/2209.14389v2
- Date: Fri, 26 May 2023 13:46:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 23:58:11.208933
- Title: Downstream Datasets Make Surprisingly Good Pretraining Corpora
- Title(参考訳): 下流のデータセットは驚くほど良い事前学習コーパスを作る
- Authors: Kundan Krishna, Saurabh Garg, Jeffrey P. Bigham, Zachary C. Lipton
- Abstract要約: 本稿では,事前学習と微調整の両方に同じ(下流)トレーニングデータを用いる,自己事前学習に関する大規模研究を紹介する。
ELECTRAモデルとRoBERTaモデルと10の異なる下流分類データセットに対処する実験では,BookWikiコーパスで事前学習を行う自己学習のライバルが標準であることがわかった。
以上の結果から, 事前学習に起因する性能向上は, 主に事前学習対象自体が引き起こすものであり, 外部事前学習データの大量使用に起因しているとは限らないことが示唆された。
- 参考スコア(独自算出の注目度): 39.77171117174906
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For most natural language processing tasks, the dominant practice is to
finetune large pretrained transformer models (e.g., BERT) using smaller
downstream datasets. Despite the success of this approach, it remains unclear
to what extent these gains are attributable to the massive background corpora
employed for pretraining versus to the pretraining objectives themselves. This
paper introduces a large-scale study of self-pretraining, where the same
(downstream) training data is used for both pretraining and finetuning. In
experiments addressing both ELECTRA and RoBERTa models and 10 distinct
downstream classification datasets, we observe that self-pretraining rivals
standard pretraining on the BookWiki corpus (despite using around
$10\times$--$500\times$ less data), outperforming the latter on $7$ and $5$
datasets, respectively. Surprisingly, these task-specific pretrained models
often perform well on other tasks, including the GLUE benchmark. Besides
classification tasks, self-pretraining also provides benefits on structured
output prediction tasks such as span based question answering and commonsense
inference, often providing more than $50\%$ of the performance boosts provided
by pretraining on the BookWiki corpus. Our results hint that in many scenarios,
performance gains attributable to pretraining are driven primarily by the
pretraining objective itself and are not always attributable to the use of
external pretraining data in massive amounts. These findings are especially
relevant in light of concerns about intellectual property and offensive content
in web-scale pretraining data.
- Abstract(参考訳): ほとんどの自然言語処理タスクでは、より小さな下流データセットを使用して、大きな事前訓練されたトランスフォーマーモデル(例えばBERT)を微調整する。
このアプローチの成功にもかかわらず、これらの利益が、事前訓練に使用される巨大な背景コーパスと、事前訓練目的自体にどの程度寄与するかは、まだ不明である。
本稿では,事前学習と微調整の両方に同じ(下流)トレーニングデータを用いる自己訓練の大規模研究を紹介する。
ELECTRAとRoBERTaのモデルと10の異なる下流分類データセットに対処する実験では、BookWikiコーパスで事前トレーニングを行うセルフトレーニングのライバル(約10\times$--500\times$ less data)が、それぞれ7ドルと5ドルのデータセットで比較した。
驚いたことに、これらのタスク固有の事前訓練されたモデルは、GLUEベンチマークを含む他のタスクでよく機能する。
分類タスクの他に、自己事前学習は、スパンベースの質問応答やコモンセンス推論のような構造化された出力予測タスクにも利益をもたらし、しばしばBookWikiコーパスで事前トレーニングによって提供されるパフォーマンス向上の50\%以上を提供する。
以上の結果から, 事前学習に起因する性能向上は, 主に事前学習対象自体が原因であり, 外部事前学習データの大量使用に起因するとは限らないことが示唆された。
これらの知見は,Webスケール事前学習データにおける知的財産権や攻撃的コンテンツに対する懸念から,特に関連性が高い。
関連論文リスト
- Understanding and Mitigating the Label Noise in Pre-training on
Downstream Tasks [91.15120211190519]
本稿では、事前学習データセットにおけるノイズの性質を理解し、下流タスクへの影響を軽減することを目的とする。
雑音の悪影響を軽減するために特徴空間に適応する軽量ブラックボックスチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2023-09-29T06:18:15Z) - When Less is More: Investigating Data Pruning for Pretraining LLMs at
Scale [12.94829977468838]
大量のテキストデータが大きな言語モデルの開発に大きく貢献している。
これまで、データセットを高品質なサブセットまで掘り下げる努力は、ルールベースのフィルタとしてエンコードされた手作りのものに依存してきた。
より広い視点で、事前学習データの品質を測定するために使用できる、スケーラブルなデータ品質の推定を探求します。
論文 参考訳(メタデータ) (2023-09-08T19:34:05Z) - Revisit Few-shot Intent Classification with PLMs: Direct Fine-tuning vs. Continual Pre-training [20.98770732015944]
少量のラベル付きデータのみを使用して、基礎となる意図に基づいて発話を分類するために、深層学習モデルを訓練する。
この課題に対するPLMの過度な適合問題は、予想されるほど深刻ではないため、継続事前学習は必須ではない可能性がある。
限られた利用可能なデータの利用を最大化するために,コンテキスト拡張法を提案し,逐次自己蒸留を利用して性能を向上させる。
論文 参考訳(メタデータ) (2023-06-08T15:26:52Z) - SEPT: Towards Scalable and Efficient Visual Pre-Training [11.345844145289524]
自己教師付き事前トレーニングは、ダウンストリームタスクのパフォーマンスを改善するために大規模なラベルなしデータを活用する大きな可能性を示している。
タスク固有の自己教師型事前学習フレームワークを構築し,対象タスクに類似した分布を持つ未ラベルサンプルの事前学習が,大幅な性能向上をもたらすという単純な仮説に基づいて構築する。
論文 参考訳(メタデータ) (2022-12-11T11:02:11Z) - Improved Fine-tuning by Leveraging Pre-training Data: Theory and
Practice [52.11183787786718]
対象データに事前学習されたモデルを微調整することは、多くのディープラーニングアプリケーションで広く利用されている。
近年の研究では、スクラッチからのトレーニングが、この事前トレーニング戦略に比較して、最終的なパフォーマンスを示すことが実証されている。
本稿では,対象タスクの一般化を改善するために,事前学習データからサブセットを選択する新しい選択戦略を提案する。
論文 参考訳(メタデータ) (2021-11-24T06:18:32Z) - On the Transferability of Pre-trained Language Models: A Study from
Artificial Datasets [74.11825654535895]
大規模未ラベルテキストデータ上での事前学習言語モデル(LM)により、ダウンストリームのパフォーマンスが極めて容易になる。
我々は,事前学習データに含まれる特定の特徴について,セマンティクス以外では,下流タスクのスクラッチからトレーニングしたデータよりも,事前学習したLMを優れているか検討した。
論文 参考訳(メタデータ) (2021-09-08T10:39:57Z) - Efficient Conditional Pre-training for Transfer Learning [71.01129334495553]
本稿では,事前学習データセットから関連するサブセットを選択するための効率的なフィルタリング手法を提案する。
我々は、教師なし設定と教師なし設定の両方において、ImageNetで事前トレーニングを行うことで、我々の技術を検証する。
我々は、サブセットで利用可能なモデルをチューニングし、大規模なデータセットからフィルタリングされたデータセットで事前トレーニングすることで、標準のImageNet事前トレーニングを1~3%改善する。
論文 参考訳(メタデータ) (2020-11-20T06:16:15Z) - Rethinking Pre-training and Self-training [105.27954735761678]
我々は、同じ設定で追加データを利用する別の方法として自己学習を調査し、ImageNet事前学習と対比する。
本研究は, 自己学習の汎用性と柔軟性について, 3つの考察を加えて明らかにした。
例えば、COCOオブジェクト検出データセットでは、ラベル付きデータの5分の1を使用すると事前トレーニングのメリットがあり、ラベル付きデータのすべてを使用すると精度が低下します。
論文 参考訳(メタデータ) (2020-06-11T23:59:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。