論文の概要: Data-Efficient Pretraining via Contrastive Self-Supervision
- arxiv url: http://arxiv.org/abs/2010.01061v4
- Date: Thu, 15 Apr 2021 15:16:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 00:30:29.550851
- Title: Data-Efficient Pretraining via Contrastive Self-Supervision
- Title(参考訳): コントラスト的自己スーパービジョンによるデータ効率の高い事前学習
- Authors: Nils Rethmeier and Isabelle Augenstein
- Abstract要約: 本研究では,資源効率向上のための3つの課題に対して評価を行う。
タスク内部の60MBのテキストデータに事前トレーニングされたデータと効率的な自己教師付きコントラストテキストエンコーダを提案する。
提案手法は,RoBERTaの微調整時間の1/5で事前学習と微調整を行いながら,RoBERTaよりも優れていた。
- 参考スコア(独自算出の注目度): 48.255310614527694
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For natural language processing `text-to-text' tasks, the prevailing
approaches heavily rely on pretraining large self-supervised models on
increasingly larger `task-external' data. Transfer learning from high-resource
pretraining works well, but research has focused on settings with very large
data and compute requirements, while the potential of efficient low-resource
learning, without large `task-external' pretraining, remains under-explored. In
this work, we evaluate against three core challenges for resource efficient
learning. Namely, we analyze: (1) pretraining data ($X$) efficiency; (2) zero
to few-shot label ($Y$) efficiency; and (3) long-tail generalization, since
long-tail preservation has been linked to algorithmic fairness and because data
in the tail is limited by definition. To address these challenges, we propose a
data and compute efficient self-supervised, contrastive text encoder,
pretrained on 60MB of `task-internal' text data, and compare it to RoBERTa,
which was pretrained on 160GB of `task-external' text. We find our method
outperforms RoBERTa, while pretraining and fine-tuning in a 1/5th of RoBERTa's
fine-tuning time.
- Abstract(参考訳): 自然言語処理の ‘text-to-text' タスクでは,より大規模な ‘task-external' データに対する,大規模な自己教師型モデルの事前トレーニングに大きく依存する。
高いリソースの事前トレーニングからの転送学習はうまく機能するが、研究は、非常に大きなデータと計算要件を備えた設定にフォーカスしているが、大規模な‘task-external’事前トレーニングを伴わない効率的な低リソース学習の可能性については、未検討のままである。
本研究では,資源効率向上のための3つの課題に対して評価を行う。
すなわち,(1)データの事前学習(X$)効率,(2)ゼロから少数ショットラベル(Y$)効率,(3)ロングテール保存がアルゴリズム的フェアネスと結びついており,テール内のデータが定義によって制限されているため,ロングテール一般化を行う。
これらの課題に対処するため,60MBの「タスク内部」テキストデータで事前学習されたデータと,160GBの「タスク外部」テキストで事前学習されたRoBERTaとの比較を行った。
提案手法は,RoBERTaの微調整時間の1/5で事前学習と微調整を行いながら,RoBERTaよりも優れていた。
関連論文リスト
- Bucket Pre-training is All You Need [9.332544709626875]
大規模言語モデル (LLM) は様々な自然言語処理タスクにおいて例外的な性能を示した。
文書の連結と分割を伴う事前学習のための従来の固定長データ合成戦略は、ノイズを導入し、長距離依存関係をキャプチャするモデルの能力を制限できる。
固定長のパラダイムを超えて,より柔軟で効率的な事前学習手法を提供するマルチポケットデータ合成手法を提案する。
論文 参考訳(メタデータ) (2024-07-10T09:27:23Z) - Efficient Grammatical Error Correction Via Multi-Task Training and
Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。
我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。
トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文 参考訳(メタデータ) (2023-11-20T14:50:12Z) - Efficient Data Learning for Open Information Extraction with Pre-trained Language Models [15.554865537872919]
オープン情報抽出(OpenIE)は自然言語処理の基本的な課題である。
本稿では,OpenIEのタスク形式をT5モデルの事前学習タスク形式に変換する新しいフレームワークであるOK-IEを紹介する。
さらに、モデル出力のシーケンスを制御するためのアンカーの革新的な概念を導入し、モデル収束に対するオーダーペナルティの影響を効果的に排除する。
論文 参考訳(メタデータ) (2023-10-23T15:19:24Z) - Effective Long-Context Scaling of Foundation Models [90.57254298730923]
最大32,768個のトークンの効率的なコンテキストウィンドウをサポートする長文LLMを提示する。
我々のモデルは、ほとんどの通常のタスクにおいて一貫した改善を達成し、Llama 2よりも長いコンテキストタスクを大幅に改善します。
論文 参考訳(メタデータ) (2023-09-27T21:41:49Z) - Curriculum-Based Self-Training Makes Better Few-Shot Learners for
Data-to-Text Generation [56.98033565736974]
テキスト生成の困難さによって決定される並べ替え順序でラベルのないデータを活用するために,カリキュラムベースの自己学習(CBST)を提案する。
提案手法は、微調整およびタスク適応型事前学習法より優れており、データ・テキスト・ジェネレーションのわずかな設定で最先端の性能を実現することができる。
論文 参考訳(メタデータ) (2022-06-06T16:11:58Z) - Knowledge Distillation as Efficient Pre-training: Faster Convergence,
Higher Data-efficiency, and Better Transferability [53.27240222619834]
効率的な事前学習としての知識蒸留は、学習した特徴表現を学習済みモデルから将来の下流タスクのための新しい学生モデルに効率的に転送することを目的としている。
提案手法は,3つの下流タスクにおける教師付き事前学習タスクと,10倍少ないデータと5倍少ない事前学習時間を必要とする9つの下流データセットとを比較検討する。
論文 参考訳(メタデータ) (2022-03-10T06:23:41Z) - Self-training Improves Pre-training for Natural Language Understanding [63.78927366363178]
我々は、半教師付き学習を通じてラベルのないデータを活用する別の方法として、自己学習について研究する。
本稿では,ラベル付きデータからタスク固有のクエリの埋め込みを計算するデータ拡張手法であるSentAugmentを紹介する。
我々のアプローチは、標準的なテキスト分類ベンチマークで最大2.6%の改善を達成し、スケーラブルで効果的な自己学習に繋がる。
論文 参考訳(メタデータ) (2020-10-05T17:52:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。