論文の概要: When Do You Need Billions of Words of Pretraining Data?
- arxiv url: http://arxiv.org/abs/2011.04946v1
- Date: Tue, 10 Nov 2020 07:16:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 07:23:54.221069
- Title: When Do You Need Billions of Words of Pretraining Data?
- Title(参考訳): データの事前学習には何十億もの言葉が必要か?
- Authors: Yian Zhang, Alex Warstadt, Haau-Sing Li, and Samuel R. Bowman
- Abstract要約: トランスフォーマーLMは大規模な事前学習から学習し、少ないデータから学べない。
多くの構文的・意味的特徴を確実に符号化する表現を学習するには,約10万語から1億語程度しか必要としないことがわかった。
- 参考スコア(独自算出の注目度): 23.80748200206869
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: NLP is currently dominated by general-purpose pretrained language models like
RoBERTa, which achieve strong performance on NLU tasks through pretraining on
billions of words. But what exact knowledge or skills do Transformer LMs learn
from large-scale pretraining that they cannot learn from less data? We adopt
four probing methods---classifier probing, information-theoretic probing,
unsupervised relative acceptability judgment, and fine-tuning on NLU
tasks---and draw learning curves that track the growth of these different
measures of linguistic ability with respect to pretraining data volume using
the MiniBERTas, a group of RoBERTa models pretrained on 1M, 10M, 100M and 1B
words. We find that LMs require only about 10M or 100M words to learn
representations that reliably encode most syntactic and semantic features we
test. A much larger quantity of data is needed in order to acquire enough
commonsense knowledge and other skills required to master typical downstream
NLU tasks. The results suggest that, while the ability to encode linguistic
features is almost certainly necessary for language understanding, it is likely
that other forms of knowledge are the major drivers of recent improvements in
language understanding among large pretrained models.
- Abstract(参考訳): 現在、NLPはRoBERTaのような汎用事前学習言語モデルによって支配されており、数十億の単語を事前学習することで、NLUタスクの強力なパフォーマンスを実現している。
しかし、Transformer LMは、より少ないデータから学べない大規模な事前学習から、正確な知識やスキルを学ぶことができるだろうか?
分類法,情報理論的探索,教師なし相対受容性判定,NLUタスクの微調整の4つの手法を採用し,MiniBERTas,1M,10M,100M,1Bワードで事前学習したRoBERTaモデルを用いて,これらの言語能力の様々な尺度の成長を追跡する学習曲線を描画する。
lmsは、テストする構文的および意味的特徴のほとんどを確実にエンコードする表現を学ぶために、約10mまたは1mの単語しか必要としないことがわかった。
一般的なnluタスクを習得するために必要なコモンセンス知識やその他のスキルを取得するには、より多くのデータが必要である。
その結果、言語的特徴をエンコードする能力は言語理解にほぼ確実に必要であるが、他の形態の知識が、大規模事前学習モデルにおける最近の言語理解の改善の主要な要因である可能性が示唆された。
関連論文リスト
- Generalization v.s. Memorization: Tracing Language Models' Capabilities Back to Pretraining Data [76.90128359866462]
本稿では,出力確率と事前学習データ頻度の相関を計測する,記憶化,分布記憶化という拡張概念を導入する。
本研究は, より単純で知識集約的なタスクにおいて, 記憶がより大きな役割を担い, 一般化が, より困難で推論に基づくタスクの鍵であることを示す。
論文 参考訳(メタデータ) (2024-07-20T21:24:40Z) - EXnet: Efficient In-context Learning for Data-less Text classification [0.0]
本報告では,実例数に制限を加えることなく,文脈内学習を実現するためのモデルであるEXnetを提案する。
テキスト内学習はタスクの精度を高めるための効果的な手法であり,実例を提供することでタスク間の一般化が促進される,と我々は主張する。
大規模な実験により、我々の最小のモデル(15Mパラメータ)でさえ、いくつかの目に見えない分類タスクや領域に一般化できることが示される。
論文 参考訳(メタデータ) (2023-05-24T01:40:57Z) - Pre-Training to Learn in Context [138.0745138788142]
言語モデルが文脈で学習するために明示的に訓練されていないため、コンテキスト内学習の能力は十分に活用されていない。
In-Context Learning のための PICL (Pre-training for In-Context Learning) を提案する。
実験の結果,PICLはベースラインよりも効率が高く,タスクの汎用性が高く,約4倍のパラメータを持つ言語モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-05-16T03:38:06Z) - A Survey of Knowledge Enhanced Pre-trained Language Models [78.56931125512295]
我々は、知識強化事前学習言語モデル(KE-PLMs)の包括的なレビューを行う。
NLUでは、言語知識、テキスト知識、知識グラフ(KG)、ルール知識の4つのカテゴリに分類する。
NLGのKE-PLMは、KGベースと検索ベースに分類される。
論文 参考訳(メタデータ) (2022-11-11T04:29:02Z) - AfroLM: A Self-Active Learning-based Multilingual Pretrained Language
Model for 23 African Languages [0.021987601456703476]
AfroLMは、23のアフリカ語でスクラッチから事前訓練された多言語言語モデルである。
AfroLMは、既存のベースラインよりも小さいデータセット14xで事前訓練される。
様々な領域にまたがってうまく一般化することができる。
論文 参考訳(メタデータ) (2022-11-07T02:15:25Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - Collaboration of Pre-trained Models Makes Better Few-shot Learner [49.89134194181042]
少ないショット分類では、限られた訓練画像からのみ、一般化された表現を学習するために、ディープニューラルネットワークが必要である。
最近、CLIPベースの手法は、対照的な言語イメージ事前トレーニングの恩恵を受け、有望な数ショットのパフォーマンスを示している。
我々は,様々な事前学習パラダイムから様々な事前知識を取り入れた事前学習モデルのコラボレーションであるCoMoを提案する。
論文 参考訳(メタデータ) (2022-09-25T16:23:12Z) - Knowledge Based Multilingual Language Model [44.70205282863062]
知識に基づく多言語言語モデル(KMLM)を事前学習するための新しいフレームワークを提案する。
我々は、ウィキデータ知識グラフを用いて、大量のコード切替合成文と推論に基づく多言語学習データを生成する。
生成したデータの文内構造と文間構造に基づいて,知識学習を容易にするための事前学習タスクを設計する。
論文 参考訳(メタデータ) (2021-11-22T02:56:04Z) - From Universal Language Model to Downstream Task: Improving
RoBERTa-Based Vietnamese Hate Speech Detection [8.602181445598776]
汎用のRoBERTa言語モデルを特定のテキスト分類タスクであるベトナムのヘイト音声検出に適応させるパイプラインを提案する。
実験の結果,提案パイプラインの性能が著しく向上し,0.7221 f1のベトナム人ヘイトスピーチ検出キャンペーンが達成された。
論文 参考訳(メタデータ) (2021-02-24T09:30:55Z) - Emergent Communication Pretraining for Few-Shot Machine Translation [66.48990742411033]
我々は、参照ゲームからの創発的コミュニケーションを介してニューラルネットワークを事前訓練する。
私たちの重要な前提は、実世界の環境の粗悪な近似として、画像に基づくコミュニケーションを基盤にすることで、帰納的に自然言語学習のモデルに偏りが生じる、ということです。
論文 参考訳(メタデータ) (2020-11-02T10:57:53Z) - Learning Which Features Matter: RoBERTa Acquires a Preference for
Linguistic Generalizations (Eventually) [25.696099563130517]
我々はMSGS(Mixed Signals Generalization Set)と呼ばれる新しい英語診断セットを導入する。
MSGSは20のあいまいなバイナリ分類タスクから構成されており、事前訓練されたモデルが微調整中に言語的あるいは表面的な一般化を好むかどうかをテストするのに使用される。
我々は、RoBERTaモデルを100万語から10億語までのデータ量でスクラッチからプレトレーニングし、MSGS上でのパフォーマンスをRoBERTaベースと比較する。
モデルは事前学習したデータで言語的特徴を表現することができるが、言語的な一般化を表わすためには、はるかに多くのデータが必要である。
論文 参考訳(メタデータ) (2020-10-11T22:09:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。