論文の概要: Learning Which Features Matter: RoBERTa Acquires a Preference for
Linguistic Generalizations (Eventually)
- arxiv url: http://arxiv.org/abs/2010.05358v1
- Date: Sun, 11 Oct 2020 22:09:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-08 13:32:44.092197
- Title: Learning Which Features Matter: RoBERTa Acquires a Preference for
Linguistic Generalizations (Eventually)
- Title(参考訳): 物事を特徴付ける学習:ロベルタは(実際に)言語一般化を好む
- Authors: Alex Warstadt, Yian Zhang, Haau-Sing Li, Haokun Liu, Samuel R. Bowman
- Abstract要約: 我々はMSGS(Mixed Signals Generalization Set)と呼ばれる新しい英語診断セットを導入する。
MSGSは20のあいまいなバイナリ分類タスクから構成されており、事前訓練されたモデルが微調整中に言語的あるいは表面的な一般化を好むかどうかをテストするのに使用される。
我々は、RoBERTaモデルを100万語から10億語までのデータ量でスクラッチからプレトレーニングし、MSGS上でのパフォーマンスをRoBERTaベースと比較する。
モデルは事前学習したデータで言語的特徴を表現することができるが、言語的な一般化を表わすためには、はるかに多くのデータが必要である。
- 参考スコア(独自算出の注目度): 25.696099563130517
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One reason pretraining on self-supervised linguistic tasks is effective is
that it teaches models features that are helpful for language understanding.
However, we want pretrained models to learn not only to represent linguistic
features, but also to use those features preferentially during fine-turning.
With this goal in mind, we introduce a new English-language diagnostic set
called MSGS (the Mixed Signals Generalization Set), which consists of 20
ambiguous binary classification tasks that we use to test whether a pretrained
model prefers linguistic or surface generalizations during fine-tuning. We
pretrain RoBERTa models from scratch on quantities of data ranging from 1M to
1B words and compare their performance on MSGS to the publicly available
RoBERTa-base. We find that models can learn to represent linguistic features
with little pretraining data, but require far more data to learn to prefer
linguistic generalizations over surface ones. Eventually, with about 30B words
of pretraining data, RoBERTa-base does demonstrate a linguistic bias with some
regularity. We conclude that while self-supervised pretraining is an effective
way to learn helpful inductive biases, there is likely room to improve the rate
at which models learn which features matter.
- Abstract(参考訳): 自己指導型言語課題の事前学習が効果的である理由は、言語理解に役立つモデル機能を教えることである。
しかし, 事前学習モデルでは, 言語的特徴の表現だけでなく, その特徴を優先的に活用することが望ましい。
この目的を念頭に置いて,事前学習されたモデルが言語的あるいは表面的一般化を好むかどうかをテストするために20のあいまいな二分分類タスクからなる,msgs(the mixed signal generalization set)と呼ばれる新しい英語診断セットを導入する。
我々は,RoBERTaモデルを1Mから10Bまでのデータ量でスクラッチからプレトレーニングし,MSGS上でのパフォーマンスをRoBERTaベースと比較する。
モデルは事前学習したデータで言語的特徴を表現することができるが、言語的な一般化を表わすにははるかに多くのデータが必要である。
最終的に、約30億ワードの事前学習データを用いて、RoBERTaベースは規則性のある言語バイアスを示す。
自己教師付き事前学習は、有益な帰納的バイアスを学習する効果的な方法であるが、どの特徴が重要かをモデルが学習する速度を改善する余地がある。
関連論文リスト
- How to Plant Trees in Language Models: Data and Architectural Effects on
the Emergence of Syntactic Inductive Biases [28.58785395946639]
事前学習は、微調整後にタスクを実行する際に、階層的な構文的特徴に依存するように言語モデルを教えることができることを示す。
アーキテクチャの特徴(深さ、幅、パラメータ数)と、事前学習コーパスのジャンルとサイズに焦点を当てる。
論文 参考訳(メタデータ) (2023-05-31T14:38:14Z) - Pre-Training to Learn in Context [138.0745138788142]
言語モデルが文脈で学習するために明示的に訓練されていないため、コンテキスト内学習の能力は十分に活用されていない。
In-Context Learning のための PICL (Pre-training for In-Context Learning) を提案する。
実験の結果,PICLはベースラインよりも効率が高く,タスクの汎用性が高く,約4倍のパラメータを持つ言語モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-05-16T03:38:06Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - Bidirectional Language Models Are Also Few-shot Learners [54.37445173284831]
SAP(Sequential Autoregressive Prompting)は,双方向モデルの高速化を実現する技術である。
SAPは質問応答と要約に有効であることを示す。
この結果から,より広範な言語モデルの創発的特性として,プロンプトに基づく学習が証明された。
論文 参考訳(メタデータ) (2022-09-29T01:35:57Z) - Pre-training Data Quality and Quantity for a Low-Resource Language: New
Corpus and BERT Models for Maltese [4.4681678689625715]
低リソース言語に対するモノリンガルデータによる事前学習の効果を分析する。
新たに作成したマルタ語コーパスを提示し、事前学習データサイズとドメインが下流のパフォーマンスに与える影響を判定する。
スクラッチからトレーニングされた単言語BERTモデル(BERTu)と、さらに事前訓練された多言語BERT(mBERTu)の2つのモデルを比較する。
論文 参考訳(メタデータ) (2022-05-21T06:44:59Z) - Interpreting Language Models Through Knowledge Graph Extraction [42.97929497661778]
BERTに基づく言語モデルを,学習過程の逐次的な段階において取得した知識のスナップショットを通じて比較する。
本稿では, クローズイン・ザ・ブランク文から知識グラフを抽出し, 知識獲得のタイムラインを提示する手法を提案する。
この分析を, BERTモデル(DistilBERT, BERT-base, RoBERTa)の事前学習変化の比較に拡張する。
論文 参考訳(メタデータ) (2021-11-16T15:18:01Z) - Pre-Training a Language Model Without Human Language [74.11825654535895]
先行学習データの本質的性質が下流性能の微調整にどのように寄与するかを検討する。
非構造化データで事前に訓練されたモデルは、下流のタスクでゼロから訓練されたモデルに勝った。
驚くべきことに、特定の非人間言語データの事前トレーニングがGLUEのパフォーマンスを他の非英語言語で事前トレーニングされたパフォーマンスに近づけることを明らかにしました。
論文 参考訳(メタデータ) (2020-12-22T13:38:06Z) - When Do You Need Billions of Words of Pretraining Data? [23.80748200206869]
トランスフォーマーLMは大規模な事前学習から学習し、少ないデータから学べない。
多くの構文的・意味的特徴を確実に符号化する表現を学習するには,約10万語から1億語程度しか必要としないことがわかった。
論文 参考訳(メタデータ) (2020-11-10T07:16:18Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Pretrained Language Model Embryology: The Birth of ALBERT [68.5801642674541]
ランダムなパラメータの集合からトチエント言語モデルへの発達過程について検討する。
その結果、ALBERTは、事前学習中に異なる学習速度で、音声の異なる部分(POS)のトークンを再構成し、予測することを学習していることがわかった。
これらの結果は、事前訓練されたモデルの知識が事前訓練の間に異なることを示唆し、事前訓練のステップを持つことは、必ずしもより包括的な知識を持つモデルを提供するとは限らないことを示唆している。
論文 参考訳(メタデータ) (2020-10-06T05:15:39Z) - Multilingual Jointly Trained Acoustic and Written Word Embeddings [22.63696520064212]
このアイデアを複数の低リソース言語に拡張します。
我々は、複数の言語から音声で書き起こされたデータを用いて、AWEモデルとAGWEモデルを共同で訓練する。
事前トレーニングされたモデルは、目に見えないゼロリソース言語や、低リソース言語のデータを微調整するために使用することができる。
論文 参考訳(メタデータ) (2020-06-24T19:16:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。