論文の概要: Syntactic Structure Distillation Pretraining For Bidirectional Encoders
- arxiv url: http://arxiv.org/abs/2005.13482v1
- Date: Wed, 27 May 2020 16:44:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 08:56:27.983920
- Title: Syntactic Structure Distillation Pretraining For Bidirectional Encoders
- Title(参考訳): 双方向エンコーダのための統語構造蒸留
- Authors: Adhiguna Kuncoro, Lingpeng Kong, Daniel Fried, Dani Yogatama, Laura
Rimell, Chris Dyer, Phil Blunsom
- Abstract要約: 本稿では,BERTプレトレーニングに構文バイアスを注入するための知識蒸留手法を提案する。
我々は,構文的 LM から単語の周辺分布を抽出する。
本研究は,大量のデータを利用する表現学習者においても,構文バイアスの利点を示すものである。
- 参考スコア(独自算出の注目度): 49.483357228441434
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Textual representation learners trained on large amounts of data have
achieved notable success on downstream tasks; intriguingly, they have also
performed well on challenging tests of syntactic competence. Given this
success, it remains an open question whether scalable learners like BERT can
become fully proficient in the syntax of natural language by virtue of data
scale alone, or whether they still benefit from more explicit syntactic biases.
To answer this question, we introduce a knowledge distillation strategy for
injecting syntactic biases into BERT pretraining, by distilling the
syntactically informative predictions of a hierarchical---albeit harder to
scale---syntactic language model. Since BERT models masked words in
bidirectional context, we propose to distill the approximate marginal
distribution over words in context from the syntactic LM. Our approach reduces
relative error by 2-21% on a diverse set of structured prediction tasks,
although we obtain mixed results on the GLUE benchmark. Our findings
demonstrate the benefits of syntactic biases, even in representation learners
that exploit large amounts of data, and contribute to a better understanding of
where syntactic biases are most helpful in benchmarks of natural language
understanding.
- Abstract(参考訳): 大量のデータに基づいて訓練されたテキスト表現学習者は、下流のタスクにおいて顕著な成功を収めた。
この成功を考えると、BERTのようなスケーラブルな学習者は、データスケールだけで自然言語の構文に完全に習熟できるのか、それともより明示的な構文バイアスの恩恵を受けているのか、という疑問が残る。
そこで本研究では,階層型言語モデルの統語的情報的予測を蒸留することにより,BERT事前学習に統語バイアスを注入する知識蒸留手法を提案する。
bertモデルでは単語を双方向の文脈でマスキングするため,構文 lm から文脈内の単語に対する近似辺分布を蒸留する。
提案手法は階層型予測タスクで相対誤差を2-21%削減するが,glueベンチマークでは混合結果を得た。
本研究は,大量のデータを活用する表現学習者においても,構文バイアスの利点を実証し,構文バイアスが自然言語理解のベンチマークにおいて最も有用であることを示す。
関連論文リスト
- Contrastive Learning of Sentence Embeddings from Scratch [26.002876719243464]
文の埋め込みを合成データで訓練するコントラスト学習フレームワークであるSynCSEを提案する。
具体的には、大規模な言語モデルを用いて、コントラスト学習に必要なデータサンプルを合成する。
SynCSE-partialとSynCSE-scratchの両方が教師なしベースラインを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2023-05-24T11:56:21Z) - Deep Semi-supervised Learning with Double-Contrast of Features and
Semantics [2.2230089845369094]
本稿では,エンド・ツー・エンドの半教師あり学習における意味と特徴の二重コントラストを提案する。
我々は情報理論を活用し、意味論と特徴の二重コントラストの合理性を説明する。
論文 参考訳(メタデータ) (2022-11-28T09:08:19Z) - Does BERT really agree ? Fine-grained Analysis of Lexical Dependence on
a Syntactic Task [70.29624135819884]
目的の構文テンプレート上で,BERTが語彙非依存の主観値数アグリーメント(NA)を実行できる範囲について検討した。
名詞文では,単純なテンプレートに対してモデルがよく一般化されるが,1つのアトラクターが存在する場合,語彙非依存の構文一般化を行うことができないことが示唆された。
論文 参考訳(メタデータ) (2022-04-14T11:33:15Z) - Self-Training Sampling with Monolingual Data Uncertainty for Neural
Machine Translation [98.83925811122795]
並列データを補完するために最も情報に富んだ単言語文を選択することでサンプリング手順を改善することを提案する。
並列データから抽出したバイリンガル辞書を用いて単言語文の不確実性を計算した。
大規模WMT英語$Rightarrow$Germanと英語$Rightarrow$ Chineseデータセットの実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2021-06-02T05:01:36Z) - Masked Language Modeling and the Distributional Hypothesis: Order Word
Matters Pre-training for Little [74.49773960145681]
マスク言語モデル(MLM)トレーニングの印象的なパフォーマンスの可能な説明は、そのようなモデルがNLPパイプラインで広く普及している構文構造を表現することを学びました。
本稿では,先行訓練がダウンストリームタスクでほぼ完全に成功する理由として,高次単語共起統計をモデル化できることを挙げる。
以上の結果から,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。
論文 参考訳(メタデータ) (2021-04-14T06:30:36Z) - ERICA: Improving Entity and Relation Understanding for Pre-trained
Language Models via Contrastive Learning [97.10875695679499]
そこで本研究では, ERICA という新たなコントラスト学習フレームワークを提案し, エンティティとその関係をテキストでより深く理解する。
実験の結果,提案する erica フレームワークは文書レベルの言語理解タスクにおいて一貫した改善を実現することがわかった。
論文 参考訳(メタデータ) (2020-12-30T03:35:22Z) - On the Sentence Embeddings from Pre-trained Language Models [78.45172445684126]
本稿では,BERT埋め込みにおける意味情報が完全に活用されていないことを論じる。
BERTは常に文の非滑らかな異方性意味空間を誘導し,その意味的類似性を損なう。
本稿では,非教師対象で学習した正規化フローにより,異方性文の埋め込み分布を滑らかで等方性ガウス分布に変換することを提案する。
論文 参考訳(メタデータ) (2020-11-02T13:14:57Z) - GiBERT: Introducing Linguistic Knowledge into BERT through a Lightweight
Gated Injection Method [29.352569563032056]
本稿では,言語知識を単語埋め込みの形で,事前学習したBERTに明示的に注入する手法を提案する。
依存性ベースと逆適合の埋め込みを注入する場合、複数のセマンティックな類似性データセットのパフォーマンス改善は、そのような情報が有益であり、現在元のモデルから欠落していることを示している。
論文 参考訳(メタデータ) (2020-10-23T17:00:26Z) - Analysis and Evaluation of Language Models for Word Sense Disambiguation [18.001457030065712]
トランスフォーマーベースの言語モデルは、嵐によってNLPの多くの分野を取り込んでいる。
BERTは、ワードセンス毎に限られた数のサンプルが利用できる場合でも、高いレベルの感覚の区別を正確に捉えることができる。
BERTとその派生種は既存の評価ベンチマークの大部分を支配している。
論文 参考訳(メタデータ) (2020-08-26T15:07:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。