論文の概要: Frequency Effects on Syntactic Rule Learning in Transformers
- arxiv url: http://arxiv.org/abs/2109.07020v1
- Date: Tue, 14 Sep 2021 23:45:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-16 15:08:09.421802
- Title: Frequency Effects on Syntactic Rule Learning in Transformers
- Title(参考訳): 変圧器の統語規則学習における周波数効果
- Authors: Jason Wei, Dan Garrette, Tal Linzen, and Ellie Pavlick
- Abstract要約: 事前学習された言語モデルが抽象記号や規則を暗黙的に表現するかどうかを検討する。
BERTはトレーニングで発生したことのない主語対によく当てはまることを示す。
しかし,その性能は単語の頻度に大きく影響されている。
- 参考スコア(独自算出の注目度): 26.13785024975487
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained language models perform well on a variety of linguistic tasks
that require symbolic reasoning, raising the question of whether such models
implicitly represent abstract symbols and rules. We investigate this question
using the case study of BERT's performance on English subject-verb agreement.
Unlike prior work, we train multiple instances of BERT from scratch, allowing
us to perform a series of controlled interventions at pre-training time. We
show that BERT often generalizes well to subject-verb pairs that never occurred
in training, suggesting a degree of rule-governed behavior. We also find,
however, that performance is heavily influenced by word frequency, with
experiments showing that both the absolute frequency of a verb form, as well as
the frequency relative to the alternate inflection, are causally implicated in
the predictions BERT makes at inference time. Closer analysis of these
frequency effects reveals that BERT's behavior is consistent with a system that
correctly applies the SVA rule in general but struggles to overcome strong
training priors and to estimate agreement features (singular vs. plural) on
infrequent lexical items.
- Abstract(参考訳): 事前学習された言語モデルは、記号推論を必要とする様々な言語タスクでうまく機能し、そのようなモデルが暗黙的に抽象的なシンボルと規則を表現するかどうかという疑問を提起する。
本稿では, BERT の英語主観的合意におけるパフォーマンスのケーススタディを用いて, この問題を考察する。
以前の作業とは異なり、BERTの複数のインスタンスをスクラッチからトレーニングすることで、事前トレーニング時に一連の制御された介入を実行できます。
BERTはトレーニングで発生しない主語対に対してよく一般化し,規則に守られた行動の程度を示唆する。
また,動詞形態の絶対周波数と交互の反転に対する周波数の両方が,bertが推論時に行う予測に因果的に関係していることを示す実験によって,単語の頻度に大きく影響していることがわかった。
これらの周波数効果のより深い分析により、バートの振る舞いは、一般的にはsva規則を正しく適用するが、強いトレーニング優先を克服し、不適切な語彙項目に対する合意の特徴(通常対複数)を推定するのに苦労しているシステムと一致していることが分かる。
関連論文リスト
- Mitigating Frequency Bias and Anisotropy in Language Model Pre-Training with Syntactic Smoothing [6.726629754291751]
本稿では,言語モデルの周波数バイアスを定量化する手法を提案する。
そこで本研究では,事前学習中のトークン表現に対して構文的事前表現を誘導することにより,言語モデルの周波数バイアスを低減する手法を提案する。
このアプローチにより、頻度の低い英語トークンの性能が向上し、異方性も低下する。
論文 参考訳(メタデータ) (2024-10-15T10:09:57Z) - DebCSE: Rethinking Unsupervised Contrastive Sentence Embedding Learning
in the Debiasing Perspective [1.351603931922027]
様々なバイアスの影響を効果的に排除することは、高品質な文の埋め込みを学習するために重要であると論じる。
本稿では,これらのバイアスの影響を排除できる文埋め込みフレームワークDebCSEを提案する。
論文 参考訳(メタデータ) (2023-09-14T02:43:34Z) - Word-order typology in Multilingual BERT: A case study in
subordinate-clause detection [1.2129015549576372]
本稿では,これらの特性を探索するために,言語内および言語間における従属クラス検出の課題を用いる。
本稿では,この課題は極めて単純で,難解なケースの長い尾で容易に相反し,BERTのゼロショット性能は単語順効果に支配されていることを示す。
論文 参考訳(メタデータ) (2022-05-24T11:35:39Z) - Does BERT really agree ? Fine-grained Analysis of Lexical Dependence on
a Syntactic Task [70.29624135819884]
目的の構文テンプレート上で,BERTが語彙非依存の主観値数アグリーメント(NA)を実行できる範囲について検討した。
名詞文では,単純なテンプレートに対してモデルがよく一般化されるが,1つのアトラクターが存在する場合,語彙非依存の構文一般化を行うことができないことが示唆された。
論文 参考訳(メタデータ) (2022-04-14T11:33:15Z) - Impact of Pretraining Term Frequencies on Few-Shot Reasoning [51.990349528930125]
事前学習された言語モデルが、事前学習データにおいてあまり頻度の低い用語でどの程度理にかなっているかを検討する。
我々は,様々な数値推論タスクにおいて,GPTに基づく言語モデルに対して,この相関関係の強さを計測する。
LMは数秒の数値推論タスクにおいて高い性能を示すが,本研究の結果は,事前学習データを超えるモデルが実際にどれだけ一般化されるのかという疑問を提起する。
論文 参考訳(メタデータ) (2022-02-15T05:43:54Z) - BitFit: Simple Parameter-efficient Fine-tuning for Transformer-based
Masked Language-models [51.53936551681613]
我々は、事前訓練されたBERTモデルのバイアス項(またはバイアス項のサブセット)のみを微調整することは、モデル全体を微調整する(そして、時にはそれよりも優れている)ことを示す。
彼らは、ファインタニングは、新しいタスク固有の言語知識を学ぶのではなく、言語モデリングの訓練によって引き起こされる知識を明らかにすることであるという仮説を支持している。
論文 参考訳(メタデータ) (2021-06-18T16:09:21Z) - Consistency Regularization for Cross-Lingual Fine-Tuning [61.08704789561351]
整合性正規化による言語間微調整の改善を提案する。
具体的には、例の整合性正規化を用いて、予測感度を4種類のデータ拡張にペナルティ化する。
XTREMEベンチマークの実験結果から,本手法は様々なタスクにおける言語間微調整を大幅に改善することが示された。
論文 参考訳(メタデータ) (2021-06-15T15:35:44Z) - MASKER: Masked Keyword Regularization for Reliable Text Classification [73.90326322794803]
文脈に基づく予測を容易にする微調整手法であるマスク付きキーワード正規化(MASKER)を提案する。
maskerはモデルを規則化し、他の単語からキーワードを再構築し、十分な文脈なしに低信頼の予測を行う。
分類精度を低下させることなくOOD検出とクロスドメインの一般化を改善したMASKERを提案する。
論文 参考訳(メタデータ) (2020-12-17T04:54:16Z) - On the Sentence Embeddings from Pre-trained Language Models [78.45172445684126]
本稿では,BERT埋め込みにおける意味情報が完全に活用されていないことを論じる。
BERTは常に文の非滑らかな異方性意味空間を誘導し,その意味的類似性を損なう。
本稿では,非教師対象で学習した正規化フローにより,異方性文の埋め込み分布を滑らかで等方性ガウス分布に変換することを提案する。
論文 参考訳(メタデータ) (2020-11-02T13:14:57Z) - CAPT: Contrastive Pre-Training for Learning Denoised Sequence
Representations [42.86803751871867]
本稿では、雑音不変シーケンス表現を学習するために、ContrAstive Pre-Training(CAPT)を提案する。
CAPTは、教師なしのインスタンスワイドのトレーニング信号を通じて、元のシーケンスの表現と、その破損したバージョンとの一貫性を奨励する。
論文 参考訳(メタデータ) (2020-10-13T13:08:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。