論文の概要: Can neural networks acquire a structural bias from raw linguistic data?
- arxiv url: http://arxiv.org/abs/2007.06761v2
- Date: Wed, 23 Sep 2020 20:04:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 14:34:16.538619
- Title: Can neural networks acquire a structural bias from raw linguistic data?
- Title(参考訳): ニューラルネットワークは生の言語データから構造バイアスを得ることができるか?
- Authors: Alex Warstadt, Samuel R. Bowman
- Abstract要約: 我々は,文処理に広く使用されているニューラルネットワークBERTが,生データによる事前学習により構造一般化の導出バイアスを得るか否かを評価する。
BERTは4つの経験的領域のうち3つに3つの構造的一般化を施すことが判明した。
これらの結果は、構造バイアスを生データから取得できるという仮説を支持する人工学習者にとって、これまでのところ最強の証拠である、と我々は主張する。
- 参考スコア(独自算出の注目度): 32.506289093027185
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We evaluate whether BERT, a widely used neural network for sentence
processing, acquires an inductive bias towards forming structural
generalizations through pretraining on raw data. We conduct four experiments
testing its preference for structural vs. linear generalizations in different
structure-dependent phenomena. We find that BERT makes a structural
generalization in 3 out of 4 empirical domains---subject-auxiliary inversion,
reflexive binding, and verb tense detection in embedded clauses---but makes a
linear generalization when tested on NPI licensing. We argue that these results
are the strongest evidence so far from artificial learners supporting the
proposition that a structural bias can be acquired from raw data. If this
conclusion is correct, it is tentative evidence that some linguistic universals
can be acquired by learners without innate biases. However, the precise
implications for human language acquisition are unclear, as humans learn
language from significantly less data than BERT.
- Abstract(参考訳): 我々は,文処理に広く使用されているニューラルネットワークBERTが,生データによる事前学習により構造一般化の導出バイアスを得るか否かを評価する。
異なる構造依存現象における構造と線形一般化の選好をテストする4つの実験を行った。
bert は 4 つの経験的領域のうち 3 つの構造的一般化 (subject-auxiliary inversion, reflexive binding, verb tense detection in embedded clauses) を行うが、npi ライセンスでテストすると線形一般化となる。
これらの結果は、構造バイアスを生データから取得できるという仮説を支持する人工学習者にとって、これまでで最強の証拠であると主張する。
この結論が正しければ、一部の言語普遍性は生来のバイアスを伴わずに学習者によって獲得できるという仮の証拠である。
しかし、BERTよりもはるかに少ないデータから言語を学ぶため、人間の言語習得の正確な意味は明らかではない。
関連論文リスト
- Training Neural Networks as Recognizers of Formal Languages [87.06906286950438]
形式言語理論は、特に認識者に関するものである。
代わりに、非公式な意味でのみ類似したプロキシタスクを使用するのが一般的である。
ニューラルネットワークを文字列のバイナリ分類器として直接訓練し評価することで、このミスマッチを補正する。
論文 参考訳(メタデータ) (2024-11-11T16:33:25Z) - Can Language Models Induce Grammatical Knowledge from Indirect Evidence? [23.580381311886814]
本稿では,言語モデルが間接的データ(間接的証拠)を効率的に用いて文の受理性を推定するかどうかを検討する。
対照的に、人間は間接的エビデンスを効率的に使用しており、これは効率的な言語習得に寄与する帰納的バイアスの1つと考えられている。
実験の結果,同じ構造を持つインスタンスに繰り返し露出しても,言語モデルが文法的知識を誘導しないことが明らかとなった。
論文 参考訳(メタデータ) (2024-10-08T13:23:58Z) - How to Plant Trees in Language Models: Data and Architectural Effects on
the Emergence of Syntactic Inductive Biases [28.58785395946639]
事前学習は、微調整後にタスクを実行する際に、階層的な構文的特徴に依存するように言語モデルを教えることができることを示す。
アーキテクチャの特徴(深さ、幅、パラメータ数)と、事前学習コーパスのジャンルとサイズに焦点を当てる。
論文 参考訳(メタデータ) (2023-05-31T14:38:14Z) - Injecting structural hints: Using language models to study inductive
biases in language learning [40.8902073270634]
言語モデルに帰納バイアスを注入し,形式的構造化データに基づいて事前学習を行う。
次に, 学習者の言語学習能力の評価を行った。
非文脈自由な関係が最良の帰納バイアスとなることを示す。
論文 参考訳(メタデータ) (2023-04-25T18:00:08Z) - Neural networks trained with SGD learn distributions of increasing
complexity [78.30235086565388]
勾配降下法を用いてトレーニングされたニューラルネットワークは、まず低次入力統計を用いて入力を分類する。
その後、トレーニング中にのみ高次の統計を利用する。
本稿では,DSBと他の単純度バイアスとの関係について論じ,学習における普遍性の原理にその意味を考察する。
論文 参考訳(メタデータ) (2022-11-21T15:27:22Z) - BitFit: Simple Parameter-efficient Fine-tuning for Transformer-based
Masked Language-models [51.53936551681613]
我々は、事前訓練されたBERTモデルのバイアス項(またはバイアス項のサブセット)のみを微調整することは、モデル全体を微調整する(そして、時にはそれよりも優れている)ことを示す。
彼らは、ファインタニングは、新しいタスク固有の言語知識を学ぶのではなく、言語モデリングの訓練によって引き起こされる知識を明らかにすることであるという仮説を支持している。
論文 参考訳(メタデータ) (2021-06-18T16:09:21Z) - Evading the Simplicity Bias: Training a Diverse Set of Models Discovers
Solutions with Superior OOD Generalization [93.8373619657239]
SGDで訓練されたニューラルネットワークは最近、線形予測的特徴に優先的に依存することが示された。
この単純さバイアスは、分布外堅牢性(OOD)の欠如を説明することができる。
単純さのバイアスを軽減し,ood一般化を改善できることを実証する。
論文 参考訳(メタデータ) (2021-05-12T12:12:24Z) - Structural Supervision Improves Few-Shot Learning and Syntactic
Generalization in Neural Language Models [47.42249565529833]
人間は最小限の経験から単語に関する構造的特性を学ぶことができる。
我々は、現代のニューラル言語モデルがこの行動を英語で再現する能力を評価する。
論文 参考訳(メタデータ) (2020-10-12T14:12:37Z) - Universal linguistic inductive biases via meta-learning [36.43388942327124]
帰納的バイアスが言語習得における観察されたパターンを説明することができるかは不明である。
ニューラルネットワークモデルに言語的帰納バイアスを与えるためのフレームワークを導入する。
この枠組みを音節構造に基づくケーススタディで実証する。
論文 参考訳(メタデータ) (2020-06-29T19:15:10Z) - Syntactic Structure Distillation Pretraining For Bidirectional Encoders [49.483357228441434]
本稿では,BERTプレトレーニングに構文バイアスを注入するための知識蒸留手法を提案する。
我々は,構文的 LM から単語の周辺分布を抽出する。
本研究は,大量のデータを利用する表現学習者においても,構文バイアスの利点を示すものである。
論文 参考訳(メタデータ) (2020-05-27T16:44:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。