論文の概要: Can RNNs trained on harder subject-verb agreement instances still
perform well on easier ones?
- arxiv url: http://arxiv.org/abs/2010.04976v2
- Date: Fri, 9 Apr 2021 09:11:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-08 22:26:29.776096
- Title: Can RNNs trained on harder subject-verb agreement instances still
perform well on easier ones?
- Title(参考訳): RNNは、より厳しい主観的合意のインスタンスでトレーニングできますか?
- Authors: Hritik Bansal, Gantavya Bhatt, Sumeet Agarwal
- Abstract要約: 従来の研究は、自然言語コーパスで訓練されたRNNが、単純な文でよく数字の一致を捉えることができることを示唆している。
選択的に選択されたハード・コンセンサス・インスタンスで訓練された誘導バイアスの異なるRNNモデルについて検討する。
- 参考スコア(独自算出の注目度): 9.105696129628793
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Previous work suggests that RNNs trained on natural language corpora can
capture number agreement well for simple sentences but perform less well when
sentences contain agreement attractors: intervening nouns between the verb and
the main subject with grammatical number opposite to the latter. This suggests
these models may not learn the actual syntax of agreement, but rather infer
shallower heuristics such as `agree with the recent noun'. In this work, we
investigate RNN models with varying inductive biases trained on selectively
chosen `hard' agreement instances, i.e., sentences with at least one agreement
attractor. For these the verb number cannot be predicted using a simple linear
heuristic, and hence they might help provide the model additional cues for
hierarchical syntax. If RNNs can learn the underlying agreement rules when
trained on such hard instances, then they should generalize well to other
sentences, including simpler ones. However, we observe that several RNN types,
including the ONLSTM which has a soft structural inductive bias, surprisingly
fail to perform well on sentences without attractors when trained solely on
sentences with attractors. We analyze how these selectively trained RNNs
compare to the baseline (training on a natural distribution of agreement
attractors) along the dimensions of number agreement accuracy, representational
similarity, and performance across different syntactic constructions. Our
findings suggest that RNNs trained on our hard agreement instances still do not
capture the underlying syntax of agreement, but rather tend to overfit the
training distribution in a way which leads them to perform poorly on `easy'
out-of-distribution instances. Thus, while RNNs are powerful models which can
pick up non-trivial dependency patterns, inducing them to do so at the level of
syntax rather than surface remains a challenge.
- Abstract(参考訳): 以前の研究では、自然言語コーパスで訓練されたrnnは、単純な文に対して番号の合意をうまく捉えることができるが、文が合意の引き金を含んでいる場合、あまりうまく機能しないことを示唆している。
これは、これらのモデルが実際の合意の構文を学ぶのではなく、より浅いヒューリスティックな'agree with the recent noun'を推測することを示唆している。
本研究では,選択的に選択された「ハード」合意例,すなわち少なくとも1つの合意引受者を含む文を訓練した帰納的バイアスの異なるrnnモデルについて検討する。
これらのため、動詞数は単純な線形ヒューリスティックでは予測できないため、階層構文のためのモデル追加の手がかりを提供するのに役立つかもしれない。
もしRNNがそのようなハードなインスタンスでトレーニングされた場合、基礎となる合意ルールを学習できれば、より単純なものを含む他の文によく当てはまるべきである。
しかし,弱い構造的帰納バイアスを持つonlstmを含む複数のrnnタイプは,アトラクタを持つ文のみを訓練した場合,アトラクタなしでは,驚くほどうまく機能しないことがわかった。
本研究では,これらのRNNを,各構文構成の数値一致精度,表現的類似性,性能の次元に沿って,基準線(契約引力の自然な分布に基づく学習)と比較する。
我々のハードコンセンサスインスタンスでトレーニングされたRNNは、いまだ基盤となるコンセンサス構文を捉えておらず、むしろ'easy'なアウト・オブ・ディストリビューションインスタンスでパフォーマンスが劣る方法でトレーニング分布に過度に適合する傾向にあることを示唆している。
したがって、RNNは非自明な依存性パターンを拾える強力なモデルであるが、表面ではなく構文レベルでそれらを実行するように誘導することは、依然として課題である。
関連論文リスト
- Spiking Convolutional Neural Networks for Text Classification [15.10637945787922]
スパイキングニューラルネットワーク(SNN)は、よりエネルギー効率の良い方法でディープニューラルネットワーク(DNN)を実装するための有望な経路を提供する。
本研究では、テキスト分類のためのSNNの「変換+微調整」2段階法を提案し、事前学習した単語埋め込みをスパイクトレインとしてエンコードする簡易かつ効果的な方法を提案する。
論文 参考訳(メタデータ) (2024-06-27T14:54:27Z) - On Efficiently Representing Regular Languages as RNNs [49.88310438099143]
RNNは、人間の言語で広く使われている有界階層構造を効率的に表現できることを示す。
これは、RNNの成功が階層をモデル化する能力と結びついていることを示唆している。
我々は,RNNが従来主張していたより大規模なLMを効率的に表現できることを示す。
論文 参考訳(メタデータ) (2024-02-24T13:42:06Z) - On the Computational Complexity and Formal Hierarchy of Second Order
Recurrent Neural Networks [59.85314067235965]
2次次リカレントネットワーク(RNN)の理論基盤を拡大する(2次RNN)
有界時間でチューリング完備な RNN のクラスが存在することを証明している。
また、記憶のない2ドルのRNNは、バニラRNNのような現代のモデルよりも優れており、正規文法の認識において繰り返し単位をゲートしていることを示す。
論文 参考訳(メタデータ) (2023-09-26T06:06:47Z) - Advancing Regular Language Reasoning in Linear Recurrent Neural Networks [56.11830645258106]
本稿では,リニアリカレントニューラルネットワーク(LRNN)がトレーニングシーケンスに隠された規則を学習できるかを検討する。
ブロック対角および入力依存遷移行列を備えた新しいLRNNを提案する。
実験結果から,提案モデルが正規言語タスクに対して長さ外挿を行うことができる唯一のLRNNであることが示唆された。
論文 参考訳(メタデータ) (2023-09-14T03:36:01Z) - Ten Lessons We Have Learned in the New "Sparseland": A Short Handbook
for Sparse Neural Network Researchers [100.66539004105805]
この記事は、SNN(Sparse Neural Network)研究コミュニティがますます繁栄する中で、"共通善(common good)"を提供することを目的としている。
SNNの10のQ&Aは、密度対スパース、非構造化スパース対構造スパース、プルーニング対スパーストレーニング、密度対スパーストレーニング、静的なスパースネス対動的スパースネス、事前トレーニング/デューストレーニングと後トレーニングのスパースネスを含む、多くの重要な側面から要約する。
論文 参考訳(メタデータ) (2023-02-06T07:07:15Z) - Fast Axiomatic Attribution for Neural Networks [44.527672563424545]
最近のアプローチには、望ましくない機能への依存を減らすために、トレーニングプロセスにディープニューラルネットワーク(DNN)の機能帰属に関する先行が含まれている。
本稿では, 1 つの前方/後方パスのみを用いて, 公理的特徴属性を計算できる DNN の高効率な公理的帰属性について考察する。
様々な実験により、$mathcalX$-DNNsの利点が示され、通常のDNNに対する最先端の一般的な帰属法を破り、帰属前の訓練に役立てられる。
論文 参考訳(メタデータ) (2021-11-15T10:51:01Z) - The Inductive Bias of In-Context Learning: Rethinking Pretraining
Example Design [34.900425311720795]
事前学習したNLMは、同じトレーニング例に現れるテキストセグメント間の依存関係を、異なるトレーニング例に現れるテキストセグメント間の依存性よりも強くモデル化できることを示す。
我々は「kNN-Pretraining」を提案する:同じ事前学習例に意味論的に関連のない非隣接文を含めると、文表現の改善とオープンドメイン質問応答能力が得られることを示す。
論文 参考訳(メタデータ) (2021-10-09T11:05:16Z) - Learning Hierarchical Structures with Differentiable Nondeterministic
Stacks [25.064819128982556]
最近提案された非決定論的スタックRNN(NS-RNN)に基づくスタックRNNモデルを提案する。
NS-RNNは,5つの文脈自由言語モデリングタスクにおいて,従来のスタックRNNよりも低エントロピーを実現することを示す。
また,自然言語を用いた言語モデリングを実用化するNS-RNNの限定バージョンを提案する。
論文 参考訳(メタデータ) (2021-09-05T03:25:23Z) - A Formal Hierarchy of RNN Architectures [88.38859874233944]
階層構造は、RNNのメモリを測定する空間と、リカレント更新が重み付けされた有限状態マシンで記述できるかどうかという有理再帰という2つの形式的特性に基づいている。
これらのモデルの表現能力は、複数の層を積み重ねたり、異なるプール機能で構成することでどのように拡張されるかを示す。
我々は、不飽和RNNの実用的な学習能力は、同様の階層に従うと仮定する。
論文 参考訳(メタデータ) (2020-04-18T00:57:54Z) - Multi-Step Inference for Reasoning Over Paragraphs [95.91527524872832]
テキスト上の複雑な推論には、自由形式の述語と論理的な連結体を理解し、連鎖する必要がある。
本稿では,ニューラルネットワークを連想させる構成モデルを提案する。
論文 参考訳(メタデータ) (2020-04-06T21:12:53Z) - An Analysis of the Utility of Explicit Negative Examples to Improve the
Syntactic Abilities of Neural Language Models [32.183409062294466]
ニューラルネットワークモデルのトレーニングにおいて、明示的なネガティブな例の有用性について検討する。
直接学習の合図があっても、モデルはオブジェクト相対的な節をまたいだ合意の解決に苦しむ。
論文 参考訳(メタデータ) (2020-04-06T07:47:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。