論文の概要: On the Practical Ability of Recurrent Neural Networks to Recognize
Hierarchical Languages
- arxiv url: http://arxiv.org/abs/2011.03965v1
- Date: Sun, 8 Nov 2020 12:15:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-28 08:01:23.798598
- Title: On the Practical Ability of Recurrent Neural Networks to Recognize
Hierarchical Languages
- Title(参考訳): 階層型言語認識におけるリカレントニューラルネットワークの実用性について
- Authors: Satwik Bhattamishra, Kabir Ahuja, Navin Goyal
- Abstract要約: 我々はDyck-n言語における繰り返しモデルの性能について検討する。
リカレントモデルは、トレーニング文字列とテスト文字列の長さが同じ範囲である場合、ほぼ完全に一般化するが、テスト文字列が長い場合、性能は低下する。
- 参考スコア(独自算出の注目度): 9.12267978757844
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While recurrent models have been effective in NLP tasks, their performance on
context-free languages (CFLs) has been found to be quite weak. Given that CFLs
are believed to capture important phenomena such as hierarchical structure in
natural languages, this discrepancy in performance calls for an explanation. We
study the performance of recurrent models on Dyck-n languages, a particularly
important and well-studied class of CFLs. We find that while recurrent models
generalize nearly perfectly if the lengths of the training and test strings are
from the same range, they perform poorly if the test strings are longer. At the
same time, we observe that recurrent models are expressive enough to recognize
Dyck words of arbitrary lengths in finite precision if their depths are
bounded. Hence, we evaluate our models on samples generated from Dyck languages
with bounded depth and find that they are indeed able to generalize to much
higher lengths. Since natural language datasets have nested dependencies of
bounded depth, this may help explain why they perform well in modeling
hierarchical dependencies in natural language data despite prior works
indicating poor generalization performance on Dyck languages. We perform
probing studies to support our results and provide comparisons with
Transformers.
- Abstract(参考訳): 繰り返しモデルはNLPタスクに有効であるが、文脈自由言語(CFL)の性能は非常に弱いことが判明した。
cflが自然言語における階層構造のような重要な現象を捉えていると仮定すると、この性能の不一致は説明を求める。
我々は,特に重要でよく研究されているCFLのクラスであるDyck-n言語における反復モデルの性能について検討する。
リカレントモデルは、トレーニング文字列とテスト文字列の長さが同じ範囲である場合、ほぼ完全に一般化するが、テスト文字列が長い場合、性能は低下する。
同時に、繰り返しモデルが任意の長さのディック語を有限精度で認識するのに十分な表現力を持つことを観測した。
そこで我々は,dyck 言語から生成したサンプルから得られたモデルについて有界な深さで評価し,より高い長さまで一般化できることを見出した。
自然言語データセットは境界深さの依存関係をネストしているため、Dyck言語での一般化性能の低さを示す以前の研究にもかかわらず、自然言語データにおける階層的依存関係のモデリングでうまく機能する理由を説明するのに役立つかもしれない。
結果を裏付けるために調査研究を行い,トランスフォーマーとの比較を行った。
関連論文リスト
- Making Retrieval-Augmented Language Models Robust to Irrelevant Context [60.70054129188434]
ALMの重要なデシプラタムは、検索された情報が関連する場合のパフォーマンスをモデル化するのに役立つことである。
近年の研究では、検索の増大がパフォーマンスに悪影響を及ぼすことが示されている。
論文 参考訳(メタデータ) (2023-10-02T18:52:35Z) - Evaluating Transformer's Ability to Learn Mildly Context-Sensitive
Languages [6.227678387562755]
近年の研究では、非正規言語や文脈自由言語でさえ、自己意識は理論的に学習に限られていることが示唆されている。
様々な複雑さの文脈に敏感な言語を学習するトランスフォーマーの能力をテストする。
分析の結果,学習した自己注意パターンと表現が依存性関係をモデル化し,計数行動を示した。
論文 参考訳(メタデータ) (2023-09-02T08:17:29Z) - How to Plant Trees in Language Models: Data and Architectural Effects on
the Emergence of Syntactic Inductive Biases [28.58785395946639]
事前学習は、微調整後にタスクを実行する際に、階層的な構文的特徴に依存するように言語モデルを教えることができることを示す。
アーキテクチャの特徴(深さ、幅、パラメータ数)と、事前学習コーパスのジャンルとサイズに焦点を当てる。
論文 参考訳(メタデータ) (2023-05-31T14:38:14Z) - Are Large Language Models Robust Coreference Resolvers? [17.60248310475889]
我々は、コア参照のプロンプトが、現在の教師なしコア参照システムより優れていることを示す。
さらなる調査により、命令調整されたLMが驚くほどドメイン、言語、時間にまたがって一般化されることが判明した。
論文 参考訳(メタデータ) (2023-05-23T19:38:28Z) - Transparency Helps Reveal When Language Models Learn Meaning [71.96920839263457]
合成データを用いた体系的な実験により,すべての表現が文脈に依存しない意味を持つ言語では,自己回帰型とマスキング型の両方の言語モデルが,表現間の意味的関係をエミュレートする。
自然言語に目を向けると、特定の現象(参照不透明さ)による実験は、現在の言語モデルが自然言語の意味論をうまく表現していないという証拠を増大させる。
論文 参考訳(メタデータ) (2022-10-14T02:35:19Z) - Language Models are Few-shot Multilingual Learners [66.11011385895195]
我々は、非英語言語における多言語分類を行う際に、GPTモデルとT5モデルの多言語的スキルを評価する。
文脈としての英語の例を見ると、事前学習された言語モデルは、英語のテストサンプルだけでなく、英語以外のサンプルも予測できることが示されている。
論文 参考訳(メタデータ) (2021-09-16T03:08:22Z) - Infusing Finetuning with Semantic Dependencies [62.37697048781823]
シンタックスとは異なり、セマンティクスは今日の事前訓練モデルによって表面化されないことを示す。
次に、畳み込みグラフエンコーダを使用して、タスク固有の微調整にセマンティック解析を明示的に組み込む。
論文 参考訳(メタデータ) (2020-12-10T01:27:24Z) - Multi-timescale Representation Learning in LSTM Language Models [69.98840820213937]
言語モデルは、非常に短いから非常に長いまでの時間スケールで単語間の統計的依存関係を捉えなければならない。
我々は、長期記憶言語モデルにおけるメモリゲーティング機構が、パワーローの減衰を捉えることができるかの理論を導出した。
実験の結果,自然言語で学習したLSTM言語モデルは,この理論分布を近似することがわかった。
論文 参考訳(メタデータ) (2020-09-27T02:13:38Z) - Recurrent Neural Network Language Models Always Learn English-Like
Relative Clause Attachment [17.995905582226463]
英語とスペイン語のモデル性能を比較し,RNN LMにおける非言語的バイアスが英語の構文構造と有利に重なることを示す。
英語モデルは人間に似た構文的嗜好を習得しているように見えるが、スペイン語で訓練されたモデルは、同等の人間的な嗜好を取得できない。
論文 参考訳(メタデータ) (2020-05-01T01:21:47Z) - Recognizing Long Grammatical Sequences Using Recurrent Networks
Augmented With An External Differentiable Stack [73.48927855855219]
リカレントニューラルネットワーク(RNN)は、シーケンスモデリング、生成、予測に広く使われているディープアーキテクチャである。
RNNは、非常に長いシーケンスに対してあまり一般化せず、多くの重要な時間的処理や時系列予測問題に適用性を制限する。
これらの欠点に対処する方法の1つは、スタックのような外部の異なるメモリ構造とRNNを結合することである。
本稿では,重要なアーキテクチャと状態更新機構を備えたメモリ拡張RNNを改良する。
論文 参考訳(メタデータ) (2020-04-04T14:19:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。