論文の概要: On the Practical Ability of Recurrent Neural Networks to Recognize
Hierarchical Languages
- arxiv url: http://arxiv.org/abs/2011.03965v1
- Date: Sun, 8 Nov 2020 12:15:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-28 08:01:23.798598
- Title: On the Practical Ability of Recurrent Neural Networks to Recognize
Hierarchical Languages
- Title(参考訳): 階層型言語認識におけるリカレントニューラルネットワークの実用性について
- Authors: Satwik Bhattamishra, Kabir Ahuja, Navin Goyal
- Abstract要約: 我々はDyck-n言語における繰り返しモデルの性能について検討する。
リカレントモデルは、トレーニング文字列とテスト文字列の長さが同じ範囲である場合、ほぼ完全に一般化するが、テスト文字列が長い場合、性能は低下する。
- 参考スコア(独自算出の注目度): 9.12267978757844
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While recurrent models have been effective in NLP tasks, their performance on
context-free languages (CFLs) has been found to be quite weak. Given that CFLs
are believed to capture important phenomena such as hierarchical structure in
natural languages, this discrepancy in performance calls for an explanation. We
study the performance of recurrent models on Dyck-n languages, a particularly
important and well-studied class of CFLs. We find that while recurrent models
generalize nearly perfectly if the lengths of the training and test strings are
from the same range, they perform poorly if the test strings are longer. At the
same time, we observe that recurrent models are expressive enough to recognize
Dyck words of arbitrary lengths in finite precision if their depths are
bounded. Hence, we evaluate our models on samples generated from Dyck languages
with bounded depth and find that they are indeed able to generalize to much
higher lengths. Since natural language datasets have nested dependencies of
bounded depth, this may help explain why they perform well in modeling
hierarchical dependencies in natural language data despite prior works
indicating poor generalization performance on Dyck languages. We perform
probing studies to support our results and provide comparisons with
Transformers.
- Abstract(参考訳): 繰り返しモデルはNLPタスクに有効であるが、文脈自由言語(CFL)の性能は非常に弱いことが判明した。
cflが自然言語における階層構造のような重要な現象を捉えていると仮定すると、この性能の不一致は説明を求める。
我々は,特に重要でよく研究されているCFLのクラスであるDyck-n言語における反復モデルの性能について検討する。
リカレントモデルは、トレーニング文字列とテスト文字列の長さが同じ範囲である場合、ほぼ完全に一般化するが、テスト文字列が長い場合、性能は低下する。
同時に、繰り返しモデルが任意の長さのディック語を有限精度で認識するのに十分な表現力を持つことを観測した。
そこで我々は,dyck 言語から生成したサンプルから得られたモデルについて有界な深さで評価し,より高い長さまで一般化できることを見出した。
自然言語データセットは境界深さの依存関係をネストしているため、Dyck言語での一般化性能の低さを示す以前の研究にもかかわらず、自然言語データにおける階層的依存関係のモデリングでうまく機能する理由を説明するのに役立つかもしれない。
結果を裏付けるために調査研究を行い,トランスフォーマーとの比較を行った。
関連論文リスト
- Training Neural Networks as Recognizers of Formal Languages [87.06906286950438]
形式言語理論は、特に認識者に関するものである。
代わりに、非公式な意味でのみ類似したプロキシタスクを使用するのが一般的である。
ニューラルネットワークを文字列のバイナリ分類器として直接訓練し評価することで、このミスマッチを補正する。
論文 参考訳(メタデータ) (2024-11-11T16:33:25Z) - Towards a theory of how the structure of language is acquired by deep neural networks [6.363756171493383]
木のような生成モデルを用いて、自然言語で見られる階層構造の多くをキャプチャする。
トークンとトークンの相関は文法の隠れ変数の表現を構築するのに有効であることを示す。
トレーニングセットのサイズと効果的な相関範囲の関係は、我々の合成データセットを超えていると推測する。
論文 参考訳(メタデータ) (2024-05-28T17:01:22Z) - Can Perplexity Predict Fine-Tuning Performance? An Investigation of Tokenization Effects on Sequential Language Models for Nepali [0.0]
サブワードが言語モデルの理解能力にどのように影響するかの研究はほとんどなく、少数の言語に限られている。
ネパールの比較的小さな言語モデルを事前訓練するために、6つの異なるトークン化スキームを使用し、下流のタスクを微調整するために学んだ表現を使用しました。
論文 参考訳(メタデータ) (2024-04-28T05:26:12Z) - Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - Are Large Language Models Robust Coreference Resolvers? [17.60248310475889]
我々は、コア参照のプロンプトが、現在の教師なしコア参照システムより優れていることを示す。
さらなる調査により、命令調整されたLMが驚くほどドメイン、言語、時間にまたがって一般化されることが判明した。
論文 参考訳(メタデータ) (2023-05-23T19:38:28Z) - Transparency Helps Reveal When Language Models Learn Meaning [71.96920839263457]
合成データを用いた体系的な実験により,すべての表現が文脈に依存しない意味を持つ言語では,自己回帰型とマスキング型の両方の言語モデルが,表現間の意味的関係をエミュレートする。
自然言語に目を向けると、特定の現象(参照不透明さ)による実験は、現在の言語モデルが自然言語の意味論をうまく表現していないという証拠を増大させる。
論文 参考訳(メタデータ) (2022-10-14T02:35:19Z) - Language Models are Few-shot Multilingual Learners [66.11011385895195]
我々は、非英語言語における多言語分類を行う際に、GPTモデルとT5モデルの多言語的スキルを評価する。
文脈としての英語の例を見ると、事前学習された言語モデルは、英語のテストサンプルだけでなく、英語以外のサンプルも予測できることが示されている。
論文 参考訳(メタデータ) (2021-09-16T03:08:22Z) - Multi-timescale Representation Learning in LSTM Language Models [69.98840820213937]
言語モデルは、非常に短いから非常に長いまでの時間スケールで単語間の統計的依存関係を捉えなければならない。
我々は、長期記憶言語モデルにおけるメモリゲーティング機構が、パワーローの減衰を捉えることができるかの理論を導出した。
実験の結果,自然言語で学習したLSTM言語モデルは,この理論分布を近似することがわかった。
論文 参考訳(メタデータ) (2020-09-27T02:13:38Z) - Recognizing Long Grammatical Sequences Using Recurrent Networks
Augmented With An External Differentiable Stack [73.48927855855219]
リカレントニューラルネットワーク(RNN)は、シーケンスモデリング、生成、予測に広く使われているディープアーキテクチャである。
RNNは、非常に長いシーケンスに対してあまり一般化せず、多くの重要な時間的処理や時系列予測問題に適用性を制限する。
これらの欠点に対処する方法の1つは、スタックのような外部の異なるメモリ構造とRNNを結合することである。
本稿では,重要なアーキテクチャと状態更新機構を備えたメモリ拡張RNNを改良する。
論文 参考訳(メタデータ) (2020-04-04T14:19:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。