論文の概要: Do Neural Language Models Show Preferences for Syntactic Formalisms?
- arxiv url: http://arxiv.org/abs/2004.14096v1
- Date: Wed, 29 Apr 2020 11:37:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 12:50:58.467069
- Title: Do Neural Language Models Show Preferences for Syntactic Formalisms?
- Title(参考訳): ニューラル言語モデルでは構文形式主義が望ましいか?
- Authors: Artur Kulmizev, Vinit Ravishankar, Mostafa Abdou, Joakim Nivre
- Abstract要約: 本研究では,言語モデルが捉えた構文構造のセマンランスが,表面シンタクティックあるいは深層構文解析の様式にどの程度依存しているかについて検討する。
13の異なる言語で訓練されたBERTおよびELMoモデルに対して,有向依存木抽出のためのプローブを適用した。
どちらのモデルも、SUDよりもUDを好むことが分かりました。
- 参考スコア(独自算出の注目度): 14.388237635684737
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work on the interpretability of deep neural language models has
concluded that many properties of natural language syntax are encoded in their
representational spaces. However, such studies often suffer from limited scope
by focusing on a single language and a single linguistic formalism. In this
study, we aim to investigate the extent to which the semblance of syntactic
structure captured by language models adheres to a surface-syntactic or deep
syntactic style of analysis, and whether the patterns are consistent across
different languages. We apply a probe for extracting directed dependency trees
to BERT and ELMo models trained on 13 different languages, probing for two
different syntactic annotation styles: Universal Dependencies (UD),
prioritizing deep syntactic relations, and Surface-Syntactic Universal
Dependencies (SUD), focusing on surface structure. We find that both models
exhibit a preference for UD over SUD - with interesting variations across
languages and layers - and that the strength of this preference is correlated
with differences in tree shape.
- Abstract(参考訳): ディープニューラルネットワークモデルの解釈可能性に関する最近の研究は、自然言語構文の多くの性質が表現空間にエンコードされていると結論付けている。
しかし、そのような研究は単一の言語と単一の言語形式に焦点を合わせることで、限られた範囲に悩まされることが多い。
本研究では,言語モデルが捉えた構文構造のセマンランスが,表層シンタクティックあるいは深層構文解析のスタイルにどの程度依存しているか,また,パターンが異なる言語間で一貫性があるかを検討することを目的とする。
本研究では,有向依存木を抽出するプローブを,13言語で訓練されたBERTモデルとELMoモデルに適用し,共通依存(UD),深部構文関係の優先順位付け,表面-シンタクティックユニバーサル依存(SUD)という2つの異なる構文アノテーションスタイルを探索する。
どちらのモデルもSUDよりもUDの方が好まれており、言語や層によって興味深いバリエーションがあり、この選好の強さは木の形状の違いと相関していることがわかった。
関連論文リスト
- Language Embeddings Sometimes Contain Typological Generalizations [0.0]
我々は、1295の言語における聖書翻訳の膨大な多言語データセットに基づいて、自然言語処理タスクのニューラルネットワークを訓練する。
学習された言語表現は、既存の類型データベースや、新しい量的構文的・形態的特徴セットと比較される。
いくつかの一般化は言語型学の伝統的な特徴に驚くほど近いが、ほとんどのモデルは以前の研究と同様に言語学的に意味のある一般化をしていないと結論付けている。
論文 参考訳(メタデータ) (2023-01-19T15:09:59Z) - Causal Analysis of Syntactic Agreement Neurons in Multilingual Language
Models [28.036233760742125]
我々は多言語言語モデル(XGLMと多言語BERT)を様々な言語で因果的に探索する。
自己回帰型多言語言語モデルでは、言語間で大きなニューロンオーバーラップが見られるが、マスキング言語モデルではない。
論文 参考訳(メタデータ) (2022-10-25T20:43:36Z) - Universal and Independent: Multilingual Probing Framework for Exhaustive
Model Interpretation and Evaluation [0.04199844472131922]
多数の言語を簡単に探索できるGUI支援フレームワークを提案し,適用した。
mBERTモデルで明らかになった規則性のほとんどは、西欧語で典型的である。
私たちのフレームワークは,既存のプローブツールボックスやモデルカード,リーダボードと統合することができます。
論文 参考訳(メタデータ) (2022-10-24T13:41:17Z) - Transparency Helps Reveal When Language Models Learn Meaning [71.96920839263457]
合成データを用いた体系的な実験により,すべての表現が文脈に依存しない意味を持つ言語では,自己回帰型とマスキング型の両方の言語モデルが,表現間の意味的関係をエミュレートする。
自然言語に目を向けると、特定の現象(参照不透明さ)による実験は、現在の言語モデルが自然言語の意味論をうまく表現していないという証拠を増大させる。
論文 参考訳(メタデータ) (2022-10-14T02:35:19Z) - Integrating Linguistic Theory and Neural Language Models [2.870517198186329]
理論的言語学とニューラル言語モデルが相互にどのように関係しているかを説明するためのケーススタディをいくつか提示する。
この論文は、言語モデルにおける構文意味インタフェースの異なる側面を探求する3つの研究に貢献する。
論文 参考訳(メタデータ) (2022-07-20T04:20:46Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - Language Model Evaluation Beyond Perplexity [47.268323020210175]
我々は、言語モデルから生成されたテキストが、訓練された人為的なテキストに存在する統計的傾向を示すかどうかを分析する。
ニューラルネットワークモデルは、考慮された傾向のサブセットのみを学習しているように見えるが、提案された理論分布よりも経験的傾向とより密接に一致している。
論文 参考訳(メタデータ) (2021-05-31T20:13:44Z) - Joint Universal Syntactic and Semantic Parsing [39.39769254704693]
我々は,Universal Decompositional Semanticsデータセットに含まれる豊富な構文と意味アノテーションを利用する。
構文と意味論の合同モデルの振る舞いを分析し,言語理論が支持するパターンを見出した。
次に、結合モデリングが多言語設定に一般化する程度を調査し、8つの言語で同様の傾向を見出す。
論文 参考訳(メタデータ) (2021-04-12T17:56:34Z) - Constructing a Family Tree of Ten Indo-European Languages with
Delexicalized Cross-linguistic Transfer Patterns [57.86480614673034]
我々は,デレクシカル化転送を,解釈可能なツリー・ツー・ストリングパターンとツリー・ツー・ツリーパターンとして定式化する。
これにより、言語間移動を定量的に探索し、第二言語習得の問い合わせを拡張することができる。
論文 参考訳(メタデータ) (2020-07-17T15:56:54Z) - Linguistic Typology Features from Text: Inferring the Sparse Features of
World Atlas of Language Structures [73.06435180872293]
我々は、バイト埋め込みと畳み込み層に基づく繰り返しニューラルネットワーク予測器を構築する。
様々な言語型の特徴を確実に予測できることを示す。
論文 参考訳(メタデータ) (2020-04-30T21:00:53Z) - Evaluating Transformer-Based Multilingual Text Classification [55.53547556060537]
我々は,NLPツールが構文的・形態学的に異なる言語で不平等に機能すると主張している。
実験研究を支援するために,単語順と形態的類似度指標を算出した。
論文 参考訳(メタデータ) (2020-04-29T03:34:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。