論文の概要: Do Syntactic Probes Probe Syntax? Experiments with Jabberwocky Probing
- arxiv url: http://arxiv.org/abs/2106.02559v1
- Date: Fri, 4 Jun 2021 15:46:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-07 18:49:37.157697
- Title: Do Syntactic Probes Probe Syntax? Experiments with Jabberwocky Probing
- Title(参考訳): syntactic Probesはsyntaxか?
Jabberwocky Probingの実験
- Authors: Rowan Hall Maudslay, Ryan Cotterell
- Abstract要約: 学習データにおける意味的手がかりは,構文的プローブが適切に構文を分離しないことを意味する。
私たちは、いくつかの人気のある言語モデルでプローブをトレーニングします。
- 参考スコア(独自算出の注目度): 45.834234634602566
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Analysing whether neural language models encode linguistic information has
become popular in NLP. One method of doing so, which is frequently cited to
support the claim that models like BERT encode syntax, is called probing;
probes are small supervised models trained to extract linguistic information
from another model's output. If a probe is able to predict a particular
structure, it is argued that the model whose output it is trained on must have
implicitly learnt to encode it. However, drawing a generalisation about a
model's linguistic knowledge about a specific phenomena based on what a probe
is able to learn may be problematic: in this work, we show that semantic cues
in training data means that syntactic probes do not properly isolate syntax. We
generate a new corpus of semantically nonsensical but syntactically well-formed
Jabberwocky sentences, which we use to evaluate two probes trained on normal
data. We train the probes on several popular language models (BERT, GPT, and
RoBERTa), and find that in all settings they perform worse when evaluated on
these data, for one probe by an average of 15.4 UUAS points absolute. Although
in most cases they still outperform the baselines, their lead is reduced
substantially, e.g. by 53% in the case of BERT for one probe. This begs the
question: what empirical scores constitute knowing syntax?
- Abstract(参考訳): 言語情報をエンコードするニューラルネットワークモデルが、NLPで人気が高まっている。
bertエンコード構文のようなモデルがプロビング(probing)と呼ばれ、プローブは他のモデルの出力から言語情報を抽出するために訓練された小さな教師付きモデルである。
プローブが特定の構造を予測できるならば、それが訓練されたモデルが暗黙的にそれをエンコードすることを学ばなければならない、という議論がある。
しかし、プローブが何を学べるかに基づいて、特定の現象に関するモデルの言語知識を一般化することは、問題となるかもしれない:本研究では、トレーニングデータにおける意味的手がかりは、構文プローブが構文を適切に分離しないことを意味する。
意味論的に非意味的だが構文的によくできたjabberwocky文のコーパスを生成し,正規データに基づく2つのプローブの評価を行う。
我々は、いくつかの人気のある言語モデル(BERT、GPT、RoBERTa)でプローブをトレーニングし、これらのデータに基づいて評価した場合、平均15.4UASポイントのプローブに対して、すべての設定において、それらがより悪い結果をもたらすことを確かめる。
ほとんどの場合、基線より優れているが、例えば、鉛は大幅に減少する。
1つのプローブの bert の場合 53% 増加しました
どんな経験的スコアが構文を知ることを構成するのか?
関連論文リスト
- Probing for targeted syntactic knowledge through grammatical error
detection [13.653209309144593]
本稿では,事前学習した英語モデルを評価するために,文法的誤り検出を診断プローブとして提案する。
我々は、英語の第二言語学習者とウィキペディアの編集の両方から、公的な注釈付きトレーニングデータを活用する。
マスク付き言語モデルでは,SVAエラー検出に関連する情報を線形に符号化し,自動回帰モデルはベースラインと同等に動作することがわかった。
論文 参考訳(メタデータ) (2022-10-28T16:01:25Z) - Order-sensitive Shapley Values for Evaluating Conceptual Soundness of
NLP Models [13.787554178089444]
順序感受性シェープ値(英: Order-sensitive Shapley Values、OSV)は、シーケンシャルデータの説明法である。
我々は,OSVが勾配に基づく手法よりもモデル行動の説明に忠実であることを示す。
また,OSVを利用して敵の例を生成できることも示す。
論文 参考訳(メタデータ) (2022-06-01T02:30:12Z) - Naturalistic Causal Probing for Morpho-Syntax [76.83735391276547]
スペインにおける実世界のデータに対する入力レベルの介入に対する自然主義的戦略を提案する。
提案手法を用いて,共同設立者から文章中の形態・症状の特徴を抽出する。
本研究では,事前学習したモデルから抽出した文脈化表現に対する性別と数字の因果効果を解析するために,本手法を適用した。
論文 参考訳(メタデータ) (2022-05-14T11:47:58Z) - Deep Clustering of Text Representations for Supervision-free Probing of
Syntax [51.904014754864875]
本研究では,音声誘導 (POSI) と選挙区ラベリング (CoLab) の一部を考察する。
また,Multilingual BERT (mBERT) には,驚くほど多くの英語の構文知識が含まれていることがわかった。
本稿では,45 タグの英語 POSI の競争性能,12 タグの英語 POSI の10言語間における最先端性能,CoLab の競争結果について報告する。
論文 参考訳(メタデータ) (2020-10-24T05:06:29Z) - A Tale of a Probe and a Parser [74.14046092181947]
言語のニューラルモデルにエンコードされている言語情報の計測は、NLPで人気が高まっている。
研究者は、他のモデルの出力から言語構造を抽出するために設計された教師付きモデル"プローブ"をトレーニングすることで、この企業にアプローチする。
そのようなプローブの1つは、構文情報が文脈化された単語表現でエンコードされる範囲を定量化するために設計された構造プローブである。
論文 参考訳(メタデータ) (2020-05-04T16:57:31Z) - Information-Theoretic Probing for Linguistic Structure [74.04862204427944]
本稿では,相互情報を推定するための情報理論による探索運用手法を提案する。
我々は,NLP研究でしばしば不足している10の型的多様言語について評価した。
論文 参考訳(メタデータ) (2020-04-07T01:06:36Z) - Information-Theoretic Probing with Minimum Description Length [74.29846942213445]
我々は,最小記述長 (MDL) を持つ情報理論探索法である標準プローブの代替案を提案する。
MDL Probingでは、ラベルを予測するためのプローブのトレーニングが、データを効果的に送信するための教えとして再キャストされる。
これらの手法は結果に一致し、標準プローブよりも情報的かつ安定であることを示す。
論文 参考訳(メタデータ) (2020-03-27T09:35:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。