論文の概要: Causal Analysis of Syntactic Agreement Mechanisms in Neural Language
Models
- arxiv url: http://arxiv.org/abs/2106.06087v1
- Date: Thu, 10 Jun 2021 23:50:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-14 14:18:56.269424
- Title: Causal Analysis of Syntactic Agreement Mechanisms in Neural Language
Models
- Title(参考訳): ニューラルネットワークモデルにおける構文一致機構の因果解析
- Authors: Matthew Finlayson, Aaron Mueller, Stuart Shieber, Sebastian Gehrmann,
Tal Linzen, Yonatan Belinkov
- Abstract要約: 本研究は、訓練済みニューラルネットワークモデルに因果媒介分析を適用した。
文法的屈折に対するモデルの好みの大きさについて検討する。
本研究は, 構文構造に応じて, 主語と主語を一致させる2つのメカニズムを観察する。
- 参考スコア(独自算出の注目度): 40.83377935276978
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Targeted syntactic evaluations have demonstrated the ability of language
models to perform subject-verb agreement given difficult contexts. To elucidate
the mechanisms by which the models accomplish this behavior, this study applies
causal mediation analysis to pre-trained neural language models. We investigate
the magnitude of models' preferences for grammatical inflections, as well as
whether neurons process subject-verb agreement similarly across sentences with
different syntactic structures. We uncover similarities and differences across
architectures and model sizes -- notably, that larger models do not necessarily
learn stronger preferences. We also observe two distinct mechanisms for
producing subject-verb agreement depending on the syntactic structure of the
input sentence. Finally, we find that language models rely on similar sets of
neurons when given sentences with similar syntactic structure.
- Abstract(参考訳): 対象とする構文評価は,難易度のある文脈において,言語モデルが主語と動詞の合意を行う能力を示す。
本研究は,この動作をモデルが達成するメカニズムを明らかにするために,事前学習されたニューラルネットワークモデルに対して因果的調停分析を適用する。
本研究は, 文法的屈折に対するモデルの嗜好の大きさ, および, 異なる構文構造を持つ文間で, 主語-動詞の一致が同様に処理されるか否かを考察する。
アーキテクチャとモデルのサイズの類似点と相違点を明らかにする。
また、入力文の構文構造に応じて主語と動詞の合意を生成する2つの異なるメカニズムを観察する。
最後に、類似した構文構造を持つ文が与えられた場合、言語モデルは類似したニューロンの集合に依存する。
関連論文リスト
- Agentivit\`a e telicit\`a in GilBERTo: implicazioni cognitive [77.71680953280436]
本研究の目的は,トランスフォーマーに基づくニューラルネットワークモデルが語彙意味論を推論するかどうかを検討することである。
考慮される意味的性質は、テリシティ(定性とも組み合わされる)と作用性である。
論文 参考訳(メタデータ) (2023-07-06T10:52:22Z) - Model Criticism for Long-Form Text Generation [113.13900836015122]
我々は,テキストの高レベル構造を評価するために,潜在空間におけるモデル批判という統計ツールを適用した。
我々は,コヒーレンス,コア,トピックスという,ハイレベルな談話の3つの代表的な側面について実験を行った。
トランスフォーマーベースの言語モデルでは、トピック構造をキャプチャできるが、構造コヒーレンスやモデリングコアスを維持するのが難しくなる。
論文 参考訳(メタデータ) (2022-10-16T04:35:58Z) - Interpreting Language Models with Contrastive Explanations [99.7035899290924]
言語モデルは、音声、数字、時制、意味論など、トークンを予測するための様々な特徴を考慮しなければならない。
既存の説明手法は、これらの特徴の証拠を1つの説明に分割するが、人間の理解には理解できない。
比較的な説明は、主要な文法現象の検証において、非対照的な説明よりも定量的に優れていることを示す。
論文 参考訳(メタデータ) (2022-02-21T18:32:24Z) - Oracle Linguistic Graphs Complement a Pretrained Transformer Language
Model: A Cross-formalism Comparison [13.31232311913236]
言語グラフ表現が神経言語モデリングを補完し改善する程度について検討する。
全体としては、セマンティックな選挙区構造は言語モデリングのパフォーマンスに最も有用である。
論文 参考訳(メタデータ) (2021-12-15T04:29:02Z) - Syntactic Persistence in Language Models: Priming as a Window into
Abstract Language Representations [0.38498574327875945]
本稿では,現代のニューラル言語モデルが統語的プライミングにどの程度影響するかについて検討する。
プライミング強度と相互作用する様々な言語要因を制御できる大規模コーパスであるPrime-LMを新たに導入する。
単語と意味の相違があるが,同じ構文構造を持つ複数の文をプライミングした場合,驚くほど強いプライミング効果が報告される。
論文 参考訳(メタデータ) (2021-09-30T10:38:38Z) - Is Incoherence Surprising? Targeted Evaluation of Coherence Prediction
from Language Models [7.5413579967970605]
談話と対話の一貫性の異なる側面に対処する拡張可能なテストスイートを設計する。
従来のコヒーレンス評価研究と異なり、文順の摂動以外の特定の言語装置を扱う。
このパラダイムはコヒーレンスの概念に寄与する言語的品質を評価するのに等しく適していることを示す。
論文 参考訳(メタデータ) (2021-05-07T20:28:33Z) - Mechanisms for Handling Nested Dependencies in Neural-Network Language
Models and Humans [75.15855405318855]
我々は,「深層学習」手法で訓練された現代人工ニューラルネットワークが,人間の文処理の中心的な側面を模倣するかどうかを検討した。
ネットワークは、大きなコーパスで次の単語を予測するためにのみ訓練されたが、分析の結果、局所的および長距離の構文合意をうまく処理する特別なユニットが出現した。
我々は,複数の名詞の単数/複数状態における体系的な変化を伴う文中の数一致の違反を人間が検出する行動実験において,モデルの予測を検証した。
論文 参考訳(メタデータ) (2020-06-19T12:00:05Z) - Exploiting Syntactic Structure for Better Language Modeling: A Syntactic
Distance Approach [78.77265671634454]
我々はマルチタスクの目的、すなわち、モデルが単語を同時に予測し、また「シンタクティック距離」と呼ばれる形態で真実解析木を解析する。
Penn Treebank と Chinese Treebank のデータセットによる実験結果から,地上の真理解析木を追加の訓練信号として提供すると,そのモデルはより低いパープレキシティを実現し,より良い品質で木を誘導できることが示された。
論文 参考訳(メタデータ) (2020-05-12T15:35:00Z) - Do Neural Language Models Show Preferences for Syntactic Formalisms? [14.388237635684737]
本研究では,言語モデルが捉えた構文構造のセマンランスが,表面シンタクティックあるいは深層構文解析の様式にどの程度依存しているかについて検討する。
13の異なる言語で訓練されたBERTおよびELMoモデルに対して,有向依存木抽出のためのプローブを適用した。
どちらのモデルも、SUDよりもUDを好むことが分かりました。
論文 参考訳(メタデータ) (2020-04-29T11:37:53Z) - Overestimation of Syntactic Representationin Neural Language Models [16.765097098482286]
構文構造を誘導するモデルの能力を決定する一般的な方法の1つは、テンプレートに従って生成された文字列上でモデルを訓練し、それらの文字列と表面的に類似した文字列を異なる構文で区別するモデルの能力をテストすることである。
本稿では,2つの非シンタクティックなベースライン言語モデルを用いた最近の論文の肯定的な結果を再現することで,このアプローチの根本的な問題を説明する。
論文 参考訳(メタデータ) (2020-04-10T15:13:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。