論文の概要: Do Transformers Parse while Predicting the Masked Word?
- arxiv url: http://arxiv.org/abs/2303.08117v1
- Date: Tue, 14 Mar 2023 17:49:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-15 13:50:09.672536
- Title: Do Transformers Parse while Predicting the Masked Word?
- Title(参考訳): Transformers Parse は Masked Word を予測中か?
- Authors: Haoyu Zhao, Abhishek Panigrahi, Rong Ge, Sanjeev Arora
- Abstract要約: 事前訓練された言語モデルが実際に構文解析を行っているかどうかは疑問視されている。
本稿では,PCFGを用いた生成モデリングの文脈において,これらの疑問に答えるための一歩を踏み出した。
- 参考スコア(独自算出の注目度): 37.264075668312195
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-trained language models have been shown to encode linguistic structures,
e.g. dependency and constituency parse trees, in their embeddings while being
trained on unsupervised loss functions like masked language modeling. Some
doubts have been raised whether the models actually are doing parsing or only
some computation weakly correlated with it. We study questions: (a) Is it
possible to explicitly describe transformers with realistic embedding
dimension, number of heads, etc. that are capable of doing parsing -- or even
approximate parsing? (b) Why do pre-trained models capture parsing structure?
This paper takes a step toward answering these questions in the context of
generative modeling with PCFGs. We show that masked language models like BERT
or RoBERTa of moderate sizes can approximately execute the Inside-Outside
algorithm for the English PCFG [Marcus et al, 1993]. We also show that the
Inside-Outside algorithm is optimal for masked language modeling loss on the
PCFG-generated data. We also give a construction of transformers with $50$
layers, $15$ attention heads, and $1275$ dimensional embeddings in average such
that using its embeddings it is possible to do constituency parsing with
$>70\%$ F1 score on PTB dataset. We conduct probing experiments on models
pre-trained on PCFG-generated data to show that this not only allows recovery
of approximate parse tree, but also recovers marginal span probabilities
computed by the Inside-Outside algorithm, which suggests an implicit bias of
masked language modeling towards this algorithm.
- Abstract(参考訳): 事前学習された言語モデルは、例えば依存木や構成構文解析木のような言語構造を埋め込みでエンコードし、マスク付き言語モデリングのような教師なしの損失関数で訓練されることが示されている。
モデルが実際に解析を行っているのか、あるいはそれと弱い相関関係にある計算だけなのか、いくつかの疑問が持ち上がっている。
質問を勉強します
(a) 構文解析を行うことができる現実的な埋め込み次元や頭数などのトランスフォーマーを明示的に記述することは可能か -- あるいは近似解析さえ可能か?
b) 事前学習モデルが解析構造をキャプチャする理由
本稿では,PCFGを用いた生成モデリングの文脈において,これらの疑問に答えるための一歩を踏み出した。
bertやrobertaのような中規模のマスキング言語モデルは、英語のpcfg [marcus et al, 1993] の内側側アルゴリズムをほぼ実行可能であることを示した。
Inside-OutsideアルゴリズムはPCFG生成データに対するマスク付き言語モデリング損失に対して最適であることを示す。
また、50ドルのレイヤ、15ドルのアテンションヘッド、そして平均1275ドルの埋め込みを持つトランスフォーマーを構築し、その埋め込みを使用することでptbデータセットに$70\%$ f1スコアで構成解析を行うことができます。
我々はPCFG生成データ上で事前学習されたモデルに対する探索実験を行い、この手法により近似解析木を復元できるだけでなく、インサイド・アウトサイド・アルゴリズムによって計算された限界範囲の確率を復元できることを示す。
関連論文リスト
- Enhancing Self-Consistency and Performance of Pre-Trained Language
Models through Natural Language Inference [72.61732440246954]
大規模な事前訓練された言語モデルは、テスト入力間の論理的一貫性を欠いていることが多い。
本研究では,事前学習したNLPモデルの一貫性と精度を高めるためのフレームワークであるConCoRDを提案する。
ConCoRDは、市販のクローズドブックQAおよびVQAモデルの精度と一貫性を一貫して向上することを示す。
論文 参考訳(メタデータ) (2022-11-21T21:58:30Z) - Characterizing Intrinsic Compositionality in Transformers with Tree
Projections [72.45375959893218]
トランスのようなニューラルモデルは、入力の異なる部分間で情報を任意にルーティングすることができる。
3つの異なるタスクに対するトランスフォーマーは、トレーニングの過程でより木のようなものになることを示す。
これらの木はモデル挙動を予測し、より木のようなモデルは構成的一般化のテストにおいてより良く一般化する。
論文 参考訳(メタデータ) (2022-11-02T17:10:07Z) - Unsupervised and Few-shot Parsing from Pretrained Language Models [56.33247845224995]
本研究では,事前学習言語モデルで学習した自己注意重み行列に基づいて,アウトアソシエーションスコアを算出した教師なし構成的パーシングモデルを提案する。
教師なしモデルからいくつかの注釈付き木を用いた数ショット構文解析モデルに拡張し、解析のためのより優れた線形射影行列を学習する。
FPIOは20本の注釈付き木で訓練され、50本の注釈付き木で訓練された過去の数枚の構文解析よりも優れていた。
論文 参考訳(メタデータ) (2022-06-10T10:29:15Z) - The Limitations of Limited Context for Constituency Parsing [27.271792317099045]
Shen et al., 2018a)の構文解析アーキテクチャは、教師なし構文解析を最初に行った。
現在の構文に対するニューラルアプローチはどのような構文構造を表現できるのか?
我々は確率論的自由文法(PCFG)のサンドボックスにこの疑問を解いた。
これらのアプローチの表現力の重要な側面は、予測者がアクセス可能なコンテキストの量と方向性である。
論文 参考訳(メタデータ) (2021-06-03T03:58:35Z) - Heads-up! Unsupervised Constituency Parsing via Self-Attention Heads [27.578115452635625]
そこで本研究では, PLM の注目点から区切り木を抽出する, 完全に教師なしの構文解析手法を提案する。
我々は、トランスフォーマーのアテンションヘッドを、その特性に基づいてランク付けし、最終ツリーを生成するために、上位のヘッドのアンサンブルを作成します。
我々の実験は、PLMが暗黙的に学習する文法を分析するツールとしても利用できる。
論文 参考訳(メタデータ) (2020-10-19T13:51:40Z) - Latent Tree Learning with Ordered Neurons: What Parses Does It Produce? [2.025491206574996]
潜在木学習モデルは、人間に注釈を付けた木構造に触れることなく、選挙区解析を学習することができる。
ON-LSTMは言語モデリングのトレーニングを受けており、教師なし構文解析の最先端性能を持つ。
私たちは、異なる再起動でモデルを複製し、それらのパースを調べます。
論文 参考訳(メタデータ) (2020-10-10T07:12:48Z) - How do Decisions Emerge across Layers in Neural Models? Interpretation
with Differentiable Masking [70.92463223410225]
DiffMaskは、差分性を維持しながら入力のサブセットをマスクアウトすることを学ぶ。
入力トークンを包含または無視する決定は、中間隠蔽層に基づく単純なモデルで行われる。
これにより、属性のヒートマップをプロットするだけでなく、ネットワーク層間で意思決定がどのように形成されるかを分析することができます。
論文 参考訳(メタデータ) (2020-04-30T17:36:14Z) - Parameter Space Factorization for Zero-Shot Learning across Tasks and
Languages [112.65994041398481]
本稿では,ニューラルパラメータの空間に対するベイズ生成モデルを提案する。
タスク言語の組み合わせから得られたデータに基づいて、そのような潜伏変数よりも後部を推測する。
我々のモデルは、最先端のゼロショットの言語間転送手法よりも、同等か良い結果が得られる。
論文 参考訳(メタデータ) (2020-01-30T16:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。