Fugu-MT 論文翻訳(概要): Do Transformers Parse while Predicting the Masked Word?

論文の概要: Do Transformers Parse while Predicting the Masked Word?

arxiv url: http://arxiv.org/abs/2303.08117v1
Date: Tue, 14 Mar 2023 17:49:50 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-15 13:50:09.672536
Title: Do Transformers Parse while Predicting the Masked Word?
Title（参考訳）: Transformers Parse は Masked Word を予測中か?
Authors: Haoyu Zhao, Abhishek Panigrahi, Rong Ge, Sanjeev Arora
Abstract要約: 事前訓練された言語モデルが実際に構文解析を行っているかどうかは疑問視されている。本稿では,PCFGを用いた生成モデリングの文脈において,これらの疑問に答えるための一歩を踏み出した。
参考スコア（独自算出の注目度）: 37.264075668312195
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Pre-trained language models have been shown to encode linguistic structures, e.g. dependency and constituency parse trees, in their embeddings while being trained on unsupervised loss functions like masked language modeling. Some doubts have been raised whether the models actually are doing parsing or only some computation weakly correlated with it. We study questions: (a) Is it possible to explicitly describe transformers with realistic embedding dimension, number of heads, etc. that are capable of doing parsing -- or even approximate parsing? (b) Why do pre-trained models capture parsing structure? This paper takes a step toward answering these questions in the context of generative modeling with PCFGs. We show that masked language models like BERT or RoBERTa of moderate sizes can approximately execute the Inside-Outside algorithm for the English PCFG [Marcus et al, 1993]. We also show that the Inside-Outside algorithm is optimal for masked language modeling loss on the PCFG-generated data. We also give a construction of transformers with $50$ layers, $15$ attention heads, and $1275$ dimensional embeddings in average such that using its embeddings it is possible to do constituency parsing with $>70\%$ F1 score on PTB dataset. We conduct probing experiments on models pre-trained on PCFG-generated data to show that this not only allows recovery of approximate parse tree, but also recovers marginal span probabilities computed by the Inside-Outside algorithm, which suggests an implicit bias of masked language modeling towards this algorithm.
Abstract（参考訳）: 事前学習された言語モデルは、例えば依存木や構成構文解析木のような言語構造を埋め込みでエンコードし、マスク付き言語モデリングのような教師なしの損失関数で訓練されることが示されている。モデルが実際に解析を行っているのか、あるいはそれと弱い相関関係にある計算だけなのか、いくつかの疑問が持ち上がっている。質問を勉強します (a) 構文解析を行うことができる現実的な埋め込み次元や頭数などのトランスフォーマーを明示的に記述することは可能か -- あるいは近似解析さえ可能か? b) 事前学習モデルが解析構造をキャプチャする理由本稿では,PCFGを用いた生成モデリングの文脈において,これらの疑問に答えるための一歩を踏み出した。 bertやrobertaのような中規模のマスキング言語モデルは、英語のpcfg [marcus et al, 1993] の内側側アルゴリズムをほぼ実行可能であることを示した。 Inside-OutsideアルゴリズムはPCFG生成データに対するマスク付き言語モデリング損失に対して最適であることを示す。また、50ドルのレイヤ、15ドルのアテンションヘッド、そして平均1275ドルの埋め込みを持つトランスフォーマーを構築し、その埋め込みを使用することでptbデータセットに$70\%$ f1スコアで構成解析を行うことができます。我々はPCFG生成データ上で事前学習されたモデルに対する探索実験を行い、この手法により近似解析木を復元できるだけでなく、インサイド・アウトサイド・アルゴリズムによって計算された限界範囲の確率を復元できることを示す。

関連論文リスト

Contextual Distortion Reveals Constituency: Masked Language Models are Implicit Parsers [7.558415495951758]
マスク付き言語モデル(LM)から解析木を抽出する新しい手法を提案する。本手法は,言語摂動による文脈表現の歪みに基づいて,各スパンのスコアを算出する。本手法は,マスク付きLMを用いた英語における従来の最先端手法を一貫して上回り,多言語環境での優れた性能を示す。
論文参考訳（メタデータ） (2023-06-01T13:10:48Z)
Interpretability at Scale: Identifying Causal Mechanisms in Alpaca [62.65877150123775]
本研究では、Boundless DASを用いて、命令に従う間、大規模言語モデルにおける解釈可能な因果構造を効率的に探索する。私たちの発見は、成長し、最も広くデプロイされている言語モデルの内部構造を忠実に理解するための第一歩です。
論文参考訳（メタデータ） (2023-05-15T17:15:40Z)
Nonparametric Masked Language Modeling [113.71921977520864]
既存の言語モデル(LM)は、有限語彙上のソフトマックスでトークンを予測する。 NPMは,このソフトマックスを参照コーパス内の各フレーズの非パラメトリック分布に置き換える最初の非パラメトリックマスク付き言語モデルである。 NPMは、コントラスト目的と全コーパス検索に対するバッチ内近似で効率的に訓練することができる。
論文参考訳（メタデータ） (2022-12-02T18:10:42Z)
Characterizing Intrinsic Compositionality in Transformers with Tree Projections [72.45375959893218]
トランスのようなニューラルモデルは、入力の異なる部分間で情報を任意にルーティングすることができる。 3つの異なるタスクに対するトランスフォーマーは、トレーニングの過程でより木のようなものになることを示す。これらの木はモデル挙動を予測し、より木のようなモデルは構成的一般化のテストにおいてより良く一般化する。
論文参考訳（メタデータ） (2022-11-02T17:10:07Z)
Unsupervised and Few-shot Parsing from Pretrained Language Models [56.33247845224995]
本研究では,事前学習言語モデルで学習した自己注意重み行列に基づいて,アウトアソシエーションスコアを算出した教師なし構成的パーシングモデルを提案する。教師なしモデルからいくつかの注釈付き木を用いた数ショット構文解析モデルに拡張し、解析のためのより優れた線形射影行列を学習する。 FPIOは20本の注釈付き木で訓練され、50本の注釈付き木で訓練された過去の数枚の構文解析よりも優れていた。
論文参考訳（メタデータ） (2022-06-10T10:29:15Z)
The Limitations of Limited Context for Constituency Parsing [27.271792317099045]
Shen et al., 2018a)の構文解析アーキテクチャは、教師なし構文解析を最初に行った。現在の構文に対するニューラルアプローチはどのような構文構造を表現できるのか? 我々は確率論的自由文法(PCFG)のサンドボックスにこの疑問を解いた。これらのアプローチの表現力の重要な側面は、予測者がアクセス可能なコンテキストの量と方向性である。
論文参考訳（メタデータ） (2021-06-03T03:58:35Z)
Heads-up! Unsupervised Constituency Parsing via Self-Attention Heads [27.578115452635625]
そこで本研究では, PLM の注目点から区切り木を抽出する, 完全に教師なしの構文解析手法を提案する。我々は、トランスフォーマーのアテンションヘッドを、その特性に基づいてランク付けし、最終ツリーを生成するために、上位のヘッドのアンサンブルを作成します。我々の実験は、PLMが暗黙的に学習する文法を分析するツールとしても利用できる。
論文参考訳（メタデータ） (2020-10-19T13:51:40Z)
Latent Tree Learning with Ordered Neurons: What Parses Does It Produce? [2.025491206574996]
潜在木学習モデルは、人間に注釈を付けた木構造に触れることなく、選挙区解析を学習することができる。 ON-LSTMは言語モデリングのトレーニングを受けており、教師なし構文解析の最先端性能を持つ。私たちは、異なる再起動でモデルを複製し、それらのパースを調べます。
論文参考訳（メタデータ） (2020-10-10T07:12:48Z)
Parameter Space Factorization for Zero-Shot Learning across Tasks and Languages [112.65994041398481]
本稿では,ニューラルパラメータの空間に対するベイズ生成モデルを提案する。タスク言語の組み合わせから得られたデータに基づいて、そのような潜伏変数よりも後部を推測する。我々のモデルは、最先端のゼロショットの言語間転送手法よりも、同等か良い結果が得られる。
論文参考訳（メタデータ） (2020-01-30T16:58:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。