論文の概要: Parsing as Pretraining
- arxiv url: http://arxiv.org/abs/2002.01685v1
- Date: Wed, 5 Feb 2020 08:43:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 20:53:16.112305
- Title: Parsing as Pretraining
- Title(参考訳): 事前学習としてのパース
- Authors: David Vilares and Michalina Strzyz and Anders S{\o}gaard and Carlos
G\'omez-Rodr\'iguez
- Abstract要約: まず、コンストラクタと依存性解析をシーケンスタグとしてキャストする。
次に、単一のフィードフォワード層を使用して、ワードベクトルを線形化された木をエンコードするラベルに直接マッピングする。
- 参考スコア(独自算出の注目度): 13.03764728768944
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent analyses suggest that encoders pretrained for language modeling
capture certain morpho-syntactic structure. However, probing frameworks for
word vectors still do not report results on standard setups such as constituent
and dependency parsing. This paper addresses this problem and does full parsing
(on English) relying only on pretraining architectures -- and no decoding. We
first cast constituent and dependency parsing as sequence tagging. We then use
a single feed-forward layer to directly map word vectors to labels that encode
a linearized tree. This is used to: (i) see how far we can reach on syntax
modelling with just pretrained encoders, and (ii) shed some light about the
syntax-sensitivity of different word vectors (by freezing the weights of the
pretraining network during training). For evaluation, we use bracketing
F1-score and LAS, and analyze in-depth differences across representations for
span lengths and dependency displacements. The overall results surpass existing
sequence tagging parsers on the PTB (93.5%) and end-to-end EN-EWT UD (78.8%).
- Abstract(参考訳): 最近の分析では、言語モデリングのために事前学習されたエンコーダは、特定の形態素合成構造をキャプチャすることが示唆されている。
しかし、ワードベクトルの探索フレームワークは、構成や依存性解析といった標準設定の結果をまだ報告していない。
本稿では,この問題に対処し,事前学習アーキテクチャのみに依存する完全な構文解析を行うとともに,復号化を行わない。
まず、コンストラクタと依存性解析をシーケンスタグとしてキャストする。
次に、単一のフィードフォワード層を使用して、線形木をエンコードするラベルにワードベクトルを直接マッピングします。
これは次のように使われる。
(i)事前訓練されたエンコーダで構文モデリングにどこまで到達できるか、そして
(ii)異なる単語ベクトルの構文感受性(トレーニング中の事前学習ネットワークの重み付けを凍結することで)について光を当てた。
評価にはブラケットF1スコアとLASを用い、長さと依存性の変位を示す表現間の深度差を解析する。
PTB(93.5%)とEN-EWT UD(78.8%)の既存のシーケンスタギング・パーサーを上回る結果となった。
関連論文リスト
- Integrating Supertag Features into Neural Discontinuous Constituent Parsing [0.0]
伝統的な選挙区の見解では、構成要素は隣接した単語で構成されており、ドイツ語のような言語で一般的である。
トランジションベースの構文解析は、大きな注釈付きコーパス上で教師あり学習を用いて生のテキストを入力した木を生成する。
論文 参考訳(メタデータ) (2024-10-11T12:28:26Z) - MRL Parsing Without Tears: The Case of Hebrew [14.104766026682384]
形態的にリッチな言語(MRL)では、トークンごとに複数の語彙単位を識別する必要があるが、既存のシステムはレイテンシとセットアップの複雑さに悩まされている。
決定は、専門家の分類器によって、各ユニットが1つの特定のタスクに特化して行われる。
この信じられないほど高速なアプローチは、HebrewのPOSタグ付けと依存性解析に新しいSOTAを設定し、他のHebrewタスクではほぼSOTAのパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-03-11T17:54:33Z) - Assessment of Pre-Trained Models Across Languages and Grammars [7.466159270333272]
シーケンスラベリングとしてパースをキャストすることで,構成構造と依存性構造を復元することを目的としている。
その結果、事前学習された単語ベクトルは、依存関係よりも構文の連続表現を好まないことが明らかとなった。
プレトレーニングデータ中の言語の発生は、単語ベクトルから構文を回復する際のタスクデータ量よりも重要である。
論文 参考訳(メタデータ) (2023-09-20T09:23:36Z) - Hexatagging: Projective Dependency Parsing as Tagging [63.5392760743851]
文中の単語を有限個の可能なタグの要素でタグ付けすることで、依存関係木を構成する新しい依存性であるヘキサトガーを導入する。
私たちのアプローチは、トレーニング時に完全に並列化可能です。すなわち、依存関係のパースを構築するのに必要な構造構築アクションは、互いに並列に予測できます。
我々はPenn Treebankテストセット上で96.4 LASと97.4 UASの最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-08T18:02:07Z) - Backpack Language Models [108.65930795825416]
Backpacksは、強力なモデリング性能と、解釈可能性と制御のためのインターフェースを組み合わせた、新しいニューラルアーキテクチャである。
学習のあと、感覚ベクトルが特殊化され、それぞれが単語の異なる側面を符号化することがわかった。
本稿では,感覚ベクトルに介入し,制御可能なテキスト生成とデバイアスを行うシンプルなアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-26T09:26:23Z) - Unsupervised and Few-shot Parsing from Pretrained Language Models [56.33247845224995]
本研究では,事前学習言語モデルで学習した自己注意重み行列に基づいて,アウトアソシエーションスコアを算出した教師なし構成的パーシングモデルを提案する。
教師なしモデルからいくつかの注釈付き木を用いた数ショット構文解析モデルに拡張し、解析のためのより優れた線形射影行列を学習する。
FPIOは20本の注釈付き木で訓練され、50本の注釈付き木で訓練された過去の数枚の構文解析よりも優れていた。
論文 参考訳(メタデータ) (2022-06-10T10:29:15Z) - Span Pointer Networks for Non-Autoregressive Task-Oriented Semantic
Parsing [55.97957664897004]
seq2seq、非自動回帰的、タスク指向を構築するための効果的なレシピは、3つのステップで発話とセマンティックフレームをマッピングする。
これらのモデルは通常、長さ予測によってボトルネックとなる。
本研究では,デコードタスクをテキスト生成からスパン予測へシフトさせる非自己回帰手法を提案する。
論文 参考訳(メタデータ) (2021-04-15T07:02:35Z) - Strongly Incremental Constituency Parsing with Graph Neural Networks [70.16880251349093]
文を構文木にパースすることは、NLPの下流アプリケーションに恩恵をもたらす。
トランジッションベースは、状態遷移システムでアクションを実行することでツリーを構築する。
既存のトランジションベースは主にシフト・リデュース・トランジション・システムに基づいている。
論文 参考訳(メタデータ) (2020-10-27T19:19:38Z) - Span-based Semantic Parsing for Compositional Generalization [53.24255235340056]
SpanBasedSPは入力発話上のスパンツリーを予測し、部分的なプログラムが入力内のスパンをどのように構成するかを明示的に符号化する。
GeoQuery、SCAN、CLOSUREでは、SpanBasedSPはランダムスプリットの強いseq2seqベースラインと似ているが、構成一般化を必要とするスプリットのベースラインに比べて劇的に性能が向上する。
論文 参考訳(メタデータ) (2020-09-13T16:42:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。