論文の概要: Penn-Helsinki Parsed Corpus of Early Modern English: First Parsing
Results and Analysis
- arxiv url: http://arxiv.org/abs/2112.08532v1
- Date: Wed, 15 Dec 2021 23:56:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-17 15:13:54.794915
- Title: Penn-Helsinki Parsed Corpus of Early Modern English: First Parsing
Results and Analysis
- Title(参考訳): Penn-Helsinkiによる現代英語の構文解析 : 最初の解析結果と解析
- Authors: Seth Kulick, Neville Ryant, Beatrice Santorini
- Abstract要約: 本研究は,Penn-Helsinki Parsed Corpus of Early Modern English (PPCEME) の最初の解析結果である。
PPCEMEの重要な特徴として,Penn Treebankよりも大きく,より多様な関数タグを含む,解析の難しさを挙げる。
- 参考スコア(独自算出の注目度): 2.8749014299466444
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present the first parsing results on the Penn-Helsinki Parsed Corpus of
Early Modern English (PPCEME), a 1.9 million word treebank that is an important
resource for research in syntactic change. We describe key features of PPCEME
that make it challenging for parsing, including a larger and more varied set of
function tags than in the Penn Treebank. We present results for this corpus
using a modified version of the Berkeley Neural Parser and the approach to
function tag recovery of Gabbard et al (2006). Despite its simplicity, this
approach works surprisingly well, suggesting it is possible to recover the
original structure with sufficient accuracy to support linguistic applications
(e.g., searching for syntactic structures of interest). However, for a subset
of function tags (e.g., the tag indicating direct speech), additional work is
needed, and we discuss some further limits of this approach. The resulting
parser will be used to parse Early English Books Online, a 1.1 billion word
corpus whose utility for the study of syntactic change will be greatly
increased with the addition of accurate parse trees.
- Abstract(参考訳): 本稿では,現代英語のPenn-Helsinki Parsed Corpus(PPCEME)の構文変化研究のための重要な資料である190万語木バンクについて,最初の解析結果を示す。
我々は,penn treebankよりも大きく,多種多様な関数タグを含む,パースを困難にするppcemeの重要な特徴について述べる。
本稿では,バークレー・ニューラル・パーサの修正版とgabbard et al (2006) の機能タグ・リカバリのアプローチを用いて,本コーパスの結果を示す。
その単純さにもかかわらず、このアプローチは驚くほどうまく機能し、言語応用(例えば、興味のある構文構造を探す)をサポートするのに十分な精度で元の構造を復元できることを示唆している。
しかし、関数タグのサブセット(例えば、直接発話を示すタグ)については、追加作業が必要であり、このアプローチのさらなる限界について検討する。
その結果得られたパーサーは、正確なパースツリーの追加により構文変化の研究に有用性を持つ111億語のコーパスである初期の英語書籍をオンラインで解析するために使用される。
関連論文リスト
- Syntactic Language Change in English and German: Metrics, Parsers, and
Convergences [59.3104689496844]
本論文は,過去160年間の議会討論のコーパスを用いて,英語とドイツ語の統語的言語変化のダイアクロニックな傾向を考察する。
私たちは、広く使われているStanford Coreと、新しい4つの選択肢を含む5つの依存関係をベースとしています。
文長分布の尾部では,構文的尺度の変化が頻繁であることが明らかとなった。
論文 参考訳(メタデータ) (2024-02-18T11:46:16Z) - Structured Dialogue Discourse Parsing [79.37200787463917]
談話解析は、多人数会話の内部構造を明らかにすることを目的としている。
本稿では,符号化と復号化という2つの観点から,従来の作業を改善する原理的手法を提案する。
実験の結果,本手法は,STACでは2.3,Mollweniでは1.5,先行モデルでは2.3を上回った。
論文 参考訳(メタデータ) (2023-06-26T22:51:01Z) - Hexatagging: Projective Dependency Parsing as Tagging [63.5392760743851]
文中の単語を有限個の可能なタグの要素でタグ付けすることで、依存関係木を構成する新しい依存性であるヘキサトガーを導入する。
私たちのアプローチは、トレーニング時に完全に並列化可能です。すなわち、依存関係のパースを構築するのに必要な構造構築アクションは、互いに並列に予測できます。
我々はPenn Treebankテストセット上で96.4 LASと97.4 UASの最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-08T18:02:07Z) - A Biologically Plausible Parser [1.8563342761346613]
生物学的に可塑性ニューロンとシナプスに作用する英語の1つについて述べる。
この装置は、合理的に非自明な文を正しく解析できることを実証する。
論文 参考訳(メタデータ) (2021-08-04T17:27:06Z) - An In-depth Study on Internal Structure of Chinese Words [34.864343591706984]
本研究は,中国語の単語の深い内部構造を,構文的関係を識別するための11のラベルを持つ依存木としてモデル化することを提案する。
中国語の Penn Treebank から 30K 以上の多字語からなる単語内構造木バンク (WIST) を手動で注釈する。
我々は,中国語の単語形成に関する知見を明らかにするために,WISTに関する詳細な,興味深い分析を行った。
論文 参考訳(メタデータ) (2021-06-01T09:09:51Z) - Strongly Incremental Constituency Parsing with Graph Neural Networks [70.16880251349093]
文を構文木にパースすることは、NLPの下流アプリケーションに恩恵をもたらす。
トランジッションベースは、状態遷移システムでアクションを実行することでツリーを構築する。
既存のトランジションベースは主にシフト・リデュース・トランジション・システムに基づいている。
論文 参考訳(メタデータ) (2020-10-27T19:19:38Z) - A Survey of Unsupervised Dependency Parsing [62.16714720135358]
教師なしの依存関係解析は、正しいパースツリーのアノテーションを持たない文から依存関係を学ぶことを目的としている。
その困難さにもかかわらず、教師なしの構文解析は、ほとんど無制限に注釈のないテキストデータを利用することができるため、興味深い研究方向である。
論文 参考訳(メタデータ) (2020-10-04T10:51:22Z) - A Survey of Syntactic-Semantic Parsing Based on Constituent and
Dependency Structures [14.714725860010724]
我々は、構文解析の最も一般的な2つの形式、すなわち構成解析と依存性解析に焦点を当てている。
本稿では、構成解析と依存性解析の代表モデルと、リッチセマンティクスによる依存性解析について概説する。
論文 参考訳(メタデータ) (2020-06-19T10:21:17Z) - A Tale of a Probe and a Parser [74.14046092181947]
言語のニューラルモデルにエンコードされている言語情報の計測は、NLPで人気が高まっている。
研究者は、他のモデルの出力から言語構造を抽出するために設計された教師付きモデル"プローブ"をトレーニングすることで、この企業にアプローチする。
そのようなプローブの1つは、構文情報が文脈化された単語表現でエンコードされる範囲を定量化するために設計された構造プローブである。
論文 参考訳(メタデータ) (2020-05-04T16:57:31Z) - Parsing Early Modern English for Linguistic Search [3.927039542429003]
我々は,NLPの進歩により,歴史的構文の研究に利用可能なデータサイズを大幅に拡大できるかどうかを考察する。
これにより、自動アノテーション付きコーパスによる言語クエリのサービスにおいて、NLPの一般的なツール – ワード埋め込み、タグ付け、パース – が数多く統合される。
我々は10億語以上の類似したテキストをトレーニングしたELMo埋め込みを用いて、POSタグと歴史的英語のコーパスをトレーニングする。
論文 参考訳(メタデータ) (2020-02-24T21:04:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。