論文の概要: Penn-Helsinki Parsed Corpus of Early Modern English: First Parsing
Results and Analysis
- arxiv url: http://arxiv.org/abs/2112.08532v1
- Date: Wed, 15 Dec 2021 23:56:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-17 15:13:54.794915
- Title: Penn-Helsinki Parsed Corpus of Early Modern English: First Parsing
Results and Analysis
- Title(参考訳): Penn-Helsinkiによる現代英語の構文解析 : 最初の解析結果と解析
- Authors: Seth Kulick, Neville Ryant, Beatrice Santorini
- Abstract要約: 本研究は,Penn-Helsinki Parsed Corpus of Early Modern English (PPCEME) の最初の解析結果である。
PPCEMEの重要な特徴として,Penn Treebankよりも大きく,より多様な関数タグを含む,解析の難しさを挙げる。
- 参考スコア(独自算出の注目度): 2.8749014299466444
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present the first parsing results on the Penn-Helsinki Parsed Corpus of
Early Modern English (PPCEME), a 1.9 million word treebank that is an important
resource for research in syntactic change. We describe key features of PPCEME
that make it challenging for parsing, including a larger and more varied set of
function tags than in the Penn Treebank. We present results for this corpus
using a modified version of the Berkeley Neural Parser and the approach to
function tag recovery of Gabbard et al (2006). Despite its simplicity, this
approach works surprisingly well, suggesting it is possible to recover the
original structure with sufficient accuracy to support linguistic applications
(e.g., searching for syntactic structures of interest). However, for a subset
of function tags (e.g., the tag indicating direct speech), additional work is
needed, and we discuss some further limits of this approach. The resulting
parser will be used to parse Early English Books Online, a 1.1 billion word
corpus whose utility for the study of syntactic change will be greatly
increased with the addition of accurate parse trees.
- Abstract(参考訳): 本稿では,現代英語のPenn-Helsinki Parsed Corpus(PPCEME)の構文変化研究のための重要な資料である190万語木バンクについて,最初の解析結果を示す。
我々は,penn treebankよりも大きく,多種多様な関数タグを含む,パースを困難にするppcemeの重要な特徴について述べる。
本稿では,バークレー・ニューラル・パーサの修正版とgabbard et al (2006) の機能タグ・リカバリのアプローチを用いて,本コーパスの結果を示す。
その単純さにもかかわらず、このアプローチは驚くほどうまく機能し、言語応用(例えば、興味のある構文構造を探す)をサポートするのに十分な精度で元の構造を復元できることを示唆している。
しかし、関数タグのサブセット(例えば、直接発話を示すタグ)については、追加作業が必要であり、このアプローチのさらなる限界について検討する。
その結果得られたパーサーは、正確なパースツリーの追加により構文変化の研究に有用性を持つ111億語のコーパスである初期の英語書籍をオンラインで解析するために使用される。
関連論文リスト
- Integrating Supertag Features into Neural Discontinuous Constituent Parsing [0.0]
伝統的な選挙区の見解では、構成要素は隣接した単語で構成されており、ドイツ語のような言語で一般的である。
トランジションベースの構文解析は、大きな注釈付きコーパス上で教師あり学習を用いて生のテキストを入力した木を生成する。
論文 参考訳(メタデータ) (2024-10-11T12:28:26Z) - Urdu Dependency Parsing and Treebank Development: A Syntactic and Morphological Perspective [0.0]
依存関係解析を用いて、ウルドゥー語でニュース記事を分析する。
最良ラベル付き精度(LA)は70%,未ラベル付きアタッチメントスコア(UAS)は84%であった。
論文 参考訳(メタデータ) (2024-06-13T19:30:32Z) - MaiBaam: A Multi-Dialectal Bavarian Universal Dependency Treebank [56.810282574817414]
We present the first multi-dialect Bavarian treebank (MaiBaam) based with part-of-speech and syntactic dependency information in Universal Dependencies (UD)。
我々は、近縁なバイエルン語とドイツ語のモルフォシンタクティックな相違を強調し、話者の正書法の豊富な多様性を示す。
私たちのコーパスには15kのトークンが含まれており、3つの国にまたがるバイエルン語を話すすべての地域の方言をカバーしています。
論文 参考訳(メタデータ) (2024-03-15T13:33:10Z) - Syntactic Language Change in English and German: Metrics, Parsers, and Convergences [56.47832275431858]
本論文は,過去160年間の議会討論のコーパスを用いて,英語とドイツ語の統語的言語変化のダイアクロニックな傾向を考察する。
私たちは、広く使われているStanford Coreと、新しい4つの選択肢を含む5つの依存関係をベースとしています。
文長分布の尾部では,構文的尺度の変化が頻繁であることが明らかとなった。
論文 参考訳(メタデータ) (2024-02-18T11:46:16Z) - Hexatagging: Projective Dependency Parsing as Tagging [63.5392760743851]
文中の単語を有限個の可能なタグの要素でタグ付けすることで、依存関係木を構成する新しい依存性であるヘキサトガーを導入する。
私たちのアプローチは、トレーニング時に完全に並列化可能です。すなわち、依存関係のパースを構築するのに必要な構造構築アクションは、互いに並列に予測できます。
我々はPenn Treebankテストセット上で96.4 LASと97.4 UASの最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-08T18:02:07Z) - A Biologically Plausible Parser [1.8563342761346613]
生物学的に可塑性ニューロンとシナプスに作用する英語の1つについて述べる。
この装置は、合理的に非自明な文を正しく解析できることを実証する。
論文 参考訳(メタデータ) (2021-08-04T17:27:06Z) - Strongly Incremental Constituency Parsing with Graph Neural Networks [70.16880251349093]
文を構文木にパースすることは、NLPの下流アプリケーションに恩恵をもたらす。
トランジッションベースは、状態遷移システムでアクションを実行することでツリーを構築する。
既存のトランジションベースは主にシフト・リデュース・トランジション・システムに基づいている。
論文 参考訳(メタデータ) (2020-10-27T19:19:38Z) - A Survey of Unsupervised Dependency Parsing [62.16714720135358]
教師なしの依存関係解析は、正しいパースツリーのアノテーションを持たない文から依存関係を学ぶことを目的としている。
その困難さにもかかわらず、教師なしの構文解析は、ほとんど無制限に注釈のないテキストデータを利用することができるため、興味深い研究方向である。
論文 参考訳(メタデータ) (2020-10-04T10:51:22Z) - A Survey of Syntactic-Semantic Parsing Based on Constituent and
Dependency Structures [14.714725860010724]
我々は、構文解析の最も一般的な2つの形式、すなわち構成解析と依存性解析に焦点を当てている。
本稿では、構成解析と依存性解析の代表モデルと、リッチセマンティクスによる依存性解析について概説する。
論文 参考訳(メタデータ) (2020-06-19T10:21:17Z) - A Tale of a Probe and a Parser [74.14046092181947]
言語のニューラルモデルにエンコードされている言語情報の計測は、NLPで人気が高まっている。
研究者は、他のモデルの出力から言語構造を抽出するために設計された教師付きモデル"プローブ"をトレーニングすることで、この企業にアプローチする。
そのようなプローブの1つは、構文情報が文脈化された単語表現でエンコードされる範囲を定量化するために設計された構造プローブである。
論文 参考訳(メタデータ) (2020-05-04T16:57:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。