論文の概要: Proposing TAGbank as a Corpus of Tree-Adjoining Grammar Derivations
- arxiv url: http://arxiv.org/abs/2504.05226v1
- Date: Mon, 07 Apr 2025 16:13:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:12:28.100114
- Title: Proposing TAGbank as a Corpus of Tree-Adjoining Grammar Derivations
- Title(参考訳): 木に付随する文法派生のコーパスとしてのTAGbankの提案
- Authors: Jungyeul Park,
- Abstract要約: 本稿では,既存の構文木バンクから自動抽出されたTAG導出コーパスであるTAGbankを紹介する。
本稿では,句構造アノテーションをTAGの派生語にマッピングするための方法論を概説する。
また,木バンクスキーム間の一貫性を確保すること,言語固有の構文的慣用句を扱うことなど,抽出プロセスに関わる課題についても論じる。
- 参考スコア(独自算出の注目度): 1.0619039878979954
- License:
- Abstract: The development of lexicalized grammars, particularly Tree-Adjoining Grammar (TAG), has significantly advanced our understanding of syntax and semantics in natural language processing (NLP). While existing syntactic resources like the Penn Treebank and Universal Dependencies offer extensive annotations for phrase-structure and dependency parsing, there is a lack of large-scale corpora grounded in lexicalized grammar formalisms. To address this gap, we introduce TAGbank, a corpus of TAG derivations automatically extracted from existing syntactic treebanks. This paper outlines a methodology for mapping phrase-structure annotations to TAG derivations, leveraging the generative power of TAG to support parsing, grammar induction, and semantic analysis. Our approach builds on the work of CCGbank, extending it to incorporate the unique structural properties of TAG, including its transparent derivation trees and its ability to capture long-distance dependencies. We also discuss the challenges involved in the extraction process, including ensuring consistency across treebank schemes and dealing with language-specific syntactic idiosyncrasies. Finally, we propose the future extension of TAGbank to include multilingual corpora, focusing on the Penn Korean and Penn Chinese Treebanks, to explore the cross-linguistic application of TAG's formalism. By providing a robust, derivation-based resource, TAGbank aims to support a wide range of computational tasks and contribute to the theoretical understanding of TAG's generative capacity.
- Abstract(参考訳): 語彙化文法,特に木結合文法(TAG)の開発は,自然言語処理(NLP)における構文と意味論の理解を著しく進歩させてきた。
Penn TreebankやUniversal Dependenciesのような既存の構文資源は、フレーズ構造と依存関係解析のための広範なアノテーションを提供するが、語彙化された文法形式に基礎を置く大規模なコーパスは欠如している。
このギャップに対処するために,既存の構文木バンクから自動抽出されたTAG導出コーパスであるTAGbankを紹介する。
本稿では,句構造アノテーションをTAGの派生語にマッピングするための方法論を概説する。
当社のアプローチはCCGbankの成果に基づいており,TAGの構造的特性を拡張して,その透過的導出木や長距離依存性を捕捉する能力など,TAGのユニークな構造的特性を取り入れている。
また,木バンクスキーム間の一貫性を確保すること,言語固有の構文的慣用句を扱うことなど,抽出プロセスに関わる課題についても論じる。
最後に,多言語コーパスを含む多言語コーパスを含むTAGbankの今後の拡張を提案する。
TAGbankは、堅牢で派生的なリソースを提供することにより、幅広い計算タスクをサポートし、TAGの生成能力の理論的理解に貢献することを目指している。
関連論文リスト
- Integrating Supertag Features into Neural Discontinuous Constituent Parsing [0.0]
伝統的な選挙区の見解では、構成要素は隣接した単語で構成されており、ドイツ語のような言語で一般的である。
トランジションベースの構文解析は、大きな注釈付きコーパス上で教師あり学習を用いて生のテキストを入力した木を生成する。
論文 参考訳(メタデータ) (2024-10-11T12:28:26Z) - Character-Level Chinese Dependency Parsing via Modeling Latent Intra-Word Structure [11.184330703168893]
本稿では,中国語における単語の内部構造をモデル化する。
制約付きアイズナーアルゴリズムは、文字レベルの木の互換性を確保するために実装されている。
詳細な分析により、粗大なパース戦略により、より言語学的に妥当な単語内構造を予測することができることが明らかになった。
論文 参考訳(メタデータ) (2024-06-06T06:23:02Z) - Assessment of Pre-Trained Models Across Languages and Grammars [7.466159270333272]
シーケンスラベリングとしてパースをキャストすることで,構成構造と依存性構造を復元することを目的としている。
その結果、事前学習された単語ベクトルは、依存関係よりも構文の連続表現を好まないことが明らかとなった。
プレトレーニングデータ中の言語の発生は、単語ベクトルから構文を回復する際のタスクデータ量よりも重要である。
論文 参考訳(メタデータ) (2023-09-20T09:23:36Z) - mCL-NER: Cross-Lingual Named Entity Recognition via Multi-view
Contrastive Learning [54.523172171533645]
CrossNERは多言語コーパスの不足により不均一な性能から生じる課題に直面している。
言語横断的名前付きエンティティ認識(mCL-NER)のためのマルチビューコントラスト学習を提案する。
40言語にまたがるXTREMEベンチマーク実験では、従来のデータ駆動型およびモデルベースアプローチよりもmCL-NERの方が優れていることを示した。
論文 参考訳(メタデータ) (2023-08-17T16:02:29Z) - Prompting Language Models for Linguistic Structure [73.11488464916668]
本稿では,言語構造予測タスクに対する構造化プロンプト手法を提案する。
提案手法は, 音声タグ付け, 名前付きエンティティ認識, 文チャンキングについて評価する。
PLMはタスクラベルの事前知識を事前学習コーパスに漏えいすることで有意な事前知識を含むが、構造化プロンプトは任意のラベルで言語構造を復元することも可能である。
論文 参考訳(メタデータ) (2022-11-15T01:13:39Z) - Incorporating Constituent Syntax for Coreference Resolution [50.71868417008133]
本稿では,構成構文構造をグラフベースで組み込む手法を提案する。
また、高次近傍情報を利用して構成木に富んだ構造をエンコードすることも検討する。
on the English and Chinese parts of OntoNotes 5.0 benchmark shows that our proposed model beats a strong baseline or a new-of-the-art performance。
論文 参考訳(メタデータ) (2022-02-22T07:40:42Z) - Combining Improvements for Exploiting Dependency Trees in Neural
Semantic Parsing [1.0437764544103274]
本稿では,トランスフォーマーに基づくセマンティックパーシングシステムにおいて,そのような依存情報を組み込む3つの手法について検討する。
まず、エンコーダの標準自己注意ヘッドを、親スケール自己注意ヘッド(PASCAL)に置き換える。
その後、エンコーダに構成的注意 (CA) を挿入し、入力文の係り受け構造をよりよく把握できる付加的制約を付加する。
論文 参考訳(メタデータ) (2021-12-25T03:41:42Z) - Lexically-constrained Text Generation through Commonsense Knowledge
Extraction and Injection [62.071938098215085]
我々は、ある入力概念のセットに対して妥当な文を生成することを目的としているcommongenベンチマークに焦点を当てる。
生成したテキストの意味的正しさを高めるための戦略を提案する。
論文 参考訳(メタデータ) (2020-12-19T23:23:40Z) - MEGA RST Discourse Treebanks with Structure and Nuclearity from Scalable
Distant Sentiment Supervision [30.615883375573432]
本稿では,感情アノテートされたデータセットから遠方からの監視を用いて,談話木バンクを自動的に生成する新しい手法を提案する。
提案手法は,効率的なビーム探索手法を用いて,任意の長さの文書に構造と核性を取り入れた木を生成する。
実験により、MEGA-DTツリーバンクでトレーニングされた談話が、ドメイン間パフォーマンスの有望な向上をもたらすことが示された。
論文 参考訳(メタデータ) (2020-11-05T18:22:38Z) - GATE: Graph Attention Transformer Encoder for Cross-lingual Relation and
Event Extraction [107.8262586956778]
言語に依存しない文表現を学習するために、普遍的な依存解析を伴うグラフ畳み込みネットワーク(GCN)を導入する。
GCNは、長い範囲の依存関係を持つ単語をモデル化するのに苦労する。
そこで本研究では,構文的距離の異なる単語間の依存関係を学習するための自己認識機構を提案する。
論文 参考訳(メタデータ) (2020-10-06T20:30:35Z) - Constructing a Family Tree of Ten Indo-European Languages with
Delexicalized Cross-linguistic Transfer Patterns [57.86480614673034]
我々は,デレクシカル化転送を,解釈可能なツリー・ツー・ストリングパターンとツリー・ツー・ツリーパターンとして定式化する。
これにより、言語間移動を定量的に探索し、第二言語習得の問い合わせを拡張することができる。
論文 参考訳(メタデータ) (2020-07-17T15:56:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。