論文の概要: An Attempt to Develop a Neural Parser based on Simplified Head-Driven Phrase Structure Grammar on Vietnamese
- arxiv url: http://arxiv.org/abs/2411.17270v1
- Date: Tue, 26 Nov 2024 09:46:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-27 13:36:05.627728
- Title: An Attempt to Develop a Neural Parser based on Simplified Head-Driven Phrase Structure Grammar on Vietnamese
- Title(参考訳): ベトナムにおける簡易な頭駆動句構造文法に基づくニューラルパーザの開発の試み
- Authors: Duc-Vu Nguyen, Thang Chau Phan, Quoc-Nam Nguyen, Kiet Van Nguyen, Ngan Luu-Thuy Nguyen,
- Abstract要約: 既存のベトナムのコーパスは、簡易な頭駆動句構造文法規則に従わなかった。
我々は、ベトナムのテキストをエンコードできるPhoBERTまたはXLM-Roaモデルに置き換えることで、最初のPenn Treebankを修正した。
以上の結果から,HPSG Neural corpora の簡易化は,選挙区解析において82%のFスコアを達成できた。
- 参考スコア(独自算出の注目度): 1.4990724156326336
- License:
- Abstract: In this paper, we aimed to develop a neural parser for Vietnamese based on simplified Head-Driven Phrase Structure Grammar (HPSG). The existing corpora, VietTreebank and VnDT, had around 15% of constituency and dependency tree pairs that did not adhere to simplified HPSG rules. To attempt to address the issue of the corpora not adhering to simplified HPSG rules, we randomly permuted samples from the training and development sets to make them compliant with simplified HPSG. We then modified the first simplified HPSG Neural Parser for the Penn Treebank by replacing it with the PhoBERT or XLM-RoBERTa models, which can encode Vietnamese texts. We conducted experiments on our modified VietTreebank and VnDT corpora. Our extensive experiments showed that the simplified HPSG Neural Parser achieved a new state-of-the-art F-score of 82% for constituency parsing when using the same predicted part-of-speech (POS) tags as the self-attentive constituency parser. Additionally, it outperformed previous studies in dependency parsing with a higher Unlabeled Attachment Score (UAS). However, our parser obtained lower Labeled Attachment Score (LAS) scores likely due to our focus on arc permutation without changing the original labels, as we did not consult with a linguistic expert. Lastly, the research findings of this paper suggest that simplified HPSG should be given more attention to linguistic expert when developing treebanks for Vietnamese natural language processing.
- Abstract(参考訳): 本稿では,HPSG(Head-Driven Phrase Structure Grammar)を簡略化したベトナム語用ニューラルパーサの開発を目的とした。
既存のコーパスであるVietTreebankとVnDTは、HPSGルールに従わない選挙区と依存性ツリーのペアの15%を占めていた。
簡易HPSG規則に固執しないコーパスの問題に対処するため, 簡易HPSG規則に適合させるため, トレーニングおよび開発セットからのサンプルをランダムに置換した。
次に、ベトナム語テキストをエンコード可能なPhoBERTまたはXLM-RoBERTaモデルに置き換えることで、最初の簡易HPSG Neural ParserをPenn Treebank向けに修正した。
修正VietTreebankとVnDTコーパスの実験を行った。
以上の結果から,HPSG Neural Parser の簡易化により,予測音声(POS)タグと予測音声(POS)タグを併用した場合に82%の精度でFスコアが得られた。
さらに、より高度なUnlabeled Attachment Score (UAS)による依存性解析における以前の研究よりも優れていた。
しかし,我々は言語専門家に相談しなかったため,元のラベルを変更することなく弧の置換に着目したため,低ラベル付きアタッチメントスコア(LAS)値を得た。
最後に,ベトナム語処理のための木バンクの開発において,HPSGの簡易化が言語専門家に注意を向けることが示唆された。
関連論文リスト
- DNA-GPT: Divergent N-Gram Analysis for Training-Free Detection of
GPT-Generated Text [82.5469544192645]
ダイバージェントN-Gram解析(DNA-GPT)と呼ばれる新しいトレーニング不要検出手法を提案する。
元の部分と新しい部分の違いをN-gram解析により解析することにより,機械生成テキストと人文テキストの分布に顕著な相違が明らかになった。
その結果, ゼロショットアプローチは, 人文とGPT生成テキストの区別において, 最先端の性能を示すことがわかった。
論文 参考訳(メタデータ) (2023-05-27T03:58:29Z) - Cascading and Direct Approaches to Unsupervised Constituency Parsing on
Spoken Sentences [67.37544997614646]
本研究は,教師なし音声補聴における最初の研究である。
目的は, 音声文の階層的構文構造を, 選挙区解析木の形で決定することである。
正確なセグメンテーションだけでは、音声文を正確に解析するのに十分であることを示す。
論文 参考訳(メタデータ) (2023-03-15T17:57:22Z) - Classifiers are Better Experts for Controllable Text Generation [63.17266060165098]
提案手法は, PPLにおける最近のPPLM, GeDi, DExpertsよりも有意に優れており, 生成したテキストの外部分類器に基づく感情の精度が高いことを示す。
同時に、実装やチューニングも簡単で、制限や要件も大幅に少なくなります。
論文 参考訳(メタデータ) (2022-05-15T12:58:35Z) - Penn-Helsinki Parsed Corpus of Early Modern English: First Parsing
Results and Analysis [2.8749014299466444]
本研究は,Penn-Helsinki Parsed Corpus of Early Modern English (PPCEME) の最初の解析結果である。
PPCEMEの重要な特徴として,Penn Treebankよりも大きく,より多様な関数タグを含む,解析の難しさを挙げる。
論文 参考訳(メタデータ) (2021-12-15T23:56:21Z) - Head-driven Phrase Structure Parsing in O($n^3$) Time Complexity [48.683350567504604]
2つの古典的な構文解析形式である構成解析と依存性解析は、統一的な形式主義の下での共同訓練と復号化の恩恵を受けている。
本稿では,O$($n3$) の時間的複雑さで新たなパフォーマンス保存を実現するために,改良されたヘッドスコアラを提案する。
論文 参考訳(メタデータ) (2021-05-20T15:33:51Z) - Neural Text Generation with Part-of-Speech Guided Softmax [82.63394952538292]
テキスト生成を導くために,言語アノテーション,すなわち部分音声(POS)を用いることを提案する。
提案手法は,比較品質を維持しつつ,より多様なテキストを生成できることを示した。
論文 参考訳(メタデータ) (2021-05-08T08:53:16Z) - Augmenting Part-of-speech Tagging with Syntactic Information for
Vietnamese and Chinese [0.32228025627337864]
我々は,ベトナム語の単語分割と音声タグ付けの一部を,簡易な選挙区を用いて改善するという考え方を実装した。
共同語分割とパート・オブ・音声タギングのためのニューラルモデルは,音節に基づく構成のアーキテクチャを持つ。
このモデルは、予測された単語境界と、他のツールによる音声タグで拡張することができる。
論文 参考訳(メタデータ) (2021-02-24T08:57:02Z) - Heads-up! Unsupervised Constituency Parsing via Self-Attention Heads [27.578115452635625]
そこで本研究では, PLM の注目点から区切り木を抽出する, 完全に教師なしの構文解析手法を提案する。
我々は、トランスフォーマーのアテンションヘッドを、その特性に基づいてランク付けし、最終ツリーを生成するために、上位のヘッドのアンサンブルを作成します。
我々の実験は、PLMが暗黙的に学習する文法を分析するツールとしても利用できる。
論文 参考訳(メタデータ) (2020-10-19T13:51:40Z) - Towards Instance-Level Parser Selection for Cross-Lingual Transfer of
Dependency Parsers [59.345145623931636]
我々は、インスタンスレベルの選択(ILPS)という、新しい言語間移動パラダイムを論じる。
本稿では,デレキシライズドトランスファーの枠組みにおけるインスタンスレベルの選択に着目した概念実証研究を提案する。
論文 参考訳(メタデータ) (2020-04-16T13:18:55Z) - Is POS Tagging Necessary or Even Helpful for Neural Dependency Parsing? [22.93722845643562]
Stackのジョイントフレームワークを使用する場合,POSタグ付けによって解析性能が大幅に向上することを示す。
解析木よりもPOSタグをアノテートする方がずっと安いことを考えると,大規模な異種POSタグデータの利用も検討する。
論文 参考訳(メタデータ) (2020-03-06T13:47:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。