論文の概要: CSynGEC: Incorporating Constituent-based Syntax for Grammatical Error
Correction with a Tailored GEC-Oriented Parser
- arxiv url: http://arxiv.org/abs/2211.08158v1
- Date: Tue, 15 Nov 2022 14:11:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-16 14:35:55.773747
- Title: CSynGEC: Incorporating Constituent-based Syntax for Grammatical Error
Correction with a Tailored GEC-Oriented Parser
- Title(参考訳): csyngec:gec指向パーサを用いた文法的誤り訂正のための構成的構文の統合
- Authors: Yue Zhang, Zhenghua Li
- Abstract要約: この研究は、他の主流構文形式、すなわち構成型構文を考慮に入れている。
まず,非文法文の誤りに対応するための拡張構成型構文スキームを提案する。
そして,非文法文の区切り木を自動的に取得し,GCC指向の区切り木を訓練する。
- 参考スコア(独自算出の注目度): 22.942594068051488
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recently, Zhang et al. (2022) propose a syntax-aware grammatical error
correction (GEC) approach, named SynGEC, showing that incorporating tailored
dependency-based syntax of the input sentence is quite beneficial to GEC. This
work considers another mainstream syntax formalism, i.e., constituent-based
syntax. By drawing on the successful experience of SynGEC, we first propose an
extended constituent-based syntax scheme to accommodate errors in ungrammatical
sentences. Then, we automatically obtain constituency trees of ungrammatical
sentences to train a GEC-oriented constituency parser by using parallel GEC
data as a pivot. For syntax encoding, we employ the graph convolutional network
(GCN). Experimental results show that our method, named CSynGEC, yields
substantial improvements over strong baselines. Moreover, we investigate the
integration of constituent-based and dependency-based syntax for GEC in two
ways: 1) intra-model combination, which means using separate GCNs to encode
both kinds of syntax for decoding in a single model; 2)inter-model combination,
which means gathering and selecting edits predicted by different models to
achieve final corrections. We find that the former method improves recall over
using one standalone syntax formalism while the latter improves precision, and
both lead to better F0.5 values.
- Abstract(参考訳): Zhang et al. (2022) はSynGEC (SynGEC) という構文対応の文法的誤り訂正手法を提案し、入力文の従属型構文を組み込むことは GEC にとって極めて有益であることを示した。
この研究は、他の主流構文形式、すなわち構成に基づく構文を考える。
まず,SynGECの経験を生かして,非文法文の誤りに対処する拡張構成型構文スキームを提案する。
そして、並列GCCデータをピボットとして使用することにより、非文法文の選挙区木を自動的に取得し、ECC指向の選挙区パーサを訓練する。
構文符号化には、グラフ畳み込みネットワーク(GCN)を用いる。
実験の結果, CSynGECと命名された手法は, 強いベースラインよりも大幅に改善されていることがわかった。
さらに,gecにおける構成型構文と依存型構文の統合について,1) モデル内組合せ,2) モデル内結合,2) モデル内結合,2) モデル間結合,2) モデル間で予測された編集の収集と選択,そして最終的な修正を実現する。
前者は1つのスタンドアロン構文形式の使用よりもリコールが改善され,後者は精度が向上し,どちらもf0.5値が向上した。
関連論文リスト
- LM-Combiner: A Contextual Rewriting Model for Chinese Grammatical Error Correction [49.0746090186582]
過剰補正は中国の文法的誤り訂正(CGEC)タスクにおいて重要な問題である。
モデルアンサンブル法による最近の研究は、過剰補正を効果的に軽減し、ECCシステムの精度を向上させることができる。
本稿では,GECシステム出力の過度補正をモデルアンサンブルなしで直接修正できる書き換えモデルLM-Combinerを提案する。
論文 参考訳(メタデータ) (2024-03-26T06:12:21Z) - GEC-DePenD: Non-Autoregressive Grammatical Error Correction with
Decoupled Permutation and Decoding [52.14832976759585]
文法的誤り訂正(GEC)は、通常自己回帰的なシーケンス・ツー・シーケンスモデルで解決される重要なNLPタスクである。
本稿では, アーキテクチャを置換ネットワークに分離する, GEC に対する非自己回帰的アプローチを提案する。
GECの既知の非自己回帰手法よりもネットワークが向上することを示す。
論文 参考訳(メタデータ) (2023-11-14T14:24:36Z) - Improving Seq2Seq Grammatical Error Correction via Decoding
Interventions [40.52259641181596]
本稿では,外部批判を駆使して生成するトークンの妥当性を段階的に評価する統合デコード介入フレームワークを提案する。
我々は、事前訓練された言語モデル評論家と、段階的なターゲット側の文法的誤り検出批評家の2つのタイプの批判を発見し、調査する。
我々のフレームワークは一貫して強いベースラインを上回り、最先端の手法と競合する結果を得る。
論文 参考訳(メタデータ) (2023-10-23T03:36:37Z) - SynGEC: Syntax-Enhanced Grammatical Error Correction with a Tailored
GEC-Oriented Parser [28.337533657684563]
本研究は,構文強化文法誤り訂正(GEC)手法であるSynGECを提案する。
この課題に対処するために、並列GECトレーニングデータをピボットとして使用した、カスタマイズされたGEC指向(GOPar)の構築を提案する。
メインストリームの英語と中国語のGECデータセットの実験から,提案したSynGECアプローチは,強いベースラインをはるかに上回り,競争性能が向上することが示された。
論文 参考訳(メタデータ) (2022-10-22T15:54:29Z) - A Unified Strategy for Multilingual Grammatical Error Correction with
Pre-trained Cross-Lingual Language Model [100.67378875773495]
本稿では,多言語文法的誤り訂正のための汎用的かつ言語に依存しない戦略を提案する。
我々の手法は言語固有の操作を使わずに多様な並列GECデータを生成する。
NLPCC 2018 Task 2のデータセット(中国語)で最先端の結果を達成し、Falko-Merlin(ドイツ語)とRULEC-GEC(ロシア語)の競合性能を得る。
論文 参考訳(メタデータ) (2022-01-26T02:10:32Z) - GN-Transformer: Fusing Sequence and Graph Representation for Improved
Code Summarization [0.0]
融合シーケンスとグラフのモダリティに基づいてエンドツーエンドの学習を行う新しい手法であるGN-Transformerを提案する。
提案手法は,2つのコード要約データセットと3つの自動コード要約メトリクスにおいて,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-11-17T02:51:37Z) - A Syntax-Guided Grammatical Error Correction Model with Dependency Tree
Correction [83.14159143179269]
文法的誤り訂正(英: Grammatical Error Correction, GEC)は、文中の文法的誤りを検出し、訂正するタスクである。
本稿では,依存木の構文知識を利用するためのグラフアテンション機構を採用した構文誘導型GECモデル(SG-GEC)を提案する。
我々は、GECタスクの公開ベンチマークでモデルを評価し、競争結果を得る。
論文 参考訳(メタデータ) (2021-11-05T07:07:48Z) - LM-Critic: Language Models for Unsupervised Grammatical Error Correction [128.9174409251852]
文を文法的に判断する LM-Critic の定義において,事前訓練された言語モデル (LM) の活用法を示す。
このLM-Critic と BIFI と、ラベルなし文の集合を併用して、現実的な非文法的/文法的ペアをブートストラップし、修正子を訓練する。
論文 参考訳(メタデータ) (2021-09-14T17:06:43Z) - Improving the Efficiency of Grammatical Error Correction with Erroneous
Span Detection and Correction [106.63733511672721]
ESD(Eroneous Span Detection)とESC(Eroneous Span Correction)の2つのサブタスクに分割することで、文法的誤り訂正(GEC)の効率を改善するための言語に依存しない新しいアプローチを提案する。
ESDは、効率的なシーケンスタグ付けモデルを用いて文法的に誤りテキストスパンを識別する。ESCは、Seq2seqモデルを利用して、注釈付き誤字スパンの文を入力として取り、これらのスパンの修正テキストのみを出力する。
実験の結果,提案手法は英語と中国語のGECベンチマークにおいて従来のセク2seq手法と同等に動作し,推論に要するコストは50%以下であった。
論文 参考訳(メタデータ) (2020-10-07T08:29:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。