論文の概要: SynGEC: Syntax-Enhanced Grammatical Error Correction with a Tailored
GEC-Oriented Parser
- arxiv url: http://arxiv.org/abs/2210.12484v1
- Date: Sat, 22 Oct 2022 15:54:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 16:18:14.547099
- Title: SynGEC: Syntax-Enhanced Grammatical Error Correction with a Tailored
GEC-Oriented Parser
- Title(参考訳): SynGEC: GEC指向構文解析器を用いた文法的誤り訂正
- Authors: Yue Zhang and Bo Zhang and Zhenghua Li and Zuyi Bao and Chen Li and
Min Zhang
- Abstract要約: 本研究は,構文強化文法誤り訂正(GEC)手法であるSynGECを提案する。
この課題に対処するために、並列GECトレーニングデータをピボットとして使用した、カスタマイズされたGEC指向(GOPar)の構築を提案する。
メインストリームの英語と中国語のGECデータセットの実験から,提案したSynGECアプローチは,強いベースラインをはるかに上回り,競争性能が向上することが示された。
- 参考スコア(独自算出の注目度): 28.337533657684563
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This work proposes a syntax-enhanced grammatical error correction (GEC)
approach named SynGEC that effectively incorporates dependency syntactic
information into the encoder part of GEC models. The key challenge for this
idea is that off-the-shelf parsers are unreliable when processing ungrammatical
sentences. To confront this challenge, we propose to build a tailored
GEC-oriented parser (GOPar) using parallel GEC training data as a pivot. First,
we design an extended syntax representation scheme that allows us to represent
both grammatical errors and syntax in a unified tree structure. Then, we obtain
parse trees of the source incorrect sentences by projecting trees of the target
correct sentences. Finally, we train GOPar with such projected trees. For GEC,
we employ the graph convolution network to encode source-side syntactic
information produced by GOPar, and fuse them with the outputs of the
Transformer encoder. Experiments on mainstream English and Chinese GEC datasets
show that our proposed SynGEC approach consistently and substantially
outperforms strong baselines and achieves competitive performance. Our code and
data are all publicly available at https://github.com/HillZhang1999/SynGEC.
- Abstract(参考訳): 本稿では,GECモデルのエンコーダ部に依存性の構文情報を効果的に組み込む構文強化文法誤り訂正(GEC)手法SynGECを提案する。
このアイデアの鍵となる課題は、非文法的な文を処理する際に、既成のパーサーが信頼できないことである。
この課題に対処するために、並列GECトレーニングデータをピボットとして使用して、調整済みのGEC指向パーサ(GOPar)を構築することを提案する。
まず,文法的誤りと構文の両方を統一木構造で表現できる拡張構文表現スキームを設計する。
そして,対象の正しい文のツリーを投影することにより,ソースの誤り文のパース木を得る。
最後に、このような投影木でGOParを訓練します。
GECでは、GOParが生成したソース側構文情報を符号化するためにグラフ畳み込みネットワークを使用し、トランスフォーマーエンコーダの出力と融合する。
メインストリームの英語と中国語のGECデータセットの実験から,提案したSynGECアプローチは,強いベースラインをはるかに上回り,競争性能が向上することが示された。
私たちのコードとデータは、すべてhttps://github.com/hillzhang1999/syngecで公開されている。
関連論文リスト
- GEC-DePenD: Non-Autoregressive Grammatical Error Correction with
Decoupled Permutation and Decoding [52.14832976759585]
文法的誤り訂正(GEC)は、通常自己回帰的なシーケンス・ツー・シーケンスモデルで解決される重要なNLPタスクである。
本稿では, アーキテクチャを置換ネットワークに分離する, GEC に対する非自己回帰的アプローチを提案する。
GECの既知の非自己回帰手法よりもネットワークが向上することを示す。
論文 参考訳(メタデータ) (2023-11-14T14:24:36Z) - Outline, Then Details: Syntactically Guided Coarse-To-Fine Code
Generation [61.50286000143233]
ChainCoderは、Pythonコードを段階的に生成するプログラム合成言語モデルである。
自然言語記述と構文的に整合したI/Oデータサンプルを共同で符号化するために、カスタマイズされたトランスフォーマーアーキテクチャを利用する。
論文 参考訳(メタデータ) (2023-04-28T01:47:09Z) - CSynGEC: Incorporating Constituent-based Syntax for Grammatical Error
Correction with a Tailored GEC-Oriented Parser [22.942594068051488]
この研究は、他の主流構文形式、すなわち構成型構文を考慮に入れている。
まず,非文法文の誤りに対応するための拡張構成型構文スキームを提案する。
そして,非文法文の区切り木を自動的に取得し,GCC指向の区切り木を訓練する。
論文 参考訳(メタデータ) (2022-11-15T14:11:39Z) - A Unified Strategy for Multilingual Grammatical Error Correction with
Pre-trained Cross-Lingual Language Model [100.67378875773495]
本稿では,多言語文法的誤り訂正のための汎用的かつ言語に依存しない戦略を提案する。
我々の手法は言語固有の操作を使わずに多様な並列GECデータを生成する。
NLPCC 2018 Task 2のデータセット(中国語)で最先端の結果を達成し、Falko-Merlin(ドイツ語)とRULEC-GEC(ロシア語)の競合性能を得る。
論文 参考訳(メタデータ) (2022-01-26T02:10:32Z) - GN-Transformer: Fusing Sequence and Graph Representation for Improved
Code Summarization [0.0]
融合シーケンスとグラフのモダリティに基づいてエンドツーエンドの学習を行う新しい手法であるGN-Transformerを提案する。
提案手法は,2つのコード要約データセットと3つの自動コード要約メトリクスにおいて,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-11-17T02:51:37Z) - A Syntax-Guided Grammatical Error Correction Model with Dependency Tree
Correction [83.14159143179269]
文法的誤り訂正(英: Grammatical Error Correction, GEC)は、文中の文法的誤りを検出し、訂正するタスクである。
本稿では,依存木の構文知識を利用するためのグラフアテンション機構を採用した構文誘導型GECモデル(SG-GEC)を提案する。
我々は、GECタスクの公開ベンチマークでモデルを評価し、競争結果を得る。
論文 参考訳(メタデータ) (2021-11-05T07:07:48Z) - LM-Critic: Language Models for Unsupervised Grammatical Error Correction [128.9174409251852]
文を文法的に判断する LM-Critic の定義において,事前訓練された言語モデル (LM) の活用法を示す。
このLM-Critic と BIFI と、ラベルなし文の集合を併用して、現実的な非文法的/文法的ペアをブートストラップし、修正子を訓練する。
論文 参考訳(メタデータ) (2021-09-14T17:06:43Z) - Recursive Tree Grammar Autoencoders [3.791857415239352]
本稿では,木をボトムアップ文法で符号化し,木を木文法で復号する,新しいオートエンコーダ手法を提案する。
提案手法は, 4つのベンチマークデータセットにおいて, 自動符号化誤差, トレーニング時間, 最適化スコアを改善することを実験的に示す。
論文 参考訳(メタデータ) (2020-12-03T17:37:25Z) - Deep Graph Matching and Searching for Semantic Code Retrieval [76.51445515611469]
本稿では,グラフニューラルネットワークに基づくエンドツーエンドのディープグラフマッチングと探索モデルを提案する。
まず、自然言語クエリテキストとプログラミング言語のコードスニペットをグラフ構造化データで表現する。
特に、DGMSは、個々のクエリテキストやコードスニペットのより構造的な情報をキャプチャするだけでなく、それらの微妙な類似性も学習する。
論文 参考訳(メタデータ) (2020-10-24T14:16:50Z) - Stronger Baselines for Grammatical Error Correction Using Pretrained
Encoder-Decoder Model [24.51571980021599]
文法誤り訂正のための汎用事前学習エンコーダ・デコーダモデルとしての双方向・自動回帰変換器(BART)の有用性について検討する。
単言語および多言語BARTモデルは、GECにおいて高い性能を達成し、その結果の1つは、現在の英語GECの強みに匹敵する結果である。
論文 参考訳(メタデータ) (2020-05-24T22:13:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。