論文の概要: A Unified Strategy for Multilingual Grammatical Error Correction with
Pre-trained Cross-Lingual Language Model
- arxiv url: http://arxiv.org/abs/2201.10707v1
- Date: Wed, 26 Jan 2022 02:10:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-27 23:26:57.158062
- Title: A Unified Strategy for Multilingual Grammatical Error Correction with
Pre-trained Cross-Lingual Language Model
- Title(参考訳): 事前学習型言語モデルを用いた多言語文法的誤り訂正の一手法
- Authors: Xin Sun, Tao Ge, Shuming Ma, Jingjing Li, Furu Wei, Houfeng Wang
- Abstract要約: 本稿では,多言語文法的誤り訂正のための汎用的かつ言語に依存しない戦略を提案する。
我々の手法は言語固有の操作を使わずに多様な並列GECデータを生成する。
NLPCC 2018 Task 2のデータセット(中国語)で最先端の結果を達成し、Falko-Merlin(ドイツ語)とRULEC-GEC(ロシア語)の競合性能を得る。
- 参考スコア(独自算出の注目度): 100.67378875773495
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Synthetic data construction of Grammatical Error Correction (GEC) for
non-English languages relies heavily on human-designed and language-specific
rules, which produce limited error-corrected patterns. In this paper, we
propose a generic and language-independent strategy for multilingual GEC, which
can train a GEC system effectively for a new non-English language with only two
easy-to-access resources: 1) a pretrained cross-lingual language model (PXLM)
and 2) parallel translation data between English and the language. Our approach
creates diverse parallel GEC data without any language-specific operations by
taking the non-autoregressive translation generated by PXLM and the gold
translation as error-corrected sentence pairs. Then, we reuse PXLM to
initialize the GEC model and pretrain it with the synthetic data generated by
itself, which yields further improvement. We evaluate our approach on three
public benchmarks of GEC in different languages. It achieves the
state-of-the-art results on the NLPCC 2018 Task 2 dataset (Chinese) and obtains
competitive performance on Falko-Merlin (German) and RULEC-GEC (Russian).
Further analysis demonstrates that our data construction method is
complementary to rule-based approaches.
- Abstract(参考訳): 非英語言語のための文法誤り訂正(GEC)の合成データ構築は、限られた誤り訂正パターンを生成する人間設計および言語固有の規則に大きく依存している。
本稿では,2つのリソースしかアクセスできない新しい非英語言語に対して,gecシステムを効果的に訓練できる多言語gecのための汎用的・言語非依存戦略を提案する。
1)事前訓練された言語間言語モデル(PXLM)と
2)英語と言語間の並列翻訳データ。
提案手法は, PXLM が生成した非自己回帰翻訳とゴールド翻訳を誤り訂正文対とすることで, 言語固有の操作を伴わない多彩な並列GECデータを生成する。
そして、我々はPXLMを再利用し、ECCモデルを初期化し、それ自身で生成された合成データで事前訓練し、さらなる改善をもたらす。
我々はGECの3つの公開ベンチマークに対するアプローチを異なる言語で評価した。
NLPCC 2018 Task 2のデータセット(中国語)で最先端の結果を達成し、Falko-Merlin(ドイツ語)とRULEC-GEC(ロシア語)の競合性能を得る。
さらに分析した結果,データ構築手法はルールベースアプローチと相補的であることが示された。
関連論文リスト
- LLM-based Code-Switched Text Generation for Grammatical Error Correction [3.4457319208816224]
本研究では,文法的誤り訂正システムをコードスイッチング(CSW)テキストに適用する複雑性について検討する。
我々は、第二言語学習者として、英語のCSWデータセットから最先端のECCシステムを評価する。
単言語テキストとCSWテキストの文法的誤りを補正できるモデルを開発する。
論文 参考訳(メタデータ) (2024-10-14T10:07:29Z) - Open Generative Large Language Models for Galician [1.3049334790726996]
大規模言語モデル(LLM)は自然言語処理に変化をもたらした。
しかし、彼らの主に英語中心のトレーニングは、言語間でのバイアスとパフォーマンスの相違につながっている。
この不均衡は、ガリシア語のような低い資源を持つ言語にとって、NLP技術への公平なアクセスを困難にしている。
このギャップを埋めるために、ガリシアに焦点をあてた最初の2つの生成LDMを提示する。
論文 参考訳(メタデータ) (2024-06-19T23:49:56Z) - Grammatical Error Correction for Code-Switched Sentences by Learners of English [5.653145656597412]
CSWテキスト上で文法誤り訂正システムの利用を初めて検討する。
我々は、既存のGECコーパス内で異なるテキストのスパンを翻訳することで、合成されたCSW GECデータセットを生成する。
次に,CSW比,スイッチポイント係数,言語制約に基づいて,これらのスパンを選択する方法について検討する。
我々の最良のモデルは、モノリンガルデータセット上でのモデルの性能に影響を与えることなく、3つのCSWテストセットの平均1.57ドルF_0.5$を達成する。
論文 参考訳(メタデータ) (2024-04-18T20:05:30Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Are Pre-trained Language Models Useful for Model Ensemble in Chinese
Grammatical Error Correction? [10.302225525539003]
4つの洗練された単一モデルを持つ強力なPLMに基づくアンサンブル戦略を探索する。
性能は向上しないが、PLMベースのアンサンブル後にさらに悪化する。
論文 参考訳(メタデータ) (2023-05-24T14:18:52Z) - Advancements in Arabic Grammatical Error Detection and Correction: An
Empirical Investigation [12.15509670220182]
文法的誤り訂正(英: Grammatical error correct, GEC)は、英語でよく研究されている問題である。
形態学的に豊かな言語におけるGECの研究は、データの不足や言語の複雑さといった課題のために制限されてきた。
新たに開発した2つのトランスフォーマーを用いたプレトレーニングシーケンス・ツー・シーケンスモデルを用いて,アラビア語 GEC の最初の結果を示す。
論文 参考訳(メタデータ) (2023-05-24T05:12:58Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Understanding Translationese in Cross-Lingual Summarization [106.69566000567598]
言語間要約(MS)は、異なる対象言語で簡潔な要約を生成することを目的としている。
大規模なCLSデータを集めるために、既存のデータセットは通常、それらの生成に翻訳を伴います。
本稿では、まず、CLSデータセット構築の異なるアプローチが、異なるレベルの翻訳に結びつくことを確認する。
論文 参考訳(メタデータ) (2022-12-14T13:41:49Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。