論文の概要: Zero-shot Cross-Lingual Transfer for Synthetic Data Generation in Grammatical Error Detection
- arxiv url: http://arxiv.org/abs/2407.11854v1
- Date: Tue, 16 Jul 2024 15:35:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 14:03:36.696504
- Title: Zero-shot Cross-Lingual Transfer for Synthetic Data Generation in Grammatical Error Detection
- Title(参考訳): 文法的誤り検出における合成データ生成のためのゼロショット言語間変換
- Authors: Gaetan Lopez Latouche, Marc-André Carbonneau, Ben Swanson,
- Abstract要約: 様々な言語からのデータを用いてモデルを訓練し、他の言語で合成エラーを生成する。
これらの合成誤差コーパスは、GEDモデルのトレーニングに使用される。
このアプローチは、現在最先端のアノテーションのないGEDメソッドよりも優れている。
- 参考スコア(独自算出の注目度): 2.5575527199248347
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Grammatical Error Detection (GED) methods rely heavily on human annotated error corpora. However, these annotations are unavailable in many low-resource languages. In this paper, we investigate GED in this context. Leveraging the zero-shot cross-lingual transfer capabilities of multilingual pre-trained language models, we train a model using data from a diverse set of languages to generate synthetic errors in other languages. These synthetic error corpora are then used to train a GED model. Specifically we propose a two-stage fine-tuning pipeline where the GED model is first fine-tuned on multilingual synthetic data from target languages followed by fine-tuning on human-annotated GED corpora from source languages. This approach outperforms current state-of-the-art annotation-free GED methods. We also analyse the errors produced by our method and other strong baselines, finding that our approach produces errors that are more diverse and more similar to human errors.
- Abstract(参考訳): 文法的誤り検出(GED)法は、人間の注釈付きエラーコーパスに大きく依存している。
しかし、これらのアノテーションは多くの低リソース言語では利用できない。
本稿では,この文脈におけるGEDについて検討する。
多言語事前訓練言語モデルのゼロショット・クロスランガル変換機能を活用することで、様々な言語からのデータを用いてモデルを訓練し、他の言語で合成エラーを生成する。
これらの合成誤差コーパスは、GEDモデルのトレーニングに使用される。
具体的には、まず、ターゲット言語からの多言語合成データに基づいてGEDモデルを微調整し、次いで、ソース言語からの人間の注釈付きGEDコーパスを微調整する2段階の微調整パイプラインを提案する。
このアプローチは、現在最先端のアノテーションのないGEDメソッドよりも優れている。
また,本手法と他の強力なベースラインによるエラーを分析し,より多様性があり,人間のエラーと類似したエラーが発生することを発見した。
関連論文リスト
- To Err Is Human, but Llamas Can Learn It Too [0.6990493129893112]
本研究では,言語モデル(LM)を用いた文法的誤り訂正の強化について検討する。
Llama 2-based LMs for error generation, and found that this approach yields synthetic error to a same error。
我々はこれらの人工的誤りの助けを借りてGEC Llamaモデルを訓練し、過去の最先端の誤り訂正モデルより優れていた。
論文 参考訳(メタデータ) (2024-03-08T18:04:03Z) - Towards Fine-Grained Information: Identifying the Type and Location of
Translation Errors [80.22825549235556]
既存のアプローチでは、エラーの位置と型を同期的に考慮することはできない。
我々はtextbf の追加と textbfomission エラーを予測するために FG-TED モデルを構築した。
実験により,本モデルではエラータイプと位置の同時同定が可能であり,最先端の結果が得られた。
論文 参考訳(メタデータ) (2023-02-17T16:20:33Z) - Judge a Sentence by Its Content to Generate Grammatical Errors [0.0]
文法的誤り訂正のための合成データ生成のための学習ベース2段階法を提案する。
合成コーパスで学習したGECモデルは,先行研究から得られた合成データで訓練したモデルよりも優れていた。
論文 参考訳(メタデータ) (2022-08-20T14:31:34Z) - Zero-shot Cross-lingual Transfer is Under-specified Optimization [49.3779328255767]
ソース言語単言語モデルとソース+ターゲットバイリンガルモデルとの間の線形補間モデルは、等しく低いソース言語一般化誤差を持つことを示す。
また、ゼロショット解は対象言語誤り一般化曲面の非平坦領域にあり、高い分散を引き起こすことを示した。
論文 参考訳(メタデータ) (2022-07-12T16:49:28Z) - Multilingual Generative Language Models for Zero-Shot Cross-Lingual
Event Argument Extraction [80.61458287741131]
ゼロショット言語間イベント引数抽出(EAE)における多言語事前学習型生成言語モデルの活用について検討する。
EAEを言語生成タスクとして定式化することにより、イベント構造を効果的にエンコードし、引数間の依存関係をキャプチャする。
提案するモデルでは,多言語事前学習型生成言語モデルを用いて,入力文から抽出した引数で言語に依存しないテンプレートを補う文を生成する。
論文 参考訳(メタデータ) (2022-03-15T23:00:32Z) - A Unified Strategy for Multilingual Grammatical Error Correction with
Pre-trained Cross-Lingual Language Model [100.67378875773495]
本稿では,多言語文法的誤り訂正のための汎用的かつ言語に依存しない戦略を提案する。
我々の手法は言語固有の操作を使わずに多様な並列GECデータを生成する。
NLPCC 2018 Task 2のデータセット(中国語)で最先端の結果を達成し、Falko-Merlin(ドイツ語)とRULEC-GEC(ロシア語)の競合性能を得る。
論文 参考訳(メタデータ) (2022-01-26T02:10:32Z) - Scarecrow: A Framework for Scrutinizing Machine Text [69.26985439191151]
我々はScarecrowと呼ばれる新しい構造化されたクラウドソースエラーアノテーションスキーマを導入する。
Scarecrowは1.3kの人文と機械が生成する英語ニューステキストの13kのアノテーションを収集する。
これらの結果は,現在および将来のテキスト生成システムの評価において,Scarecrowアノテーションの価値を示すものである。
論文 参考訳(メタデータ) (2021-07-02T22:37:03Z) - Synthetic Data Generation for Grammatical Error Correction with Tagged
Corruption Models [15.481446439370343]
ERRANTなどの自動アノテーションツールからのエラー型タグを使用して、合成データ生成をガイドする。
我々は、与えられた開発セットにマッチするエラータグ頻度分布を持つ、新しい大規模合成事前学習データセットを構築した。
本手法は,母国英語と非母国英語を混合したGECシステムをネイティブ英語テストセットに適用する上で,特に有効である。
論文 参考訳(メタデータ) (2021-05-27T17:17:21Z) - Detecting over/under-translation errors for determining adequacy in
human translations [0.0]
本稿では,翻訳評価における誤りチェックの一部として,OT/UT(Over and Under translations)の新たな手法を提案する。
我々は、機械翻訳(mt)出力に制限はせず、特に人間が生成した翻訳パイプラインでアプリケーションをターゲットにしています。
本システムの目的は、人間の翻訳ビデオ字幕からOT/UTエラーを高いエラーリコールで識別することである。
論文 参考訳(メタデータ) (2021-04-01T06:06:36Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。