論文の概要: A Simple Recipe for Multilingual Grammatical Error Correction
- arxiv url: http://arxiv.org/abs/2106.03830v1
- Date: Mon, 7 Jun 2021 17:47:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-08 18:13:29.744473
- Title: A Simple Recipe for Multilingual Grammatical Error Correction
- Title(参考訳): 多言語文法的誤り訂正のための簡単なレシピ
- Authors: Sascha Rothe, Jonathan Mallinson, Eric Malmi, Sebastian Krause,
Aliaksei Severyn
- Abstract要約: 本稿では,最新の多言語文法的誤り訂正(GEC)モデルを学習するためのレシピを提案する。
まず,多数の合成例を生成するための言語に依存しない手法を提案する。
第2の要素は、大規模多言語言語モデルを使用することである。
- 参考スコア(独自算出の注目度): 6.262434757334487
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a simple recipe to train state-of-the-art multilingual
Grammatical Error Correction (GEC) models. We achieve this by first proposing a
language-agnostic method to generate a large number of synthetic examples. The
second ingredient is to use large-scale multilingual language models (up to 11B
parameters). Once fine-tuned on language-specific supervised sets we surpass
the previous state-of-the-art results on GEC benchmarks in four languages:
English, Czech, German and Russian. Having established a new set of baselines
for GEC, we make our results easily reproducible and accessible by releasing a
cLang-8 dataset. It is produced by using our best model, which we call gT5, to
clean the targets of a widely used yet noisy lang-8 dataset. cLang-8 greatly
simplifies typical GEC training pipelines composed of multiple fine-tuning
stages -- we demonstrate that performing a single fine-tuning step on cLang-8
with the off-the-shelf language models yields further accuracy improvements
over an already top-performing gT5 model for English.
- Abstract(参考訳): 本稿では,最新の多言語文法的誤り訂正(GEC)モデルを訓練するための簡単なレシピを提案する。
まず,多数の合成例を生成するために,言語に依存しない手法を提案する。
第2の要素は、大規模多言語言語モデル(最大11Bパラメータ)を使用することである。
言語固有の教師付きセットを微調整すると、英語、チェコ語、ドイツ語、ロシア語の4つの言語でGECベンチマークの最先端結果を上回っます。
GECのための新しいベースラインセットを確立したので、cLang-8データセットを公開することにより、結果を再現しやすく、アクセスできるようにする。
gt5と呼ばれる最良のモデルを使って、広く使われているが騒がしいlang-8データセットのターゲットをきれいにする。
clang-8は、複数の微調整ステージからなる典型的なgecトレーニングパイプラインを非常に単純化している。我々は、市販の言語モデルでclang-8を1つの微調整ステップで実行すると、既にトップパフォーマンスの英語のgt5モデルよりもさらに精度が向上することを示す。
関連論文リスト
- Using Language Models to Disambiguate Lexical Choices in Translation [13.795280427753648]
翻訳において、ソース言語の1つの単語で表される概念は、ターゲット言語で複数のバリエーションを持つことができる。
DTAiLSは1,377の文対のデータセットで、英語から翻訳する際の言語間概念の変化を示す。
論文 参考訳(メタデータ) (2024-11-08T18:48:57Z) - ChatLang-8: An LLM-Based Synthetic Data Generation Framework for Grammatical Error Correction [6.220415006158471]
そこで我々はChatLang-8という文法的誤り訂正タスクのための新しいデータセットを提案する。
ChatLang-8は、人間に似た文法エラーを特徴とする100万対で構成されている。
GECデータセットの代わりにChatLang-8を使用する場合のモデル性能の改善を観察する。
論文 参考訳(メタデータ) (2024-06-05T12:35:00Z) - mmT5: Modular Multilingual Pre-Training Solves Source Language
Hallucinations [54.42422445568523]
mmT5はモジュール型多言語シーケンス・ツー・シーケンスモデルである。
言語固有の情報を言語に依存しない情報から切り離す。
mT5と比較して、mT5はゼロショット設定で正しい言語でテキストを生成する率を7%から99%に向上させる。
論文 参考訳(メタデータ) (2023-05-23T16:38:01Z) - QAmeleon: Multilingual QA with Only 5 Examples [71.80611036543633]
数ショットの学習環境下で事前学習した言語モデルを利用する方法を示す。
我々のアプローチであるQAmeleonは、PLMを使用して、QAモデルをトレーニングした多言語データを自動的に生成する。
言語毎に5つの例しか持たないデータ合成のためにPLMをプロンプトチューニングすることで、翻訳ベースのベースラインよりも精度が向上する。
論文 参考訳(メタデータ) (2022-11-15T16:14:39Z) - A Unified Strategy for Multilingual Grammatical Error Correction with
Pre-trained Cross-Lingual Language Model [100.67378875773495]
本稿では,多言語文法的誤り訂正のための汎用的かつ言語に依存しない戦略を提案する。
我々の手法は言語固有の操作を使わずに多様な並列GECデータを生成する。
NLPCC 2018 Task 2のデータセット(中国語)で最先端の結果を達成し、Falko-Merlin(ドイツ語)とRULEC-GEC(ロシア語)の競合性能を得る。
論文 参考訳(メタデータ) (2022-01-26T02:10:32Z) - From Good to Best: Two-Stage Training for Cross-lingual Machine Reading
Comprehension [51.953428342923885]
モデル性能を向上させるための2段階のアプローチを開発する。
我々は、トップk予測が正確な答えを含む確率を最大化するために、ハードラーニング(HL)アルゴリズムを設計する。
第2段階では, 正解と他の候補との微妙な違いを学習するために, 解答を意識したコントラスト学習機構が開発された。
論文 参考訳(メタデータ) (2021-12-09T07:31:15Z) - Continual Learning in Multilingual NMT via Language-Specific Embeddings [92.91823064720232]
共有語彙を小さな言語固有の語彙に置き換え、新しい言語の並列データに新しい埋め込みを微調整する。
元のモデルのパラメータは変更されていないため、初期言語の性能は劣化しない。
論文 参考訳(メタデータ) (2021-10-20T10:38:57Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - MTOP: A Comprehensive Multilingual Task-Oriented Semantic Parsing
Benchmark [31.91964553419665]
我々はMTOPと呼ばれる新しい多言語データセットを提案し、11ドメインの6言語で100kの注釈付き発話を合成する。
既存の2つの多言語データセットに対して、Slot F1上の+6.3ポイントの平均的な改善を、実験で報告された最良の結果よりも達成する。
本稿では,事前学習モデルと自動翻訳とアライメントを組み合わせたゼロショット性能と,スロットラベル投影におけるノイズ低減のための遠隔監視手法を提案する。
論文 参考訳(メタデータ) (2020-08-21T07:02:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。