論文の概要: Encoder-Decoder Models Can Benefit from Pre-trained Masked Language
Models in Grammatical Error Correction
- arxiv url: http://arxiv.org/abs/2005.00987v2
- Date: Sun, 31 May 2020 08:01:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 06:32:14.668573
- Title: Encoder-Decoder Models Can Benefit from Pre-trained Masked Language
Models in Grammatical Error Correction
- Title(参考訳): Encoder-Decoderモデルは文法的誤り訂正における事前学習されたマスク言語モデルから得られる
- Authors: Masahiro Kaneko, Masato Mita, Shun Kiyono, Jun Suzuki, Kentaro Inui
- Abstract要約: 従来の方法はEncDecモデルに適用した場合に潜在的な欠点がある。
提案手法では, コーパスを微調整し, GECモデルに付加的な特徴として出力を微調整する。
BEA 2019とCoNLL-2014ベンチマークにおける最高のパフォーマンスモデルのパフォーマンス。
- 参考スコア(独自算出の注目度): 54.569707226277735
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper investigates how to effectively incorporate a pre-trained masked
language model (MLM), such as BERT, into an encoder-decoder (EncDec) model for
grammatical error correction (GEC). The answer to this question is not as
straightforward as one might expect because the previous common methods for
incorporating a MLM into an EncDec model have potential drawbacks when applied
to GEC. For example, the distribution of the inputs to a GEC model can be
considerably different (erroneous, clumsy, etc.) from that of the corpora used
for pre-training MLMs; however, this issue is not addressed in the previous
methods. Our experiments show that our proposed method, where we first
fine-tune a MLM with a given GEC corpus and then use the output of the
fine-tuned MLM as additional features in the GEC model, maximizes the benefit
of the MLM. The best-performing model achieves state-of-the-art performances on
the BEA-2019 and CoNLL-2014 benchmarks. Our code is publicly available at:
https://github.com/kanekomasahiro/bert-gec.
- Abstract(参考訳): 本稿では,BERT などの事前学習されたマスク付き言語モデル (MLM) を,文法的誤り訂正のためのエンコーダデコーダモデル (EncDec) に効果的に組み込む方法について検討する。
この疑問に対する答えは、従来のEMMをEncDecモデルに組み込む一般的な方法は、ECCに適用した場合に潜在的な欠点があるため、予想されるほど単純ではない。
例えば、GECモデルへの入力の分布は、事前学習用MLMのコーパスとはかなり異なる(誤った、不器用ななど)が、この問題は以前の方法では解決されない。
実験の結果,提案手法は,まず,まず与えられたGECコーパスを用いてMDMを微調整し,次に、細調整MLMの出力をGECモデルの付加的な特徴として使用することにより,MDMの利点を最大化することができることがわかった。
最高のパフォーマンスモデルはBEA-2019とCoNLL-2014ベンチマークで最先端のパフォーマンスを達成する。
私たちのコードは、https://github.com/kanekomasahiro/bert-gec.comで公開されています。
関連論文リスト
- Aligning Large Language Models via Fine-grained Supervision [20.35000061196631]
事前訓練された大規模言語モデル(LLM)は、一貫性のある記事を生成するのに優れていますが、そのアウトプットは非現実的、有毒、あるいはユーザの期待に沿わないかもしれません。
現在のアプローチは、モデルアライメントを改善するために、人間のフィードバックによる強化学習を使うことに重点を置いている。
トークンレベルの微粒化によるLCMアライメント向上手法を提案する。
論文 参考訳(メタデータ) (2024-06-04T20:21:45Z) - Which Syntactic Capabilities Are Statistically Learned by Masked
Language Models for Code? [51.29970742152668]
精度に基づく測定に依存することで、モデルの能力が過大評価される可能性があることを強調する。
これらの問題に対処するために,SyntaxEval in Syntactic Capabilitiesというテクニックを導入する。
論文 参考訳(メタデータ) (2024-01-03T02:44:02Z) - Are Pre-trained Language Models Useful for Model Ensemble in Chinese
Grammatical Error Correction? [10.302225525539003]
4つの洗練された単一モデルを持つ強力なPLMに基づくアンサンブル戦略を探索する。
性能は向上しないが、PLMベースのアンサンブル後にさらに悪化する。
論文 参考訳(メタデータ) (2023-05-24T14:18:52Z) - Representation Deficiency in Masked Language Modeling [107.39136254013042]
我々は Masked Autoencoder アーキテクチャを事前トレーニングする MAE-LM を提案し,$tt[MASK]$トークンをエンコーダから除外する。
GLUE と SQuAD ベンチマークで微調整した場合,MAE-LM は,事前学習したモデルに対して,異なる事前学習設定とモデルサイズで一貫した性能を示した。
論文 参考訳(メタデータ) (2023-02-04T01:54:17Z) - Frustratingly Simple Pretraining Alternatives to Masked Language
Modeling [10.732163031244651]
Masked Language Modeling (MLM) は自然言語処理においてテキスト表現の学習に広く用いられている。
本稿では,トークンレベルの分類タスクを表現の代替として用いた5つの簡単な事前学習目標について検討する。
論文 参考訳(メタデータ) (2021-09-04T08:52:37Z) - Exposing the Implicit Energy Networks behind Masked Language Models via
Metropolis--Hastings [57.133639209759615]
我々は,エネルギーに基づくシーケンスモデルとしてシーケンスを解釈し,訓練者から導出される2つのエネルギーパラメトリゼーションを提案する。
我々はメトロポリス・ハスティングス・モンテカルロのアルゴリズムに基づく抽出可能なエンフスキームを開発した。
提案手法の有効性を,これらのエネルギーモデルから得られた試料の品質を探索することによって検証する。
論文 参考訳(メタデータ) (2021-06-04T22:04:30Z) - Universal Sentence Representation Learning with Conditional Masked
Language Model [7.334766841801749]
文表現を効果的に学習するための条件付きマスク言語モデリング(M)を提案する。
我々の英語CMLMモデルは,SentEvalの最先端性能を実現する。
完全に教師なしの学習方法として、CMLMは幅広い言語やドメインに便利に拡張できます。
論文 参考訳(メタデータ) (2020-12-28T18:06:37Z) - MPNet: Masked and Permuted Pre-training for Language Understanding [158.63267478638647]
MPNetはBERTとXLNetの利点を継承し、制限を回避する新しい事前トレーニング手法である。
我々は,大規模データセット(160GB以上のテキストコーパス)とさまざまなダウンストリームタスクの微調整を行う。
その結果,MPNet は実験と PLM を大きなマージンで上回り,従来の最先端の事前学習手法と比較して,これらの課題に対して良好な結果が得られることがわかった。
論文 参考訳(メタデータ) (2020-04-20T13:54:12Z) - ELECTRA: Pre-training Text Encoders as Discriminators Rather Than
Generators [108.3381301768299]
Masked Language Modeling (MLM) は、BERT のような事前学習手法で、いくつかのトークンを [MASK] に置き換えて、元のトークンを再構築するためにモデルをトレーニングすることで入力を破損させた。
代用トークン検出という,より効率的な事前学習タスクを提案する。
論文 参考訳(メタデータ) (2020-03-23T21:17:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。