論文の概要: Ensembling and Knowledge Distilling of Large Sequence Taggers for
Grammatical Error Correction
- arxiv url: http://arxiv.org/abs/2203.13064v1
- Date: Thu, 24 Mar 2022 13:18:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-25 17:23:35.748753
- Title: Ensembling and Knowledge Distilling of Large Sequence Taggers for
Grammatical Error Correction
- Title(参考訳): 文法的誤り訂正のための大配列タガーのセンシングと知識蒸留
- Authors: Maksym Tarnavskyi, Artem Chernodub, Kostiantyn Omelianchuk
- Abstract要約: 大規模構成における最先端トランスフォーマーを用いたエンコーダのアンサンブルに着目し, GEC シーケンスタグアーキテクチャの改善について検討する。
私たちの最高のアンサンブルはBEA 2019でF_0.5$スコア76.05という新しいSOTA結果を達成する(テスト)。
さらに、訓練アンサンブルを用いて知識蒸留を行い、新しい合成訓練データセット「Troy-Blogs」と「Troy-1BW」を生成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we investigate improvements to the GEC sequence tagging
architecture with a focus on ensembling of recent cutting-edge
Transformer-based encoders in Large configurations. We encourage ensembling
models by majority votes on span-level edits because this approach is tolerant
to the model architecture and vocabulary size. Our best ensemble achieves a new
SOTA result with an $F_{0.5}$ score of 76.05 on BEA-2019 (test), even without
pre-training on synthetic datasets. In addition, we perform knowledge
distillation with a trained ensemble to generate new synthetic training
datasets, "Troy-Blogs" and "Troy-1BW". Our best single sequence tagging model
that is pretrained on the generated Troy-datasets in combination with the
publicly available synthetic PIE dataset achieves a near-SOTA (To the best of
our knowledge, our best single model gives way only to much heavier T5 model
result with an $F_{0.5}$ score of 73.21 on BEA-2019 (test). The code, datasets,
and trained models are publicly available).
- Abstract(参考訳): 本稿では,最近の切削エッジトランスフォーマベースのエンコーダを大規模構成にセンシングすることに着目し,gecシーケンスタグアーキテクチャの改善について検討する。
このアプローチはモデルアーキテクチャや語彙サイズに耐性があるため、スパンレベルの編集に多数票を投じることを推奨しています。
我々の最高のアンサンブルは、合成データセットを事前訓練することなく、BEA-2019(テスト)でF_{0.5}$スコア76.05のSOTA結果を達成する。
さらに,学習アンサンブルを用いて知識蒸留を行い,新たな学習データセット"Troy-Blogs"と"Troy-1BW"を生成する。
我々の最も優れたシングルシーケンスタギングモデルは、生成したTroyデータセットと利用可能な合成PIEデータセットを併用して、ほぼSOTA(私たちの知る限り、私たちの最高のシングルモデルでは、BEA-2019で73.21のスコアで、はるかに重いT5モデルにしか対応できません)を実現します。
コード、データセット、トレーニングされたモデルが公開されている)。
関連論文リスト
- Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - Machine Unlearning using a Multi-GAN based Model [0.0]
本稿では,GAN(Generative Adversarial Network)をベースとした新しい機械学習手法を提案する。
提案手法は,GANモデルを用いたデータ再構成と,学習済みモデルを微調整する2つのフェーズから構成される。
論文 参考訳(メタデータ) (2024-07-26T02:28:32Z) - A synthetic data approach for domain generalization of NLI models [13.840374911669167]
自然言語推論(NLI)はLLMにとって重要なベンチマークタスクである。
合成された高品質データセットは、下流アプリケーションでゼロショット使用にNLIモデルを適用することができることを示す。
我々は、このデータに基づいてトレーニングされたモデルが、完全に下流のテスト設定に最適な一般化があることを示します。
論文 参考訳(メタデータ) (2024-02-19T18:55:16Z) - MosaicBERT: A Bidirectional Encoder Optimized for Fast Pretraining [10.421048804389343]
本稿では,BERTスタイルのエンコーダアーキテクチャであるMosaicBERTを紹介する。
C4データセットのスクラッチから事前トレーニングされた場合、このベースモデルは、約20ドルで8 A100 80 GB GPU上で1.13時間の平均GLUEスコア79.6を達成する。
この事前トレーニングでの実証的なスピードアップにより、研究者やエンジニアは既存のジェネリックモデルの微調整ではなく、BERTスタイルのカスタムモデルを低コストで事前トレーニングすることができる。
論文 参考訳(メタデータ) (2023-12-29T06:05:19Z) - Efficient Grammatical Error Correction Via Multi-Task Training and
Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。
我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。
トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文 参考訳(メタデータ) (2023-11-20T14:50:12Z) - TarGEN: Targeted Data Generation with Large Language Models [51.87504111286201]
TarGENは、高品質な合成データセットを生成するための、多段階のプロンプト戦略である。
我々は,LLMが不正確なラベル付きインスタンスを修正できるようにする自己補正法により,TarGENを増強する。
合成データセットを元のデータセットと比較した包括的な分析により、データセットの複雑さと多様性の類似または高いレベルが明らかになる。
論文 参考訳(メタデータ) (2023-10-27T03:32:17Z) - Generalizing Dataset Distillation via Deep Generative Prior [75.9031209877651]
本稿では,データセット全体の知識をいくつかの合成画像に抽出することを提案する。
このアイデアは、学習アルゴリズムにトレーニングデータとして与えられる少数の合成データポイントを合成し、結果として元のデータに基づいてトレーニングされたデータを近似するモデルを構築する。
生成モデルの潜在空間における複数の中間特徴ベクトルに多数の画像を蒸留する新しい最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-02T17:59:31Z) - Pretraining Without Attention [114.99187017618408]
本研究では、状態空間モデル(SSM)に基づくシーケンスルーティングの最近の進歩を利用して、注意を払わずに事前学習を探索する。
BiGS は GLUE 上で BERT の事前トレーニング精度と一致し、近似なしで 4096 トークンの長期事前トレーニングに拡張できる。
論文 参考訳(メタデータ) (2022-12-20T18:50:08Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z) - Machine Learning Techniques to Construct Patched Analog Ensembles for
Data Assimilation [0.0]
本稿では,cAnEnOIの機械学習コンポーネントに対する一般および変分オートエンコーダについて検討する。
グローバル空間領域を消化可能なチャンクに分割するパッチ法を提案する。
この新しいアルゴリズムを1Dトイモデルでテストすると、より大きなパッチサイズにより、正確な生成モデルのトレーニングが困難になることがわかります。
論文 参考訳(メタデータ) (2021-02-27T20:47:27Z) - A Comparison of LSTM and BERT for Small Corpus [0.0]
NLP分野の最近の進歩は、スクラッチから始めるのではなく、事前学習されたモデルを調整することによって、新しいタスクの最先端結果を達成するのに、トランスファーラーニングが役立つことを示している。
本稿では、学術と産業の科学者が頻繁に直面する現実的なシナリオに焦点を当てる。小さなデータセットがあれば、BERTのような大規模な事前学習モデルを使用して、単純なモデルよりも優れた結果を得ることができるか?
実験の結果,2方向LSTMモデルは小データセットのBERTモデルよりもはるかに高い結果が得られることが示され,これらの単純なモデルは事前学習したモデルよりもはるかに少ない時間で訓練されることがわかった。
論文 参考訳(メタデータ) (2020-09-11T14:01:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。