Fugu-MT 論文翻訳(概要): Data Weighted Training Strategies for Grammatical Error Correction

論文の概要: Data Weighted Training Strategies for Grammatical Error Correction

arxiv url: http://arxiv.org/abs/2008.02976v2
Date: Wed, 9 Sep 2020 13:58:58 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-02 00:25:42.409922
Title: Data Weighted Training Strategies for Grammatical Error Correction
Title（参考訳）: 文法的誤り訂正のためのデータ重み付け訓練戦略
Authors: Jared Lichtarge and Chris Alberti and Shankar Kumar
Abstract要約: 文法的誤り訂正(GEC)のトレーニングスケジュールにデルタ-log-perplexityを組み込む方法を示す。得られたデータに基づいて訓練されたモデルは、一般的なGECテストセットで最先端の結果を得る。
参考スコア（独自算出の注目度）: 8.370770440898454
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent progress in the task of Grammatical Error Correction (GEC) has been driven by addressing data sparsity, both through new methods for generating large and noisy pretraining data and through the publication of small and higher-quality finetuning data in the BEA-2019 shared task. Building upon recent work in Neural Machine Translation (NMT), we make use of both kinds of data by deriving example-level scores on our large pretraining data based on a smaller, higher-quality dataset. In this work, we perform an empirical study to discover how to best incorporate delta-log-perplexity, a type of example scoring, into a training schedule for GEC. In doing so, we perform experiments that shed light on the function and applicability of delta-log-perplexity. Models trained on scored data achieve state-of-the-art results on common GEC test sets.
Abstract（参考訳）: 文法的誤り訂正(GEC)タスクの最近の進歩は、大規模でノイズの多い事前学習データを生成する新しい方法と、BEA-2019共有タスクで小型で高品質な微調整データを公開することによって、データの疎結合に対処することによって進められている。最近のニューラルマシン翻訳(nmt)の研究に基づいて、より小さく高品質なデータセットに基づいて、大規模事前トレーニングデータのサンプルレベルのスコアを導出することにより、両方の種類のデータを活用する。本研究は,GECのトレーニングスケジュールにデルタログパープレキシティ(デルタログパープレキシティ)を最適に組み込む方法について,実証的研究を行った。そこで我々はデルタログパープレキシティの機能と適用性に光を当てる実験を行った。スコア付きデータでトレーニングされたモデルは、共通のgecテストセットで最先端の結果を得る。

関連論文リスト

Less is More: Adaptive Coverage for Synthetic Training Data [20.136698279893857]
本研究では,最大カバレッジ問題に基づく新しいサンプリングアルゴリズムを導入し,合成されたデータセットから代表サブセットを選択する。この結果から,この文脈的にサンプリングされたサブセット上での分類器のトレーニングは,データセット全体のトレーニングよりも優れた性能が得られることが示された。
論文参考訳（メタデータ） (2025-04-20T06:45:16Z)
Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文参考訳（メタデータ） (2024-10-29T04:14:32Z)
Fine-tuning can Help Detect Pretraining Data from Large Language Models [7.7209640786782385]
現在のメソッドでは、PerplexityやMin-k%といったスコアリング関数を設計することで、メンバと非メンバを区別している。本研究では,FSD(Fun-Tuned Score Deviation)と呼ばれる新しい手法を提案する。
論文参考訳（メタデータ） (2024-10-09T15:36:42Z)
Data Shapley in One Training Run [88.59484417202454]
Data Shapleyは、機械学習コンテキストにおけるデータのコントリビューションに寄与するための、原則化されたフレームワークを提供する。既存のアプローチでは、計算集約的な異なるデータサブセット上の再学習モデルが必要である。本稿では、対象とするデータモデルに対するスケーラブルなデータ属性を提供することにより、これらの制限に対処するIn-Run Data Shapleyを紹介する。
論文参考訳（メタデータ） (2024-06-16T17:09:24Z)
Efficient Grammatical Error Correction Via Multi-Task Training and Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文参考訳（メタデータ） (2023-11-20T14:50:12Z)
Understanding and Mitigating the Label Noise in Pre-training on Downstream Tasks [91.15120211190519]
本稿では、事前学習データセットにおけるノイズの性質を理解し、下流タスクへの影響を軽減することを目的とする。雑音の悪影響を軽減するために特徴空間に適応する軽量ブラックボックスチューニング法(NMTune)を提案する。
論文参考訳（メタデータ） (2023-09-29T06:18:15Z)
Too Fine or Too Coarse? The Goldilocks Composition of Data Complexity for Robust Left-Right Eye-Tracking Classifiers [0.0]
我々は、細粒度データと粗粒度データの両方からなる混合データセットを用いて機械学習モデルを訓練する。我々の目的のために、細粒度データはより複雑な方法で収集されたデータを指すのに対し、粗粒度データはより単純な方法で収集されたデータを指す。
論文参考訳（メタデータ） (2022-08-24T23:18:08Z)
Curriculum-Based Self-Training Makes Better Few-Shot Learners for Data-to-Text Generation [56.98033565736974]
テキスト生成の困難さによって決定される並べ替え順序でラベルのないデータを活用するために,カリキュラムベースの自己学習(CBST)を提案する。提案手法は、微調整およびタスク適応型事前学習法より優れており、データ・テキスト・ジェネレーションのわずかな設定で最先端の性能を実現することができる。
論文参考訳（メタデータ） (2022-06-06T16:11:58Z)
DAGA: Data Augmentation with a Generation Approach for Low-resource Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文参考訳（メタデータ） (2020-11-03T07:49:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。