論文の概要: Evaluation of large-scale synthetic data for Grammar Error Correction
- arxiv url: http://arxiv.org/abs/2210.17035v1
- Date: Mon, 31 Oct 2022 03:19:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 15:12:36.031200
- Title: Evaluation of large-scale synthetic data for Grammar Error Correction
- Title(参考訳): 文法誤り訂正のための大規模合成データの評価
- Authors: Vanya Bannihatti Kumar
- Abstract要約: Grammar Error Correction (GEC) は主に文法的に正しい文対と誤文対の大量の合成並列データの高品質化に依拠している。
本研究は,GECタスクで生成された大規模合成データの品質について,信頼性,多様性,分散マッチングの3つの指標を導入することを目的とする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Grammar Error Correction(GEC) mainly relies on the availability of high
quality of large amount of synthetic parallel data of grammatically correct and
erroneous sentence pairs. The quality of the synthetic data is evaluated on how
well the GEC system performs when pre-trained using it. But this does not
provide much insight into what are the necessary factors which define the
quality of these data. So this work aims to introduce 3 metrics - reliability,
diversity and distribution match to provide more insight into the quality of
large-scale synthetic data generated for the GEC task, as well as automatically
evaluate them. Evaluating these three metrics automatically can also help in
providing feedback to the data generation systems and thereby improve the
quality of the synthetic data generated dynamically
- Abstract(参考訳): Grammar Error Correction (GEC) は主に文法的に正しい文対と誤文対の大量の合成並列データの高品質化に依拠している。
合成データの品質は、GECシステムを用いて事前学習した際の性能に基づいて評価される。
しかし、これらのデータの品質を定義するために必要な要素についてはあまり洞察を提供していません。
そこで本研究では,GECタスクで生成された大規模合成データの品質について,信頼性,多様性,分布マッチングの3つの指標を導入し,それらを自動評価する。
これら3つのメトリクスを自動的に評価することは、データ生成システムにフィードバックを提供し、動的に生成された合成データの品質を向上させるのにも役立ちます。
関連論文リスト
- Little Giants: Synthesizing High-Quality Embedding Data at Scale [71.352883755806]
SPEEDは,オープンソースの小型モデルと協調して大規模な埋め込みデータを効率的に生成するフレームワークである。
SPEEDはGPT API呼び出しの1/10未満しか使用せず、両者が合成データのみに基づいてトレーニングされている場合、最先端の埋め込みモデルE5_mistralよりも優れている。
論文 参考訳(メタデータ) (2024-10-24T10:47:30Z) - Improving Grammatical Error Correction via Contextual Data Augmentation [49.746484518527716]
本研究では,文脈拡張に基づく合成データ構築手法を提案する。
具体的には、ルールベースの置換とモデルベースの生成を組み合わせる。
また,合成データにおけるノイズラベルの効果を軽減するために,レザベリングに基づくデータクリーニング手法を提案する。
論文 参考訳(メタデータ) (2024-06-25T10:49:56Z) - Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - Quality-Diversity Generative Sampling for Learning with Synthetic Data [18.642540152362237]
生成モデルは、合成トレーニングデータセットを作成することによって、実際のデータソースのサロゲートとして機能する。
本研究では,QDGS(Quality-diversity Generative sample)を提案する。
論文 参考訳(メタデータ) (2023-12-22T01:43:27Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Generating Faithful Synthetic Data with Large Language Models: A Case
Study in Computational Social Science [13.854807858791652]
我々は、合成データ生成における広範囲な問題に取り組み、その生成分布は、研究者が関心を持つ実世界のデータ分布とは異なることが多い。
本研究では,合成データの忠実度を高めるための3つの戦略について検討する。
本稿では,特定のタスクに対して高忠実度合成データを生成する方法について提案する。
論文 参考訳(メタデータ) (2023-05-24T11:27:59Z) - Bridging the Gap: Enhancing the Utility of Synthetic Data via
Post-Processing Techniques [7.967995669387532]
生成モデルは、実世界のデータを置き換えたり拡張したりできる合成データセットを生成するための有望なソリューションとして登場した。
本稿では,合成データセットの品質と多様性を向上させるために,新しい3つのポストプロセッシング手法を提案する。
Gap Filler(GaFi)は、Fashion-MNIST、CIFAR-10、CIFAR-100データセットにおいて、実精度スコアとのギャップを2.03%、1.78%、および3.99%に効果的に減少させることを示した。
論文 参考訳(メタデータ) (2023-05-17T10:50:38Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z) - Synthetic Data Generation for Grammatical Error Correction with Tagged
Corruption Models [15.481446439370343]
ERRANTなどの自動アノテーションツールからのエラー型タグを使用して、合成データ生成をガイドする。
我々は、与えられた開発セットにマッチするエラータグ頻度分布を持つ、新しい大規模合成事前学習データセットを構築した。
本手法は,母国英語と非母国英語を混合したGECシステムをネイティブ英語テストセットに適用する上で,特に有効である。
論文 参考訳(メタデータ) (2021-05-27T17:17:21Z) - Quality Estimation without Human-labeled Data [25.25993509174361]
品質評価は、参照翻訳にアクセスすることなく、翻訳されたコンテンツの質を測定することを目的としている。
本稿では,人間アノテーションの例に頼らず,合成学習データを用いた手法を提案する。
合成データの品質評価を教師するオフ・ザ・シェルフアーキテクチャをトレーニングし、結果として得られたモデルが、人間の注釈付きデータに基づいてトレーニングされたモデルに匹敵する性能を発揮することを示す。
論文 参考訳(メタデータ) (2021-02-08T06:25:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。