論文の概要: Synthetic Alone: Exploring the Dark Side of Synthetic Data for
Grammatical Error Correction
- arxiv url: http://arxiv.org/abs/2306.14377v1
- Date: Mon, 26 Jun 2023 01:40:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-27 15:14:50.394308
- Title: Synthetic Alone: Exploring the Dark Side of Synthetic Data for
Grammatical Error Correction
- Title(参考訳): 合成単独:文法的誤り訂正のための合成データの暗面を探索する
- Authors: Chanjun Park, Seonmin Koo, Seolhwa Lee, Jaehyung Seo, Sugyeong Eo,
Hyeonseok Moon, Heuiseok Lim
- Abstract要約: データ中心のAIアプローチは、モデルを変更することなく、モデルのパフォーマンスを向上させることを目的としている。
データ品質管理手法は、実世界のデータで訓練されたモデルに肯定的な影響を与える。
合成データのみに基づいて訓練されたモデルでは、負の影響が観測される。
- 参考スコア(独自算出の注目度): 5.586798679167892
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data-centric AI approach aims to enhance the model performance without
modifying the model and has been shown to impact model performance positively.
While recent attention has been given to data-centric AI based on synthetic
data, due to its potential for performance improvement, data-centric AI has
long been exclusively validated using real-world data and publicly available
benchmark datasets. In respect of this, data-centric AI still highly depends on
real-world data, and the verification of models using synthetic data has not
yet been thoroughly carried out. Given the challenges above, we ask the
question: Does data quality control (noise injection and balanced data), a
data-centric AI methodology acclaimed to have a positive impact, exhibit the
same positive impact in models trained solely with synthetic data? To address
this question, we conducted comparative analyses between models trained on
synthetic and real-world data based on grammatical error correction (GEC) task.
Our experimental results reveal that the data quality control method has a
positive impact on models trained with real-world data, as previously reported
in existing studies, while a negative impact is observed in models trained
solely on synthetic data.
- Abstract(参考訳): データ中心のAIアプローチは、モデルを変更することなくモデルパフォーマンスを向上させることを目的としており、モデルパフォーマンスに肯定的な影響を与えることが示されている。
合成データに基づくデータ中心AIは近年注目されているが、パフォーマンス改善の可能性を秘めているため、データ中心AIは、実世界のデータと公開可能なベンチマークデータセットを使用して、排他的に検証されてきた。
これに関して、データ中心のaiはまだ現実世界のデータに大きく依存しており、合成データを用いたモデルの検証はまだ完全には行われていない。
データ中心のAI方法論であるデータ品質制御(ノイズ注入とバランスデータ)は、肯定的な影響があると評価され、合成データのみでトレーニングされたモデルにも同じ肯定的な影響を示すか?
そこで本研究では,文法的誤り訂正(GEC)に基づく合成データと実世界のデータを用いたモデルの比較分析を行った。
実験の結果,従来研究で報告されていたように,データ品質制御手法が実世界データでトレーニングされたモデルに正の影響を与え,一方,合成データのみをトレーニングしたモデルでは負のインパクトが観察されることがわかった。
関連論文リスト
- Reliability in Semantic Segmentation: Can We Use Synthetic Data? [52.5766244206855]
本稿では,セマンティックセグメンテーションにおける信頼性を評価するために,データの自動合成を行う最先端生成モデルに挑戦する。
安定拡散を微調整することにより、OODドメインやOODオブジェクトに塗布された合成データのゼロショット生成を行う。
我々は,合成データの性能と実OODデータの性能との間に高い相関関係を示し,妥当性を示す。
論文 参考訳(メタデータ) (2023-12-14T18:56:07Z) - Boosting Data Analytics With Synthetic Volume Expansion [3.568650932986342]
本稿では,合成データに対する統計的手法の有効性と,合成データのプライバシーリスクについて考察する。
この枠組みにおける重要な発見は、合成データに対する統計的手法の誤差率は、より多くの合成データを追加することで減少するが、最終的には上昇または安定化する可能性があることを明らかにする世代効果である。
論文 参考訳(メタデータ) (2023-10-27T01:57:27Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large
Language Models by Extrapolating Errors from Small Models [69.76066070227452]
※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。
本稿では,この分散ギャップを縮めるデータ合成フレームワークであるStep* (**S3**) による合成ステップを提案する。
提案手法は,合成データセットと実データとのギャップを小さくすることで,小型モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-10-20T17:14:25Z) - Does Synthetic Data Make Large Language Models More Efficient? [0.0]
本稿では,NLPにおける合成データ生成のニュアンスについて考察する。
データ拡張の可能性や構造化品種の導入など、その利点を強調します。
テンプレートベースの合成データが現代の変圧器モデルの性能に与える影響を実証する。
論文 参考訳(メタデータ) (2023-10-11T19:16:09Z) - On the Stability of Iterative Retraining of Generative Models on their
own Data [56.153542044045224]
生成モデルの訓練がデータセット(実データと合成データの混合データ)の安定性に及ぼす影響について検討した。
まず、初期生成モデルがデータ分布を十分に近似する条件下で反復学習の安定性を実証する。
我々は,CIFAR10およびFFHQ上の正規化フローと最先端拡散モデルの反復的訓練により,合成画像と自然画像の両方に関する理論を実証的に検証した。
論文 参考訳(メタデータ) (2023-09-30T16:41:04Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Striving for data-model efficiency: Identifying data externalities on
group performance [75.17591306911015]
信頼できる、効果的で責任ある機械学習システムの構築は、トレーニングデータとモデリング決定の違いが、予測パフォーマンスにどのように影響するかを理解することに集中する。
我々は、特定のタイプのデータモデル非効率性に注目し、一部のソースからトレーニングデータを追加することで、集団の重要なサブグループで評価されるパフォーマンスを実際に低下させることができる。
以上の結果から,データ効率が正確かつ信頼性の高い機械学習の鍵となることが示唆された。
論文 参考訳(メタデータ) (2022-11-11T16:48:27Z) - An Analysis of the Deployment of Models Trained on Private Tabular
Synthetic Data: Unexpected Surprises [4.129847064263057]
異なるプライベート(DP)合成データセットは、機械学習モデルをトレーニングするための強力なアプローチである。
差分プライベートな合成データ生成が分類に与える影響について検討する。
論文 参考訳(メタデータ) (2021-06-15T21:00:57Z) - Transitioning from Real to Synthetic data: Quantifying the bias in model [1.6134566438137665]
本研究では,合成データを用いたモデルにおけるバイアスと公平性のトレードオフを確立することを目的とする。
合成データを用いて訓練したモデルには、様々なレベルのバイアスの影響があることを実証する。
論文 参考訳(メタデータ) (2021-05-10T06:57:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。