論文の概要: PuckTrick: A Library for Making Synthetic Data More Realistic
- arxiv url: http://arxiv.org/abs/2506.18499v1
- Date: Mon, 23 Jun 2025 10:51:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.942948
- Title: PuckTrick: A Library for Making Synthetic Data More Realistic
- Title(参考訳): PuckTrick: 合成データをよりリアルにするためのライブラリ
- Authors: Alessandra Agostini, Andrea Maurino, Blerina Spahiu,
- Abstract要約: Pucktrickは、制御エラーを導入して、合成データセットを体系的に汚染するように設計されたPythonライブラリである。
系統的なデータ汚染がモデル性能に与える影響を評価する。
その結果、汚染された合成データに基づいて訓練されたMLモデルは、純粋に合成されたエラーのないデータで訓練されたモデルよりも優れていた。
- 参考スコア(独自算出の注目度): 46.198289193451146
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The increasing reliance on machine learning (ML) models for decision-making requires high-quality training data. However, access to real-world datasets is often restricted due to privacy concerns, proprietary restrictions, and incomplete data availability. As a result, synthetic data generation (SDG) has emerged as a viable alternative, enabling the creation of artificial datasets that preserve the statistical properties of real data while ensuring privacy compliance. Despite its advantages, synthetic data is often overly clean and lacks real-world imperfections, such as missing values, noise, outliers, and misclassified labels, which can significantly impact model generalization and robustness. To address this limitation, we introduce Pucktrick, a Python library designed to systematically contaminate synthetic datasets by introducing controlled errors. The library supports multiple error types, including missing data, noisy values, outliers, label misclassification, duplication, and class imbalance, offering a structured approach to evaluating ML model resilience under real-world data imperfections. Pucktrick provides two contamination modes: one for injecting errors into clean datasets and another for further corrupting already contaminated datasets. Through extensive experiments on real-world financial datasets, we evaluate the impact of systematic data contamination on model performance. Our findings demonstrate that ML models trained on contaminated synthetic data outperform those trained on purely synthetic, error-free data, particularly for tree-based and linear models such as SVMs and Extra Trees.
- Abstract(参考訳): 意思決定における機械学習(ML)モデルへの依存度の増加には、高品質なトレーニングデータが必要である。
しかし、プライバシの懸念、プロプライエタリな制限、不完全なデータ可用性のために、現実のデータセットへのアクセスは制限されることが多い。
その結果、合成データ生成(SDG)が実現可能な代替手段として登場し、プライバシコンプライアンスを確保しつつ、実際のデータの統計特性を保存する人工データセットの作成を可能にした。
その利点にもかかわらず、合成データは過度にクリーンであり、値の欠如、ノイズ、外れ値、誤分類ラベルなどの現実世界の欠陥が欠如しており、モデルの一般化と堅牢性に大きな影響を及ぼす可能性がある。
この制限に対処するために,制御エラーを導入して合成データセットを体系的に汚染するように設計されたPythonライブラリであるPucktrickを紹介した。
このライブラリは、欠落データ、ノイズ値、外れ値、ラベルの誤分類、重複、クラス不均衡など、複数のエラータイプをサポートし、実世界のデータ不完全性の下でMLモデルのレジリエンスを評価するための構造化されたアプローチを提供する。
Pucktrickは、クリーンなデータセットにエラーを注入するモードと、すでに汚染されているデータセットをさらに破損させるモードの2つを提供している。
実世界の財務データセットに関する広範な実験を通じて、系統的なデータ汚染がモデル性能に与える影響を評価する。
その結果, 汚染された合成データに基づいて訓練されたMLモデルは, 純粋に合成された, エラーのないデータ, 特にSVMやエクストラツリーのような木に基づく線形モデルにおいて, 訓練されたデータよりも優れていた。
関連論文リスト
- How to Synthesize Text Data without Model Collapse? [37.219627817995054]
合成データのモデル崩壊は、自己生成データに対する反復的なトレーニングが徐々に性能を低下させることを示している。
半合成データを得るために,人為的データに対するトークン編集を提案する。
論文 参考訳(メタデータ) (2024-12-19T09:43:39Z) - Improving Grammatical Error Correction via Contextual Data Augmentation [49.746484518527716]
本研究では,文脈拡張に基づく合成データ構築手法を提案する。
具体的には、ルールベースの置換とモデルベースの生成を組み合わせる。
また,合成データにおけるノイズラベルの効果を軽減するために,レザベリングに基づくデータクリーニング手法を提案する。
論文 参考訳(メタデータ) (2024-06-25T10:49:56Z) - Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。
このようなモデルは大きい傾向があり、訓練データの総量を必要とする。
人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。
このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文 参考訳(メタデータ) (2023-11-02T01:51:43Z) - From Zero to Hero: Detecting Leaked Data through Synthetic Data Injection and Model Querying [10.919336198760808]
分類モデルの学習に使用される漏洩データを検出する新しい手法を提案する。
textscLDSSは、クラス分散の局所的なシフトによって特徴付けられる、少量の合成データを所有者のデータセットに注入する。
これにより、モデルクエリ単独で、リークデータに基づいてトレーニングされたモデルの効果的な識別が可能になる。
論文 参考訳(メタデータ) (2023-10-06T10:36:28Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。