論文の概要: On the Usefulness of Synthetic Tabular Data Generation
- arxiv url: http://arxiv.org/abs/2306.15636v1
- Date: Tue, 27 Jun 2023 17:26:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-28 12:21:55.987899
- Title: On the Usefulness of Synthetic Tabular Data Generation
- Title(参考訳): 合成表データ生成の有用性について
- Authors: Dionysis Manousakas and Serg\"ul Ayd\"ore
- Abstract要約: 合成データは、データ交換と強化機械学習(ML)トレーニングの両方に使用できると一般的に信じられている。
プライバシを保存する合成データ生成は、下流タスクのデータ交換を加速するが、なぜ合成データがMLトレーニングを促進するのかを示す十分な証拠はない。
- 参考スコア(独自算出の注目度): 3.04585143845864
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite recent advances in synthetic data generation, the scientific
community still lacks a unified consensus on its usefulness. It is commonly
believed that synthetic data can be used for both data exchange and boosting
machine learning (ML) training. Privacy-preserving synthetic data generation
can accelerate data exchange for downstream tasks, but there is not enough
evidence to show how or why synthetic data can boost ML training. In this
study, we benchmarked ML performance using synthetic tabular data for four use
cases: data sharing, data augmentation, class balancing, and data
summarization. We observed marginal improvements for the balancing use case on
some datasets. However, we conclude that there is not enough evidence to claim
that synthetic tabular data is useful for ML training.
- Abstract(参考訳): 近年の合成データ生成の進歩にもかかわらず、科学コミュニティはその有用性について統一的なコンセンサスを欠いている。
合成データは、データ交換と強化機械学習(ML)トレーニングの両方に使用できると一般的に信じられている。
プライバシを保存する合成データ生成は、下流タスクのデータ交換を加速するが、なぜ合成データがMLトレーニングを促進するのかを示す十分な証拠はない。
本研究では,データ共有,データ拡張,クラスバランス,データ要約の4つのユースケースを対象に,合成表データを用いたML性能のベンチマークを行った。
いくつかのデータセットにおけるバランシングユースケースの限界的な改善を観察した。
しかし,合成表型データがMLトレーニングに有用であることを示す証拠は十分ではないと結論づける。
関連論文リスト
- Little Giants: Synthesizing High-Quality Embedding Data at Scale [71.352883755806]
SPEEDは,オープンソースの小型モデルと協調して大規模な埋め込みデータを効率的に生成するフレームワークである。
SPEEDはGPT API呼び出しの1/10未満しか使用せず、両者が合成データのみに基づいてトレーニングされている場合、最先端の埋め込みモデルE5_mistralよりも優れている。
論文 参考訳(メタデータ) (2024-10-24T10:47:30Z) - Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - On the Equivalency, Substitutability, and Flexibility of Synthetic Data [9.459709213597707]
本研究では,合成データと実世界のデータとの等価性,実データに対する合成データの置換可能性,合成データ生成装置の柔軟性について検討する。
以上の結果から, 合成データによりモデル性能が向上するだけでなく, 実データへの置換性も向上し, 性能損失の60%から80%が置換可能であることが示唆された。
論文 参考訳(メタデータ) (2024-03-24T17:21:32Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Synthetic is all you need: removing the auxiliary data assumption for
membership inference attacks against synthetic data [9.061271587514215]
この仮定をどのように取り除くかを示し、MIAを合成データのみを用いて実行できるようにする。
その結果,MIAは実世界の2つのデータセットと2つの合成データジェネレータでまだ成功していることがわかった。
論文 参考訳(メタデータ) (2023-07-04T13:16:03Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Beyond Privacy: Navigating the Opportunities and Challenges of Synthetic
Data [91.52783572568214]
合成データは、機械学習の世界において支配的な力となり、データセットを個々のニーズに合わせて調整できる未来を約束する。
合成データのより広範な妥当性と適用のために,コミュニティが克服すべき根本的な課題について論じる。
論文 参考訳(メタデータ) (2023-04-07T16:38:40Z) - Synthcity: facilitating innovative use cases of synthetic data in
different data modalities [86.52703093858631]
Synthcityは、MLフェアネス、プライバシ、拡張における合成データの革新的なユースケースのための、オープンソースのソフトウェアパッケージである。
Synthcityは、実践者に対して、合成データにおける最先端の研究とツールへの単一のアクセスポイントを提供する。
論文 参考訳(メタデータ) (2023-01-18T14:49:54Z) - Evolving GANs: When Contradictions Turn into Compliance [11.353579556329962]
本稿では,リアルな合成データを生成しながら,限られたデータ設定下での識別精度の向上を図ったGANゲームを提案する。
これにより、生成したデータが他の類似したタスクに使用できるという利点が加わった。
論文 参考訳(メタデータ) (2021-06-18T06:51:35Z) - Foundations of Bayesian Learning from Synthetic Data [1.6249267147413522]
我々はベイズパラダイムを用いて、合成データから学習する際のモデルパラメータの更新を特徴付ける。
ベイジアン・アップデートの最近の成果は、決定理論に基づく新しい、堅牢な合成学習のアプローチを支持している。
論文 参考訳(メタデータ) (2020-11-16T21:49:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。