論文の概要: Synthesizing Tabular Data Using Selectivity Enhanced Generative Adversarial Networks
- arxiv url: http://arxiv.org/abs/2502.21034v1
- Date: Fri, 28 Feb 2025 13:26:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-03 13:43:24.294086
- Title: Synthesizing Tabular Data Using Selectivity Enhanced Generative Adversarial Networks
- Title(参考訳): 選択性向上した生成逆数ネットワークを用いた語彙データの合成
- Authors: Youran Zhou, Jianzhong Qi,
- Abstract要約: この論文は、クエリ選択性制約を取り入れた新しいGANベースのアプローチを導入している。
トレーニング済みのディープニューラルネットワークを統合して、実データと合成データ間の選択性一貫性を維持する。
提案手法は,5つの実世界のデータセットで検証され,最先端の3つのGANとVAEモデルより優れていた。
- 参考スコア(独自算出の注目度): 13.15144607691916
- License:
- Abstract: As E-commerce platforms face surging transactions during major shopping events like Black Friday, stress testing with synthesized data is crucial for resource planning. Most recent studies use Generative Adversarial Networks (GANs) to generate tabular data while ensuring privacy and machine learning utility. However, these methods overlook the computational demands of processing GAN-generated data, making them unsuitable for E-commerce stress testing. This thesis introduces a novel GAN-based approach incorporating query selectivity constraints, a key factor in database transaction processing. We integrate a pre-trained deep neural network to maintain selectivity consistency between real and synthetic data. Our method, tested on five real-world datasets, outperforms three state-of-the-art GANs and a VAE model, improving selectivity estimation accuracy by up to 20pct and machine learning utility by up to 6 pct.
- Abstract(参考訳): ブラックフライデー(ブラックフライデー)のような主要なショッピングイベントにおいて、Eコマースプラットフォームが取引の急増に直面しているため、合成データによるストレステストはリソース計画にとって不可欠だ。
最近の研究では、GAN(Generative Adversarial Networks)を使用して、プライバシと機械学習のユーティリティを確保しながら、表データを生成する。
しかし、これらの手法は、GAN生成データ処理の計算要求を無視し、Eコマースのストレステストには適さない。
この論文は、データベーストランザクション処理における重要な要素であるクエリ選択性制約を取り入れた、新しいGANベースのアプローチを導入している。
トレーニング済みのディープニューラルネットワークを統合して、実データと合成データ間の選択性一貫性を維持する。
提案手法は,5つの実世界のデータセットで検証され,最先端の3つのGANとVAEモデルより優れており,最大20%の選択性推定精度と機械学習ユーティリティを最大6パーセント向上する。
関連論文リスト
- Generative adversarial networks vs large language models: a comparative study on synthetic tabular data generation [0.7373617024876725]
本研究では,タスク固有の微調整や,事前学習のための実世界のデータへのアクセスを必要とせずに,高品質な表形式データを生成する能力を示す。
GPT-4oをベンチマークするために、LLM生成合成データの忠実度とプライバシを条件付き生成対向ネットワーク(CTGAN)で生成されたデータと比較した。
ゼロショットアプローチにもかかわらず、GPT-4oは保存手段においてCTGANよりも優れ、95%の信頼区間、二変量相関、RWDのデータプライバシが増幅されたサンプルサイズでも優れていた。
論文 参考訳(メタデータ) (2025-02-20T12:56:16Z) - Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - Compute-Constrained Data Selection [77.06528009072967]
多くの強力なデータ選択手法は、ほとんど計算に最適ではないことが分かりました。
計算最適トレーニングでは、パープレキシティと勾配データ選択は、それぞれ5xと10xのトレーニング-選択モデルサイズ比を必要とする。
論文 参考訳(メタデータ) (2024-10-21T17:11:21Z) - TAEGAN: Generating Synthetic Tabular Data For Data Augmentation [13.612237747184363]
Tabular Auto-Encoder Generative Adversarial Network (TAEGAN)は、高品質な表データを生成するための改良されたGANベースのフレームワークである。
TAEGANは、マスク付きオートエンコーダをジェネレータとして採用し、自己監督型事前学習のパワーを初めて導入した。
論文 参考訳(メタデータ) (2024-10-02T18:33:06Z) - FLIGAN: Enhancing Federated Learning with Incomplete Data using GAN [1.5749416770494706]
Federated Learning (FL)は、ネットワークデバイス上での機械学習モデルの分散トレーニングのためのプライバシ保護メカニズムを提供する。
本稿では,FLにおけるデータ不完全性問題に対処する新しいアプローチであるFLIGANを提案する。
本手法はFLのプライバシ要件に則り,プロセス内の実際のデータを共有せずに合成データをフェデレートした方法で生成する。
論文 参考訳(メタデータ) (2024-03-25T16:49:38Z) - DACO: Towards Application-Driven and Comprehensive Data Analysis via Code Generation [83.30006900263744]
データ分析は、詳細な研究と決定的な洞察を生み出すための重要な分析プロセスである。
LLMのコード生成機能を活用した高品質な応答アノテーションの自動生成を提案する。
我々のDACO-RLアルゴリズムは、57.72%のケースにおいて、SFTモデルよりも有用な回答を生成するために、人間のアノテータによって評価される。
論文 参考訳(メタデータ) (2024-03-04T22:47:58Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Generating tabular datasets under differential privacy [0.0]
ディープニューラルネットワークのトレーニングプロセスに差分プライバシー(DP)を導入する。
これにより、結果データの品質とプライバシの間にトレードオフが生じます。
我々は、注意機構を活用する新しいエンドツーエンドモデルを実装している。
論文 参考訳(メタデータ) (2023-08-28T16:35:43Z) - Online Data Selection for Federated Learning with Limited Storage [53.46789303416799]
ネットワークデバイス間での分散機械学習を実現するために、フェデレートラーニング(FL)が提案されている。
デバイス上のストレージがFLの性能に与える影響はまだ調査されていない。
本研究では,デバイス上のストレージを限定したFLのオンラインデータ選択について検討する。
論文 参考訳(メタデータ) (2022-09-01T03:27:33Z) - Balancing Performance and Energy Consumption of Bagging Ensembles for
the Classification of Data Streams in Edge Computing [9.801387036837871]
エッジコンピューティング(EC)は、IoT(Internet of Things)や5Gネットワークといったテクノロジを開発する上で可能な要素として登場した。
本研究は,データストリームの分類において,バッグアンサンブルの性能とエネルギー消費を最適化するための戦略を検討する。
論文 参考訳(メタデータ) (2022-01-17T04:12:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。