Fugu-MT 論文翻訳(概要): Synthesizing Tabular Data Using Selectivity Enhanced Generative Adversarial Networks

論文の概要: Synthesizing Tabular Data Using Selectivity Enhanced Generative Adversarial Networks

arxiv url: http://arxiv.org/abs/2502.21034v1
Date: Fri, 28 Feb 2025 13:26:41 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-03 16:38:45.910064
Title: Synthesizing Tabular Data Using Selectivity Enhanced Generative Adversarial Networks
Title（参考訳）: 選択性向上した生成逆数ネットワークを用いた語彙データの合成
Authors: Youran Zhou, Jianzhong Qi,
Abstract要約: この論文は、クエリ選択性制約を取り入れた新しいGANベースのアプローチを導入している。トレーニング済みのディープニューラルネットワークを統合して、実データと合成データ間の選択性一貫性を維持する。提案手法は,5つの実世界のデータセットで検証され,最先端の3つのGANとVAEモデルより優れていた。
参考スコア（独自算出の注目度）: 13.15144607691916
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As E-commerce platforms face surging transactions during major shopping events like Black Friday, stress testing with synthesized data is crucial for resource planning. Most recent studies use Generative Adversarial Networks (GANs) to generate tabular data while ensuring privacy and machine learning utility. However, these methods overlook the computational demands of processing GAN-generated data, making them unsuitable for E-commerce stress testing. This thesis introduces a novel GAN-based approach incorporating query selectivity constraints, a key factor in database transaction processing. We integrate a pre-trained deep neural network to maintain selectivity consistency between real and synthetic data. Our method, tested on five real-world datasets, outperforms three state-of-the-art GANs and a VAE model, improving selectivity estimation accuracy by up to 20pct and machine learning utility by up to 6 pct.
Abstract（参考訳）: ブラックフライデー(ブラックフライデー)のような主要なショッピングイベントにおいて、Eコマースプラットフォームが取引の急増に直面しているため、合成データによるストレステストはリソース計画にとって不可欠だ。最近の研究では、GAN(Generative Adversarial Networks)を使用して、プライバシと機械学習のユーティリティを確保しながら、表データを生成する。しかし、これらの手法は、GAN生成データ処理の計算要求を無視し、Eコマースのストレステストには適さない。この論文は、データベーストランザクション処理における重要な要素であるクエリ選択性制約を取り入れた、新しいGANベースのアプローチを導入している。トレーニング済みのディープニューラルネットワークを統合して、実データと合成データ間の選択性一貫性を維持する。提案手法は,5つの実世界のデータセットで検証され,最先端の3つのGANとVAEモデルより優れており,最大20%の選択性推定精度と機械学習ユーティリティを最大6パーセント向上する。

関連論文リスト

Studying the Role of Synthetic Data for Machine Learning-based Wireless Networks Traffic Forecasting [1.1699027359021665]
本稿では,大規模Wi-Fi展開のための一階自動回帰雑音統計量に基づく合成データ生成手法を提案する。実験結果から, 実データを用いて得られた10～15項目のうち, 平均絶対誤差(MAE)値が得られた。一般化が必要な場合、合成データ学習モデルは、実データ学習ベースラインと比較して、予測精度を最大50%向上させる。
論文参考訳（メタデータ） (2026-01-12T15:27:55Z)
Procedural Environment Generation for Tool-Use Agents [55.417058694785325]
我々はRandomWorldを紹介した。これは対話型ツールと合成ツール利用データの手続き的生成のためのパイプラインである。我々は,SFTとRLによるRandomWorldの合成データによるモデル調整により,様々なツール使用ベンチマークが改良されたことを示す。
論文参考訳（メタデータ） (2025-05-21T14:10:06Z)
Generative adversarial networks vs large language models: a comparative study on synthetic tabular data generation [0.7373617024876725]
本研究では,タスク固有の微調整や,事前学習のための実世界のデータへのアクセスを必要とせずに,高品質な表形式データを生成する能力を示す。 GPT-4oをベンチマークするために、LLM生成合成データの忠実度とプライバシを条件付き生成対向ネットワーク(CTGAN)で生成されたデータと比較した。ゼロショットアプローチにもかかわらず、GPT-4oは保存手段においてCTGANよりも優れ、95%の信頼区間、二変量相関、RWDのデータプライバシが増幅されたサンプルサイズでも優れていた。
論文参考訳（メタデータ） (2025-02-20T12:56:16Z)
Data-Juicer 2.0: Cloud-Scale Adaptive Data Processing for and with Foundation Models [64.28420991770382]
Data-Juicer 2.0は、テキスト、画像、ビデオ、オーディオのモダリティにまたがるデータ処理オペレーターがバックアップするデータ処理システムである。データ分析、アノテーション、基礎モデルポストトレーニングなど、より重要なタスクをサポートする。さまざまな研究分野やAlibaba Cloud PAIのような現実世界の製品で広く採用されている。
論文参考訳（メタデータ） (2024-12-23T08:29:57Z)
Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文参考訳（メタデータ） (2024-10-29T04:14:32Z)
Compute-Constrained Data Selection [77.06528009072967]
多くの強力なデータ選択手法は、ほとんど計算に最適ではないことが分かりました。計算最適トレーニングでは、パープレキシティと勾配データ選択は、それぞれ5xと10xのトレーニング-選択モデルサイズ比を必要とする。
論文参考訳（メタデータ） (2024-10-21T17:11:21Z)
TAEGAN: Generating Synthetic Tabular Data For Data Augmentation [13.612237747184363]
Tabular Auto-Encoder Generative Adversarial Network (TAEGAN)は、高品質な表データを生成するための改良されたGANベースのフレームワークである。 TAEGANは、マスク付きオートエンコーダをジェネレータとして採用し、自己監督型事前学習のパワーを初めて導入した。
論文参考訳（メタデータ） (2024-10-02T18:33:06Z)
EPIC: Effective Prompting for Imbalanced-Class Data Synthesis in Tabular Data Classification via Large Language Models [39.347666307218006]
大規模言語モデル (LLM) は、多様なアプリケーションにまたがるテキスト内学習能力を示す。バランスの取れたデータサンプルと一貫したフォーマットと独自の変数マッピングを併用した新しい手法であるEPICを導入し、不均衡なデータセットであっても、全てのクラスで正確な合成データを生成するのにLLMをガイドする。
論文参考訳（メタデータ） (2024-04-15T17:49:16Z)
FLIGAN: Enhancing Federated Learning with Incomplete Data using GAN [1.5749416770494706]
Federated Learning (FL)は、ネットワークデバイス上での機械学習モデルの分散トレーニングのためのプライバシ保護メカニズムを提供する。本稿では,FLにおけるデータ不完全性問題に対処する新しいアプローチであるFLIGANを提案する。本手法はFLのプライバシ要件に則り,プロセス内の実際のデータを共有せずに合成データをフェデレートした方法で生成する。
論文参考訳（メタデータ） (2024-03-25T16:49:38Z)
DACO: Towards Application-Driven and Comprehensive Data Analysis via Code Generation [83.30006900263744]
データ分析は、詳細な研究と決定的な洞察を生み出すための重要な分析プロセスである。 LLMのコード生成機能を活用した高品質な応答アノテーションの自動生成を提案する。我々のDACO-RLアルゴリズムは、57.72%のケースにおいて、SFTモデルよりも有用な回答を生成するために、人間のアノテータによって評価される。
論文参考訳（メタデータ） (2024-03-04T22:47:58Z)
LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。 LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文参考訳（メタデータ） (2024-02-06T19:18:04Z)
Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文参考訳（メタデータ） (2023-10-25T20:32:02Z)
Generating tabular datasets under differential privacy [0.0]
ディープニューラルネットワークのトレーニングプロセスに差分プライバシー(DP)を導入する。これにより、結果データの品質とプライバシの間にトレードオフが生じます。我々は、注意機構を活用する新しいエンドツーエンドモデルを実装している。
論文参考訳（メタデータ） (2023-08-28T16:35:43Z)
Online Data Selection for Federated Learning with Limited Storage [53.46789303416799]
ネットワークデバイス間での分散機械学習を実現するために、フェデレートラーニング(FL)が提案されている。デバイス上のストレージがFLの性能に与える影響はまだ調査されていない。本研究では,デバイス上のストレージを限定したFLのオンラインデータ選択について検討する。
論文参考訳（メタデータ） (2022-09-01T03:27:33Z)
Balancing Performance and Energy Consumption of Bagging Ensembles for the Classification of Data Streams in Edge Computing [9.801387036837871]
エッジコンピューティング(EC)は、IoT(Internet of Things)や5Gネットワークといったテクノロジを開発する上で可能な要素として登場した。本研究は,データストリームの分類において,バッグアンサンブルの性能とエネルギー消費を最適化するための戦略を検討する。
論文参考訳（メタデータ） (2022-01-17T04:12:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。