論文の概要: Convex space learning for tabular synthetic data generation
- arxiv url: http://arxiv.org/abs/2407.09789v1
- Date: Sat, 13 Jul 2024 07:07:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 20:47:21.523558
- Title: Convex space learning for tabular synthetic data generation
- Title(参考訳): グラフ合成データ生成のための凸空間学習
- Authors: Manjunath Mahendra, Chaithra Umesh, Saptarshi Bej, Kristian Schultz, Olaf Wolkenhauer,
- Abstract要約: 本稿では,合成サンプルを生成可能なジェネレータと識別器コンポーネントを備えたディープラーニングアーキテクチャを提案する。
NextConvGeNが生成した合成サンプルは、実データと合成データの分類とクラスタリング性能をよりよく保存することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Generating synthetic samples from the convex space of the minority class is a popular oversampling approach for imbalanced classification problems. Recently, deep-learning approaches have been successfully applied to modeling the convex space of minority samples. Beyond oversampling, learning the convex space of neighborhoods in training data has not been used to generate entire tabular datasets. In this paper, we introduce a deep learning architecture (NextConvGeN) with a generator and discriminator component that can generate synthetic samples by learning to model the convex space of tabular data. The generator takes data neighborhoods as input and creates synthetic samples within the convex space of that neighborhood. Thereafter, the discriminator tries to classify these synthetic samples against a randomly sampled batch of data from the rest of the data space. We compared our proposed model with five state-of-the-art tabular generative models across ten publicly available datasets from the biomedical domain. Our analysis reveals that synthetic samples generated by NextConvGeN can better preserve classification and clustering performance across real and synthetic data than other synthetic data generation models. Synthetic data generation by deep learning of the convex space produces high scores for popular utility measures. We further compared how diverse synthetic data generation strategies perform in the privacy-utility spectrum and produced critical arguments on the necessity of high utility models. Our research on deep learning of the convex space of tabular data opens up opportunities in clinical research, machine learning model development, decision support systems, and clinical data sharing.
- Abstract(参考訳): 少数クラスの凸空間から合成サンプルを生成することは、不均衡な分類問題に対する一般的なオーバーサンプリング手法である。
近年,少数サンプルの凸空間をモデル化するためのディープラーニングアプローチが成功している。
オーバーサンプリング以外にも、トレーニングデータにおける近所の凸空間の学習は、表のデータセット全体を生成するために使われていない。
本稿では,グラフデータの凸空間をモデル化して合成サンプルを生成可能な生成器と識別器コンポーネントを備えたディープラーニングアーキテクチャ(NextConvGeN)を提案する。
ジェネレータは、データ近傍を入力として、その近傍の凸空間内で合成サンプルを生成する。
その後、判別器は、これらの合成サンプルを、データ空間の他の部分からランダムにサンプリングされたデータのバッチに対して分類しようとする。
提案したモデルを,バイオメディカルドメインから利用可能な10のデータセットに対して,最先端の5つのグラフ生成モデルと比較した。
分析の結果,NextConvGeNが生成した合成サンプルは,他の合成データ生成モデルよりも,実データおよび合成データ間での分類とクラスタリング性能を良好に維持できることがわかった。
凸空間の深層学習による合成データ生成は、一般的な効用尺度に高いスコアを与える。
さらに、プライバシ・ユーティリティ・スペクトラムにおいて、多様な合成データ生成戦略がどのように機能するかを比較し、高ユーティリティ・モデルの必要性について批判的な議論を巻き起こした。
表状データの凸空間の深層学習に関する研究は,臨床研究,機械学習モデル開発,意思決定支援システム,臨床データ共有の機会を開く。
関連論文リスト
- Expansive Synthesis: Generating Large-Scale Datasets from Minimal Samples [13.053285552524052]
本稿では,最小限のサンプルから高忠実度データセットを生成する革新的な拡張合成モデルを提案する。
生成したデータセットの分類器をトレーニングし,より大規模でオリジナルなデータセットでトレーニングされたパフォーマンストリバーサを比較して,拡張的合成を検証する。
論文 参考訳(メタデータ) (2024-06-25T02:59:02Z) - Synthetic Information towards Maximum Posterior Ratio for deep learning
on Imbalanced Data [1.7495515703051119]
マイノリティクラスのための合成データを生成することによって,データのバランスをとる手法を提案する。
提案手法は,高エントロピーサンプルを同定することにより,情報領域のバランスを優先する。
実験結果から,提案手法の優れた性能を実証した。
論文 参考訳(メタデータ) (2024-01-05T01:08:26Z) - Trading Off Scalability, Privacy, and Performance in Data Synthesis [11.698554876505446]
a) Howsoエンジンを導入し、(b)ランダムプロジェクションに基づく合成データ生成フレームワークを提案する。
Howsoエンジンが生成する合成データは、プライバシーと正確性に優れており、その結果、総合的なスコアが最高の結果となる。
提案するランダム・プロジェクション・ベース・フレームワークは,高い精度で合成データを生成することができ,スケーラビリティが最速である。
論文 参考訳(メタデータ) (2023-12-09T02:04:25Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large
Language Models by Extrapolating Errors from Small Models [69.76066070227452]
※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。
本稿では,この分散ギャップを縮めるデータ合成フレームワークであるStep* (**S3**) による合成ステップを提案する。
提案手法は,合成データセットと実データとのギャップを小さくすることで,小型モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-10-20T17:14:25Z) - TSGM: A Flexible Framework for Generative Modeling of Synthetic Time Series [61.436361263605114]
時系列データは、研究者と産業組織間のデータの共有を妨げるため、しばしば不足または非常に敏感である。
本稿では,合成時系列の生成モデリングのためのオープンソースフレームワークである時系列生成モデリング(TSGM)を紹介する。
論文 参考訳(メタデータ) (2023-05-19T10:11:21Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Convex space learning improves deep-generative oversampling for tabular
imbalanced classification on smaller datasets [0.0]
既存の深部生成モデルは,少数クラスの凸空間から合成サンプルを生成する線形アプローチと比較して性能が低いことを示す。
本研究では,凸空間学習と深部生成モデルを組み合わせた深部生成モデルConvGeNを提案する。
論文 参考訳(メタデータ) (2022-06-20T14:42:06Z) - Delving into High-Quality Synthetic Face Occlusion Segmentation Datasets [83.749895930242]
そこで本研究では,高品質な自然主義的合成隠蔽顔を製造するための2つの手法を提案する。
両手法の有効性とロバスト性を実証的に示す。
我々は,RealOccとRealOcc-Wildという,微細なアノテーションを付加した高精細な実世界の顔データセットを2つ提示する。
論文 参考訳(メタデータ) (2022-05-12T17:03:57Z) - Foundations of Bayesian Learning from Synthetic Data [1.6249267147413522]
我々はベイズパラダイムを用いて、合成データから学習する際のモデルパラメータの更新を特徴付ける。
ベイジアン・アップデートの最近の成果は、決定理論に基づく新しい、堅牢な合成学習のアプローチを支持している。
論文 参考訳(メタデータ) (2020-11-16T21:49:17Z) - Partially Conditioned Generative Adversarial Networks [75.08725392017698]
Generative Adversarial Networks (GAN)は、実世界のトレーニングデータセットの基盤となる確率分布を暗黙的にモデル化することで、人工データセットを合成する。
条件付きGANとその変種の導入により、これらの手法はデータセット内の各サンプルで利用可能な補助情報に基づいて条件付きサンプルを生成するように拡張された。
本研究では,標準条件付きGANがそのようなタスクに適さないことを論じ,新たなAdversarial Networkアーキテクチャとトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2020-07-06T15:59:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。