論文の概要: MMM and MMMSynth: Clustering of heterogeneous tabular data, and
synthetic data generation
- arxiv url: http://arxiv.org/abs/2310.19454v1
- Date: Mon, 30 Oct 2023 11:26:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 20:34:07.568555
- Title: MMM and MMMSynth: Clustering of heterogeneous tabular data, and
synthetic data generation
- Title(参考訳): mmmとmmmsynth: 不均質な表データのクラスタリングと合成データ生成
- Authors: Chandrani Kumari and Rahul Siddharthan
- Abstract要約: 我々は、クラスタリングと合成データ生成という異種データセットに関連する2つのタスクに対して、新しいアルゴリズムを提供する。
合成異種データのクラスタ決定において,新しいEMベースのクラスタリングアルゴリズムであるMMMが,標準的なアルゴリズムより優れていることを示す。
また、入力データを事前クラスタリングし、クラスタワイズ合成データを生成する合成データ生成アルゴリズムであるMMMsynthを実証する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We provide new algorithms for two tasks relating to heterogeneous tabular
datasets: clustering, and synthetic data generation. Tabular datasets typically
consist of heterogeneous data types (numerical, ordinal, categorical) in
columns, but may also have hidden cluster structure in their rows: for example,
they may be drawn from heterogeneous (geographical, socioeconomic,
methodological) sources, such that the outcome variable they describe (such as
the presence of a disease) may depend not only on the other variables but on
the cluster context. Moreover, sharing of biomedical data is often hindered by
patient confidentiality laws, and there is current interest in algorithms to
generate synthetic tabular data from real data, for example via deep learning.
We demonstrate a novel EM-based clustering algorithm, MMM (``Madras Mixture
Model''), that outperforms standard algorithms in determining clusters in
synthetic heterogeneous data, and recovers structure in real data. Based on
this, we demonstrate a synthetic tabular data generation algorithm, MMMsynth,
that pre-clusters the input data, and generates cluster-wise synthetic data
assuming cluster-specific data distributions for the input columns. We
benchmark this algorithm by testing the performance of standard ML algorithms
when they are trained on synthetic data and tested on real published datasets.
Our synthetic data generation algorithm outperforms other literature
tabular-data generators, and approaches the performance of training purely with
real data.
- Abstract(参考訳): 我々は、クラスタリングと合成データ生成という異種グラフデータセットに関連する2つのタスクに対して、新しいアルゴリズムを提供する。
タブラルデータセットは典型的には列内の異種データ型(数値、順序、カテゴリー)から構成されるが、行内に隠されたクラスタ構造を持つ場合もある。例えば、それらは異種(地理、社会経済、方法論)のソースから引き出され、それらが記述する結果変数(病気の存在など)は他の変数だけでなく、クラスタコンテキストにも依存する。
さらに、生体医学データの共有は、しばしば患者の機密性法によって妨げられ、例えば、ディープラーニングによって、実際のデータから合成表データを生成するアルゴリズムへの関心がある。
本研究では,合成不均質データにおけるクラスタの決定に標準アルゴリズムを上回り,実データの構造を復元する,新しいem型クラスタリングアルゴリズムmmm(`madras mixed model'')を提案する。
そこで本研究では,MMMsynthという合成表データ生成アルゴリズムを用いて,入力データに対してクラスタ固有のデータ分布を仮定したクラスタワイズ合成データを生成する。
このアルゴリズムは、合成データでトレーニングされ、実際に公開されたデータセットでテストされた場合、標準mlアルゴリズムのパフォーマンスをテストすることによってベンチマークを行う。
我々の合成データ生成アルゴリズムは、他の文献表データ生成装置よりも優れており、実データで純粋にトレーニングのパフォーマンスにアプローチする。
関連論文リスト
- Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - HBIC: A Biclustering Algorithm for Heterogeneous Datasets [0.0]
Biclusteringは、データマトリックス内で行と列を同時にクラスタすることを目的とした、教師なしの機械学習アプローチである。
複素異種データから有意義なビクラスタを発見することが可能な,HBICと呼ばれるビクラスタリング手法を提案する。
論文 参考訳(メタデータ) (2024-08-23T16:48:10Z) - Convex space learning for tabular synthetic data generation [0.0]
本稿では,合成サンプルを生成可能なジェネレータと識別器コンポーネントを備えたディープラーニングアーキテクチャを提案する。
NextConvGeNが生成した合成サンプルは、実データと合成データの分類とクラスタリング性能をよりよく保存することができる。
論文 参考訳(メタデータ) (2024-07-13T07:07:35Z) - TSGM: A Flexible Framework for Generative Modeling of Synthetic Time Series [61.436361263605114]
時系列データは、研究者と産業組織間のデータの共有を妨げるため、しばしば不足または非常に敏感である。
本稿では,合成時系列の生成モデリングのためのオープンソースフレームワークである時系列生成モデリング(TSGM)を紹介する。
論文 参考訳(メタデータ) (2023-05-19T10:11:21Z) - Generating Multidimensional Clusters With Support Lines [0.0]
合成データ生成のためのモジュラープロシージャであるClugenを提案する。
Clukenはオープンソースで、包括的なユニットテストとドキュメント化が可能である。
クラスタリングアルゴリズムの評価にはClugenが適していることを示す。
論文 参考訳(メタデータ) (2023-01-24T22:08:24Z) - Generating Realistic Synthetic Relational Data through Graph Variational
Autoencoders [47.89542334125886]
変動型オートエンコーダフレームワークとグラフニューラルネットワークを組み合わせることで,リアルな合成関係データベースを生成する。
結果は、実際のデータベースの構造が結果の合成データセットに正確に保存されていることを示している。
論文 参考訳(メタデータ) (2022-11-30T10:40:44Z) - Detection and Evaluation of Clusters within Sequential Data [58.720142291102135]
Block Markov Chainsのクラスタリングアルゴリズムは理論的最適性を保証する。
特に、私たちのシーケンシャルデータは、ヒトのDNA、テキスト、動物運動データ、金融市場から派生しています。
ブロックマルコフ連鎖モデルの仮定は、実際に探索データ解析において有意義な洞察を得られることが判明した。
論文 参考訳(メタデータ) (2022-10-04T15:22:39Z) - RandomSCM: interpretable ensembles of sparse classifiers tailored for
omics data [59.4141628321618]
決定規則の結合や解離に基づくアンサンブル学習アルゴリズムを提案する。
モデルの解釈可能性により、高次元データのバイオマーカー発見やパターン発見に有用である。
論文 参考訳(メタデータ) (2022-08-11T13:55:04Z) - Generation and Simulation of Synthetic Datasets with Copulas [0.0]
本稿では,数値変数あるいは分類変数からなる合成データセットを生成するための完全かつ信頼性の高いアルゴリズムを提案する。
我々の方法論を2つのデータセットに適用すると、SMOTEやオートエンコーダといった他の手法よりも優れたパフォーマンスが得られる。
論文 参考訳(メタデータ) (2022-03-30T13:22:44Z) - Multimodal Data Fusion in High-Dimensional Heterogeneous Datasets via
Generative Models [16.436293069942312]
我々は、教師なしの方法で高次元異種データから確率的生成モデルを学習することに興味がある。
本稿では,指数関数的な分布系を通じて異なるデータ型を結合する一般的なフレームワークを提案する。
提案アルゴリズムは、実数値(ガウス)とカテゴリー(マルチノミカル)の特徴を持つ、よく遭遇する異種データセットについて詳細に述べる。
論文 参考訳(メタデータ) (2021-08-27T18:10:31Z) - New advances in enumerative biclustering algorithms with online
partitioning [80.22629846165306]
さらに、数値データセットの列に定数値を持つ最大二クラスタの効率的で完全で正しい非冗長列挙を実現できる二クラスタリングアルゴリズムであるRIn-Close_CVCを拡張した。
改良されたアルゴリズムはRIn-Close_CVC3と呼ばれ、RIn-Close_CVCの魅力的な特性を保ちます。
論文 参考訳(メタデータ) (2020-03-07T14:54:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。