論文の概要: GEM-T: Generative Tabular Data via Fitting Moments
- arxiv url: http://arxiv.org/abs/2509.17752v1
- Date: Mon, 22 Sep 2025 13:16:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.403932
- Title: GEM-T: Generative Tabular Data via Fitting Moments
- Title(参考訳): GEM-T:フィッティングモーメントによる生成語彙データ
- Authors: Miao Li, Phuc Nguyen, Christopher Tam, Alexandra Morgan, Kenneth Ge, Rahul Bansal, Linzi Yu, Rima Arnaout, Ramy Arnaout,
- Abstract要約: GEM-Tと呼ばれるMaxEntは、トレーニングデータの列間のn階のインタラクションをキャプチャする。
広範なテストでは、GEM-Tはディープニューラルネットワークアプローチにマッチするか、超える。
GEM-Tは、構造化データのための軽量高性能生成モデルとして有望な方向を示す。
- 参考スコア(独自算出の注目度): 38.5966538993992
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Tabular data dominates data science but poses challenges for generative models, especially when the data is limited or sensitive. We present a novel approach to generating synthetic tabular data based on the principle of maximum entropy -- MaxEnt -- called GEM-T, for ``generative entropy maximization for tables.'' GEM-T directly captures nth-order interactions -- pairwise, third-order, etc. -- among columns of training data. In extensive testing, GEM-T matches or exceeds deep neural network approaches previously regarded as state-of-the-art in 23 of 34 publicly available datasets representing diverse subject domains (68\%). Notably, GEM-T involves orders-of-magnitude fewer trainable parameters, demonstrating that much of the information in real-world data resides in low-dimensional, potentially human-interpretable correlations, provided that the input data is appropriately transformed first. Furthermore, MaxEnt better handles heterogeneous data types (continuous vs. discrete vs. categorical), lack of local structure, and other features of tabular data. GEM-T represents a promising direction for light-weight high-performance generative models for structured data.
- Abstract(参考訳): タブラルデータはデータサイエンスを支配しているが、特にデータに制限や感受性がある場合、生成モデルには課題が生じる。
本稿では,テーブルの「生成エントロピー最大化」のための最大エントロピー-最大エントロピー-最大エントロピー-最大エントロピー-最大エントロピー-の原理に基づいて,合成表データを生成する新しい手法を提案する。
'' GEM-T は n 階の相互作用 -- ペア、サードパーティなど -- を直接キャプチャする。
トレーニングデータの列の中で。
広範なテストでは、GEM-Tは、さまざまな主題ドメイン(68.%)を表す34の公開データセットのうち23の最先端と見なされていたディープニューラルネットワークアプローチと一致または超えている。
特に、GEM-Tはトレーニング可能なパラメータのオーダーを減らし、入力データが最初に適切に変換された場合、実世界のデータの多くの情報が低次元、潜在的に人間の解釈可能な相関にあることを示す。
さらに、MaxEntは異種データ型(連続型対離散型対カテゴリー型)、局所構造の欠如、その他のタブデータの特徴をうまく扱う。
GEM-Tは、構造化データのための軽量高性能生成モデルとして有望な方向を示す。
関連論文リスト
- TabDiff: a Mixed-type Diffusion Model for Tabular Data Generation [91.50296404732902]
グラフデータの混合型分布を1つのモデルでモデル化する共同拡散フレームワークであるTabDiffを紹介する。
我々の重要な革新は、数値データと分類データのための連立連続時間拡散プロセスの開発である。
TabDiffは、既存の競合ベースラインよりも優れた平均性能を実現し、ペアワイドカラム相関推定における最先端モデルよりも最大で22.5%改善されている。
論文 参考訳(メタデータ) (2024-10-27T22:58:47Z) - An improved tabular data generator with VAE-GMM integration [9.4491536689161]
本稿では,現在のアプローチの限界に対処する新しい変分オートエンコーダ(VAE)モデルを提案する。
本手法は,TVAEモデルにインスパイアされたベイジアン・ガウス混合モデル(BGM)をVAEアーキテクチャに組み込む。
我々は,2つの医療関連データセットを含む混合データ型を持つ実世界の3つのデータセットに対して,我々のモデルを徹底的に検証する。
論文 参考訳(メタデータ) (2024-04-12T12:31:06Z) - Minimally Supervised Learning using Topological Projections in
Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。
提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。
提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-01-12T22:51:48Z) - Rethinking Pre-Training in Tabular Data: A Neighborhood Embedding Perspective [71.45945607871715]
メタ表現(TabPTM)を用いたタブラルデータ事前学習を提案する。
中心となる考え方は、データインスタンスを共有機能空間に埋め込むことで、各インスタンスは、近隣の固定数とそのラベルまでの距離で表現される。
101データセットの大規模な実験は、微調整の有無にかかわらず、分類タスクと回帰タスクの両方においてTabPTMの有効性を確認した。
論文 参考訳(メタデータ) (2023-10-31T18:03:54Z) - Generating tabular datasets under differential privacy [0.0]
ディープニューラルネットワークのトレーニングプロセスに差分プライバシー(DP)を導入する。
これにより、結果データの品質とプライバシの間にトレードオフが生じます。
我々は、注意機構を活用する新しいエンドツーエンドモデルを実装している。
論文 参考訳(メタデータ) (2023-08-28T16:35:43Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Language Models are Realistic Tabular Data Generators [15.851912974874116]
本稿では,GReaT (Generation of Realistic Tabular data) を提案する。
提案手法の有効性を,複数角度から得られたデータサンプルの有効性と品質を定量化する一連の実験で実証した。
論文 参考訳(メタデータ) (2022-10-12T15:03:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。