論文の概要: Generating Tabular Data Using Heterogeneous Sequential Feature Forest Flow Matching
- arxiv url: http://arxiv.org/abs/2410.15516v1
- Date: Sun, 20 Oct 2024 21:55:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:17:31.413689
- Title: Generating Tabular Data Using Heterogeneous Sequential Feature Forest Flow Matching
- Title(参考訳): 不均質な特徴的森林フローマッチングを用いた語彙データの生成
- Authors: Ange-Clément Akazan, Alexia Jolicoeur-Martineau, Ioannis Mitliagkas,
- Abstract要約: フォレストフロー (FF) 法の限界を克服するために, 不均質なシークエンシャル・フィーチャー・フォレストフロー (HS3F) を開発した。
HS3Fはシーケンシャルに(機能ごとに)データを生成し、ノイズのある初期条件への依存を減らす。
25のデータセットによる実験では、HS3FはFFよりも高品質で多様な合成データを生成する。
- 参考スコア(独自算出の注目度): 15.076510915837892
- License:
- Abstract: Privacy and regulatory constraints make data generation vital to advancing machine learning without relying on real-world datasets. A leading approach for tabular data generation is the Forest Flow (FF) method, which combines Flow Matching with XGBoost. Despite its good performance, FF is slow and makes errors when treating categorical variables as one-hot continuous features. It is also highly sensitive to small changes in the initial conditions of the ordinary differential equation (ODE). To overcome these limitations, we develop Heterogeneous Sequential Feature Forest Flow (HS3F). Our method generates data sequentially (feature-by-feature), reducing the dependency on noisy initial conditions through the additional information from previously generated features. Furthermore, it generates categorical variables using multinomial sampling (from an XGBoost classifier) instead of flow matching, improving generation speed. We also use a Runge-Kutta 4th order (Rg4) ODE solver for improved performance over the Euler solver used in FF. Our experiments with 25 datasets reveal that HS3F produces higher quality and more diverse synthetic data than FF, especially for categorical variables. It also generates data 21-27 times faster for datasets with $\geq20%$ categorical variables. HS3F further demonstrates enhanced robustness to affine transformation in flow ODE initial conditions compared to FF. This study not only validates the HS3F but also unveils promising new strategies to advance generative models.
- Abstract(参考訳): プライバシと規制の制約は、現実のデータセットに頼ることなく、データ生成を機械学習の進歩に不可欠にする。
表型データ生成における主要なアプローチは、フローマッチングとXGBoostを組み合わせたフォレストフロー(FF)法である。
優れた性能にもかかわらず、FFは遅く、カテゴリー変数を1ホット連続的な特徴として扱う際にエラーを起こす。
また、通常の微分方程式(ODE)の初期条件の小さな変化に非常に敏感である。
これらの制約を克服するため,不均質なシークエンシャル・フィーチャー・フォレスト・フロー(HS3F)を開発した。
提案手法は, 先行する特徴量から付加情報を用いて, ノイズのある初期条件への依存を減らし, 連続的に(機能ごとに)データを生成する。
さらに、フローマッチングの代わりに(XGBoost分類器から)多項サンプリングを用いてカテゴリ変数を生成し、生成速度を向上する。
また, FFにおけるEulerソルバの性能向上のために, Runge-Kutta 4位(Rg4)ODEソルバを用いた。
25個のデータセットを用いた実験により,HS3FはFFよりも高品質で多様な合成データを生成することが明らかとなった。
また、$\geq20%$カテゴリ変数を持つデータセットでは、21~27倍高速なデータを生成する。
HS3Fはさらに、フローODE初期条件におけるアフィン変換に対する強化された堅牢性を示す。
本研究は, HS3Fの検証だけでなく, 生成モデルを推し進めるための新たな戦略も発表する。
関連論文リスト
- FlowTS: Time Series Generation via Rectified Flow [67.41208519939626]
FlowTSは、確率空間における直線輸送を伴う整流フローを利用するODEベースのモデルである。
非条件設定では、FlowTSは最先端のパフォーマンスを達成し、コンテキストFIDスコアはStockとETThデータセットで0.019と0.011である。
条件設定では、太陽予測において優れた性能を達成している。
論文 参考訳(メタデータ) (2024-11-12T03:03:23Z) - Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - TabDiff: a Mixed-type Diffusion Model for Tabular Data Generation [91.50296404732902]
グラフデータの混合型分布を1つのモデルでモデル化する共同拡散フレームワークであるTabDiffを紹介する。
我々の重要な革新は、数値データと分類データのための連立連続時間拡散プロセスの開発である。
TabDiffは、既存の競合ベースラインよりも優れた平均性能を実現し、ペアワイドカラム相関推定における最先端モデルよりも最大で22.5%改善されている。
論文 参考訳(メタデータ) (2024-10-27T22:58:47Z) - Accelerating Heterogeneous Federated Learning with Closed-form Classifiers [23.133964735844007]
フェデレートラーニング(FL)手法は、しばしば非常に統計的に異質な設定で苦労する。
Fed3R(Federated Recursive Ridge Regression)を紹介する。
Fed3Rは統計的不均一性に免疫を持ち、クライアントのサンプリング順序に不変である。
論文 参考訳(メタデータ) (2024-06-03T08:52:06Z) - Streaming Factor Trajectory Learning for Temporal Tensor Decomposition [33.18423605559094]
時相テンソル分解のためのストリーム係数軌道学習を提案する。
我々はガウス過程(GP)を用いて因子の軌道をモデル化し、その時間的進化を柔軟に推定する。
合成タスクと実世界のアプリケーションの両方において、SFTLの利点を示してきた。
論文 参考訳(メタデータ) (2023-10-25T21:58:52Z) - GFlowCausal: Generative Flow Networks for Causal Discovery [27.51595081346858]
本稿では,GFlowCausalと呼ばれる観測データからDAG(Directed Acyclic Graph)を学習するための新しい手法を提案する。
GFlowCausalは、事前定義された報酬に比例した確率を持つシーケンシャルアクションによって、ハイリワードDAGを生成するための最良のポリシーを学ぶことを目的としている。
合成データセットと実データセットの両方について広範な実験を行い、提案手法が優れていることを示すとともに、大規模環境での良好な性能を示す。
論文 参考訳(メタデータ) (2022-10-15T04:07:39Z) - Hyperparameter-free Continuous Learning for Domain Classification in
Natural Language Understanding [60.226644697970116]
ドメイン分類は自然言語理解(NLU)の基本課題である
既存の継続的な学習アプローチの多くは、低い精度とパフォーマンスの変動に悩まされている。
本研究では,テキストデータに対するパラメータフリー連続学習モデルを提案する。
論文 参考訳(メタデータ) (2022-01-05T02:46:16Z) - Highly Parallel Autoregressive Entity Linking with Discriminative
Correction [51.947280241185]
自己回帰リンクを全ての潜在的な言及に対して並列化する,非常に効率的な手法を提案する。
我々のモデルは以前の生成法より70倍高速で精度が高い。
論文 参考訳(メタデータ) (2021-09-08T17:28:26Z) - Mitigating Generation Shifts for Generalized Zero-Shot Learning [52.98182124310114]
一般化ゼロショット学習(英: Generalized Zero-Shot Learning、GZSL)は、学習中に見知らぬクラスが観察できない、見つからないサンプルを認識するために意味情報(属性など)を活用するタスクである。
本稿では,未知のデータ合成を効率よく,効率的に学習するための新しい生成シフト緩和フローフレームワークを提案する。
実験結果から,GSMFlowは従来のゼロショット設定と一般化されたゼロショット設定の両方において,最先端の認識性能を実現することが示された。
論文 参考訳(メタデータ) (2021-07-07T11:43:59Z) - OCT-GAN: Neural ODE-based Conditional Tabular GANs [8.062118111791495]
ニューラル常微分方程式(NODE)に基づくジェネレータと判別器を導入する。
我々は、保険詐欺の検出やオンラインニュース記事の予測などを含む13のデータセットを用いて実験を行う。
論文 参考訳(メタデータ) (2021-05-31T13:58:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。