論文の概要: Generating Tabular Data Using Heterogeneous Sequential Feature Forest Flow Matching
- arxiv url: http://arxiv.org/abs/2410.15516v1
- Date: Sun, 20 Oct 2024 21:55:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:17:31.413689
- Title: Generating Tabular Data Using Heterogeneous Sequential Feature Forest Flow Matching
- Title(参考訳): 不均質な特徴的森林フローマッチングを用いた語彙データの生成
- Authors: Ange-Clément Akazan, Alexia Jolicoeur-Martineau, Ioannis Mitliagkas,
- Abstract要約: フォレストフロー (FF) 法の限界を克服するために, 不均質なシークエンシャル・フィーチャー・フォレストフロー (HS3F) を開発した。
HS3Fはシーケンシャルに(機能ごとに)データを生成し、ノイズのある初期条件への依存を減らす。
25のデータセットによる実験では、HS3FはFFよりも高品質で多様な合成データを生成する。
- 参考スコア(独自算出の注目度): 15.076510915837892
- License:
- Abstract: Privacy and regulatory constraints make data generation vital to advancing machine learning without relying on real-world datasets. A leading approach for tabular data generation is the Forest Flow (FF) method, which combines Flow Matching with XGBoost. Despite its good performance, FF is slow and makes errors when treating categorical variables as one-hot continuous features. It is also highly sensitive to small changes in the initial conditions of the ordinary differential equation (ODE). To overcome these limitations, we develop Heterogeneous Sequential Feature Forest Flow (HS3F). Our method generates data sequentially (feature-by-feature), reducing the dependency on noisy initial conditions through the additional information from previously generated features. Furthermore, it generates categorical variables using multinomial sampling (from an XGBoost classifier) instead of flow matching, improving generation speed. We also use a Runge-Kutta 4th order (Rg4) ODE solver for improved performance over the Euler solver used in FF. Our experiments with 25 datasets reveal that HS3F produces higher quality and more diverse synthetic data than FF, especially for categorical variables. It also generates data 21-27 times faster for datasets with $\geq20%$ categorical variables. HS3F further demonstrates enhanced robustness to affine transformation in flow ODE initial conditions compared to FF. This study not only validates the HS3F but also unveils promising new strategies to advance generative models.
- Abstract(参考訳): プライバシと規制の制約は、現実のデータセットに頼ることなく、データ生成を機械学習の進歩に不可欠にする。
表型データ生成における主要なアプローチは、フローマッチングとXGBoostを組み合わせたフォレストフロー(FF)法である。
優れた性能にもかかわらず、FFは遅く、カテゴリー変数を1ホット連続的な特徴として扱う際にエラーを起こす。
また、通常の微分方程式(ODE)の初期条件の小さな変化に非常に敏感である。
これらの制約を克服するため,不均質なシークエンシャル・フィーチャー・フォレスト・フロー(HS3F)を開発した。
提案手法は, 先行する特徴量から付加情報を用いて, ノイズのある初期条件への依存を減らし, 連続的に(機能ごとに)データを生成する。
さらに、フローマッチングの代わりに(XGBoost分類器から)多項サンプリングを用いてカテゴリ変数を生成し、生成速度を向上する。
また, FFにおけるEulerソルバの性能向上のために, Runge-Kutta 4位(Rg4)ODEソルバを用いた。
25個のデータセットを用いた実験により,HS3FはFFよりも高品質で多様な合成データを生成することが明らかとなった。
また、$\geq20%$カテゴリ変数を持つデータセットでは、21~27倍高速なデータを生成する。
HS3Fはさらに、フローODE初期条件におけるアフィン変換に対する強化された堅牢性を示す。
本研究は, HS3Fの検証だけでなく, 生成モデルを推し進めるための新たな戦略も発表する。
関連論文リスト
- Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - Highly Adaptive Ridge [84.38107748875144]
直交可積分な部分微分を持つ右連続函数のクラスにおいて,$n-2/3$自由次元L2収束率を達成する回帰法を提案する。
Harは、飽和ゼロオーダーテンソル積スプライン基底展開に基づいて、特定のデータ適応型カーネルで正確にカーネルリッジレグレッションを行う。
我々は、特に小さなデータセットに対する最先端アルゴリズムよりも経験的性能が優れていることを示す。
論文 参考訳(メタデータ) (2024-10-03T17:06:06Z) - Exploring Data Efficiency in Zero-Shot Learning with Diffusion Models [38.36200871549062]
Zero-Shot Learning (ZSL) は、クラスレベルでのデータ効率を向上させることで、分類器が見えないクラスを識別できるようにすることを目的としている。
これは、未確認クラスの事前に定義されたセマンティクスから画像特徴を生成することで実現される。
本稿では,限られた例が一般的に生成モデルの性能低下をもたらすことを示す。
この統合されたフレームワークは拡散モデルを導入し、クラスレベルとインスタンスレベルのデータ効率を改善する。
論文 参考訳(メタデータ) (2024-06-05T04:37:06Z) - Accelerating Heterogeneous Federated Learning with Closed-form Classifiers [23.133964735844007]
フェデレートラーニング(FL)手法は、しばしば非常に統計的に異質な設定で苦労する。
Fed3R(Federated Recursive Ridge Regression)を紹介する。
Fed3Rは統計的不均一性に免疫を持ち、クライアントのサンプリング順序に不変である。
論文 参考訳(メタデータ) (2024-06-03T08:52:06Z) - The effect of data augmentation and 3D-CNN depth on Alzheimer's Disease
detection [51.697248252191265]
この研究は、データハンドリング、実験設計、モデル評価に関するベストプラクティスを要約し、厳密に観察する。
我々は、アルツハイマー病(AD)の検出に焦点を当て、医療における課題のパラダイム的な例として機能する。
このフレームワークでは,3つの異なるデータ拡張戦略と5つの異なる3D CNNアーキテクチャを考慮し,予測15モデルを訓練する。
論文 参考訳(メタデータ) (2023-09-13T10:40:41Z) - GFlowCausal: Generative Flow Networks for Causal Discovery [27.51595081346858]
本稿では,GFlowCausalと呼ばれる観測データからDAG(Directed Acyclic Graph)を学習するための新しい手法を提案する。
GFlowCausalは、事前定義された報酬に比例した確率を持つシーケンシャルアクションによって、ハイリワードDAGを生成するための最良のポリシーを学ぶことを目的としている。
合成データセットと実データセットの両方について広範な実験を行い、提案手法が優れていることを示すとともに、大規模環境での良好な性能を示す。
論文 参考訳(メタデータ) (2022-10-15T04:07:39Z) - Hyperparameter-free Continuous Learning for Domain Classification in
Natural Language Understanding [60.226644697970116]
ドメイン分類は自然言語理解(NLU)の基本課題である
既存の継続的な学習アプローチの多くは、低い精度とパフォーマンスの変動に悩まされている。
本研究では,テキストデータに対するパラメータフリー連続学習モデルを提案する。
論文 参考訳(メタデータ) (2022-01-05T02:46:16Z) - Highly Parallel Autoregressive Entity Linking with Discriminative
Correction [51.947280241185]
自己回帰リンクを全ての潜在的な言及に対して並列化する,非常に効率的な手法を提案する。
我々のモデルは以前の生成法より70倍高速で精度が高い。
論文 参考訳(メタデータ) (2021-09-08T17:28:26Z) - Mitigating Generation Shifts for Generalized Zero-Shot Learning [52.98182124310114]
一般化ゼロショット学習(英: Generalized Zero-Shot Learning、GZSL)は、学習中に見知らぬクラスが観察できない、見つからないサンプルを認識するために意味情報(属性など)を活用するタスクである。
本稿では,未知のデータ合成を効率よく,効率的に学習するための新しい生成シフト緩和フローフレームワークを提案する。
実験結果から,GSMFlowは従来のゼロショット設定と一般化されたゼロショット設定の両方において,最先端の認識性能を実現することが示された。
論文 参考訳(メタデータ) (2021-07-07T11:43:59Z) - OCT-GAN: Neural ODE-based Conditional Tabular GANs [8.062118111791495]
ニューラル常微分方程式(NODE)に基づくジェネレータと判別器を導入する。
我々は、保険詐欺の検出やオンラインニュース記事の予測などを含む13のデータセットを用いて実験を行う。
論文 参考訳(メタデータ) (2021-05-31T13:58:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。