Fugu-MT 論文翻訳(概要): Generating Tabular Data Using Heterogeneous Sequential Feature Forest Flow Matching

論文の概要: Generating Tabular Data Using Heterogeneous Sequential Feature Forest Flow Matching

arxiv url: http://arxiv.org/abs/2410.15516v1
Date: Sun, 20 Oct 2024 21:55:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:38.159501
Title: Generating Tabular Data Using Heterogeneous Sequential Feature Forest Flow Matching
Title（参考訳）: 不均質な特徴的森林フローマッチングを用いた語彙データの生成
Authors: Ange-Clément Akazan, Alexia Jolicoeur-Martineau, Ioannis Mitliagkas,
Abstract要約: フォレストフロー (FF) 法の限界を克服するために, 不均質なシークエンシャル・フィーチャー・フォレストフロー (HS3F) を開発した。 HS3Fはシーケンシャルに(機能ごとに)データを生成し、ノイズのある初期条件への依存を減らす。 25のデータセットによる実験では、HS3FはFFよりも高品質で多様な合成データを生成する。
参考スコア（独自算出の注目度）: 15.076510915837892
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Privacy and regulatory constraints make data generation vital to advancing machine learning without relying on real-world datasets. A leading approach for tabular data generation is the Forest Flow (FF) method, which combines Flow Matching with XGBoost. Despite its good performance, FF is slow and makes errors when treating categorical variables as one-hot continuous features. It is also highly sensitive to small changes in the initial conditions of the ordinary differential equation (ODE). To overcome these limitations, we develop Heterogeneous Sequential Feature Forest Flow (HS3F). Our method generates data sequentially (feature-by-feature), reducing the dependency on noisy initial conditions through the additional information from previously generated features. Furthermore, it generates categorical variables using multinomial sampling (from an XGBoost classifier) instead of flow matching, improving generation speed. We also use a Runge-Kutta 4th order (Rg4) ODE solver for improved performance over the Euler solver used in FF. Our experiments with 25 datasets reveal that HS3F produces higher quality and more diverse synthetic data than FF, especially for categorical variables. It also generates data 21-27 times faster for datasets with $\geq20%$ categorical variables. HS3F further demonstrates enhanced robustness to affine transformation in flow ODE initial conditions compared to FF. This study not only validates the HS3F but also unveils promising new strategies to advance generative models.
Abstract（参考訳）: プライバシと規制の制約は、現実のデータセットに頼ることなく、データ生成を機械学習の進歩に不可欠にする。表型データ生成における主要なアプローチは、フローマッチングとXGBoostを組み合わせたフォレストフロー(FF)法である。優れた性能にもかかわらず、FFは遅く、カテゴリー変数を1ホット連続的な特徴として扱う際にエラーを起こす。また、通常の微分方程式(ODE)の初期条件の小さな変化に非常に敏感である。これらの制約を克服するため,不均質なシークエンシャル・フィーチャー・フォレスト・フロー(HS3F)を開発した。提案手法は, 先行する特徴量から付加情報を用いて, ノイズのある初期条件への依存を減らし, 連続的に(機能ごとに)データを生成する。さらに、フローマッチングの代わりに(XGBoost分類器から)多項サンプリングを用いてカテゴリ変数を生成し、生成速度を向上する。また, FFにおけるEulerソルバの性能向上のために, Runge-Kutta 4位(Rg4)ODEソルバを用いた。 25個のデータセットを用いた実験により,HS3FはFFよりも高品質で多様な合成データを生成することが明らかとなった。また、$\geq20%$カテゴリ変数を持つデータセットでは、21～27倍高速なデータを生成する。 HS3Fはさらに、フローODE初期条件におけるアフィン変換に対する強化された堅牢性を示す。本研究は, HS3Fの検証だけでなく, 生成モデルを推し進めるための新たな戦略も発表する。

関連論文リスト

Self-Supervised Learning via Flow-Guided Neural Operator on Time-Series Data [57.85958428020496]
Flow-Guided Neural Operator (FGNO)は、演算子学習とフローマッチングを組み合わせた新しいフレームワークである。 FGNOは、短時間フーリエ変換を用いて関数空間のマッピングを学習し、異なる時間分解能を統一する。推論中にノイズのある入力を使用する以前の生成SSL法とは異なり、ノイズのある表現を学習しながら、クリーンな入力を用いて表現抽出を行う。
論文参考訳（メタデータ） (2026-02-12T18:54:57Z)
IVGAE: Handling Incomplete Heterogeneous Data with a Variational Graph Autoencoder [4.935498694293104]
非完全不均一データの堅牢な計算のための変分グラフオートエンコーダである textbfIVGAE を提案する。 IVGAEは、サンプル-機能関係を表す二部グラフを構築し、グラフ表現学習を構造的依存関係のモデル化に適用する。 16の実世界のデータセットの実験によると、IVGAEは、MCAR、MAR、MNARの欠落シナリオに対して、RMSEと下流F1の一貫性のある改善を実現している。
論文参考訳（メタデータ） (2025-11-27T05:14:50Z)
CausalDiffTab: Mixed-Type Causal-Aware Diffusion for Tabular Data Generation [6.449839514410505]
混合データを扱うために特別に設計された拡散モデルに基づく生成モデルCausalDiffTabを紹介する。階層型先行核融合の原理に基づくハイブリッド適応因果正則化法を提案する。 7つのデータセットで実施された実験は、CausalDiffTabがすべてのメトリクスでベースラインメソッドを上回っていることを示している。
論文参考訳（メタデータ） (2025-06-17T05:48:44Z)
AugmentGest: Can Random Data Cropping Augmentation Boost Gesture Recognition Performance? [49.64902130083662]
本稿では、幾何変換、ランダム変動、回転、ズーム、強度に基づく変換を統合する包括的データ拡張フレームワークを提案する。提案手法は,マルチストリームe2eET,FPPRポイントクラウドベースハンドジェスチャ認識(HGR),DD-Networkの3つのモデルで評価される。
論文参考訳（メタデータ） (2025-06-08T16:43:05Z)
FlowTS: Time Series Generation via Rectified Flow [67.41208519939626]
FlowTSは、確率空間における直線輸送を伴う整流フローを利用するODEベースのモデルである。非条件設定では、FlowTSは最先端のパフォーマンスを達成し、コンテキストFIDスコアはStockとETThデータセットで0.019と0.011である。条件設定では、太陽予測において優れた性能を達成している。
論文参考訳（メタデータ） (2024-11-12T03:03:23Z)
Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文参考訳（メタデータ） (2024-10-29T04:14:32Z)
TabDiff: a Mixed-type Diffusion Model for Tabular Data Generation [91.50296404732902]
グラフデータの混合型分布を1つのモデルでモデル化する共同拡散フレームワークであるTabDiffを紹介する。我々の重要な革新は、数値データと分類データのための連立連続時間拡散プロセスの開発である。 TabDiffは、既存の競合ベースラインよりも優れた平均性能を実現し、ペアワイドカラム相関推定における最先端モデルよりも最大で22.5%改善されている。
論文参考訳（メタデータ） (2024-10-27T22:58:47Z)
Highly Adaptive Ridge [84.38107748875144]
直交可積分な部分微分を持つ右連続函数のクラスにおいて,$n-2/3$自由次元L2収束率を達成する回帰法を提案する。 Harは、飽和ゼロオーダーテンソル積スプライン基底展開に基づいて、特定のデータ適応型カーネルで正確にカーネルリッジレグレッションを行う。我々は、特に小さなデータセットに対する最先端アルゴリズムよりも経験的性能が優れていることを示す。
論文参考訳（メタデータ） (2024-10-03T17:06:06Z)
Exploring Data Efficiency in Zero-Shot Learning with Diffusion Models [38.36200871549062]
Zero-Shot Learning (ZSL) は、クラスレベルでのデータ効率を向上させることで、分類器が見えないクラスを識別できるようにすることを目的としている。これは、未確認クラスの事前に定義されたセマンティクスから画像特徴を生成することで実現される。本稿では,限られた例が一般的に生成モデルの性能低下をもたらすことを示す。この統合されたフレームワークは拡散モデルを導入し、クラスレベルとインスタンスレベルのデータ効率を改善する。
論文参考訳（メタデータ） (2024-06-05T04:37:06Z)
Accelerating Heterogeneous Federated Learning with Closed-form Classifiers [23.133964735844007]
フェデレートラーニング(FL)手法は、しばしば非常に統計的に異質な設定で苦労する。 Fed3R(Federated Recursive Ridge Regression)を紹介する。 Fed3Rは統計的不均一性に免疫を持ち、クライアントのサンプリング順序に不変である。
論文参考訳（メタデータ） (2024-06-03T08:52:06Z)
Streaming Factor Trajectory Learning for Temporal Tensor Decomposition [33.18423605559094]
時相テンソル分解のためのストリーム係数軌道学習を提案する。我々はガウス過程(GP)を用いて因子の軌道をモデル化し、その時間的進化を柔軟に推定する。合成タスクと実世界のアプリケーションの両方において、SFTLの利点を示してきた。
論文参考訳（メタデータ） (2023-10-25T21:58:52Z)
The effect of data augmentation and 3D-CNN depth on Alzheimer's Disease detection [51.697248252191265]
この研究は、データハンドリング、実験設計、モデル評価に関するベストプラクティスを要約し、厳密に観察する。我々は、アルツハイマー病(AD)の検出に焦点を当て、医療における課題のパラダイム的な例として機能する。このフレームワークでは,3つの異なるデータ拡張戦略と5つの異なる3D CNNアーキテクチャを考慮し,予測15モデルを訓練する。
論文参考訳（メタデータ） (2023-09-13T10:40:41Z)
GFlowCausal: Generative Flow Networks for Causal Discovery [27.51595081346858]
本稿では,GFlowCausalと呼ばれる観測データからDAG(Directed Acyclic Graph)を学習するための新しい手法を提案する。 GFlowCausalは、事前定義された報酬に比例した確率を持つシーケンシャルアクションによって、ハイリワードDAGを生成するための最良のポリシーを学ぶことを目的としている。合成データセットと実データセットの両方について広範な実験を行い、提案手法が優れていることを示すとともに、大規模環境での良好な性能を示す。
論文参考訳（メタデータ） (2022-10-15T04:07:39Z)
Hyperparameter-free Continuous Learning for Domain Classification in Natural Language Understanding [60.226644697970116]
ドメイン分類は自然言語理解(NLU)の基本課題である既存の継続的な学習アプローチの多くは、低い精度とパフォーマンスの変動に悩まされている。本研究では,テキストデータに対するパラメータフリー連続学習モデルを提案する。
論文参考訳（メタデータ） (2022-01-05T02:46:16Z)
Highly Parallel Autoregressive Entity Linking with Discriminative Correction [51.947280241185]
自己回帰リンクを全ての潜在的な言及に対して並列化する,非常に効率的な手法を提案する。我々のモデルは以前の生成法より70倍高速で精度が高い。
論文参考訳（メタデータ） (2021-09-08T17:28:26Z)
Mitigating Generation Shifts for Generalized Zero-Shot Learning [52.98182124310114]
一般化ゼロショット学習(英: Generalized Zero-Shot Learning、GZSL)は、学習中に見知らぬクラスが観察できない、見つからないサンプルを認識するために意味情報(属性など)を活用するタスクである。本稿では,未知のデータ合成を効率よく,効率的に学習するための新しい生成シフト緩和フローフレームワークを提案する。実験結果から,GSMFlowは従来のゼロショット設定と一般化されたゼロショット設定の両方において,最先端の認識性能を実現することが示された。
論文参考訳（メタデータ） (2021-07-07T11:43:59Z)
OCT-GAN: Neural ODE-based Conditional Tabular GANs [8.062118111791495]
ニューラル常微分方程式(NODE)に基づくジェネレータと判別器を導入する。我々は、保険詐欺の検出やオンラインニュース記事の予測などを含む13のデータセットを用いて実験を行う。
論文参考訳（メタデータ） (2021-05-31T13:58:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。