論文の概要: Boosting Predictive Performance on Tabular Data through Data Augmentation with Latent-Space Flow-Based Diffusion
- arxiv url: http://arxiv.org/abs/2511.16571v1
- Date: Thu, 20 Nov 2025 17:28:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.756183
- Title: Boosting Predictive Performance on Tabular Data through Data Augmentation with Latent-Space Flow-Based Diffusion
- Title(参考訳): 潜時空間フローに基づく拡散によるデータ拡張による語彙データの予測性能の向上
- Authors: Md. Tawfique Ihsan, Md. Rakibul Hasan Rafi, Ahmed Shoyeb Raihan, Imtiaz Ahmed, Abdullahil Azeem,
- Abstract要約: 本稿では,マイノリティオーバサンプリングのための木駆動拡散法を提案する。
PCAForest、EmbedForest、AttentionForestの3つのバリエーションを紹介します。
最寄り距離比と最近距離記録によるプライバシー評価は、フォレスト拡散ベースラインと同等かそれ以上である。
- 参考スコア(独自算出の注目度): 1.4035356761907611
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Severe class imbalance is common in real-world tabular learning, where rare but important minority classes are essential for reliable prediction. Existing generative oversampling methods such as GANs, VAEs, and diffusion models can improve minority-class performance, but they often struggle with tabular heterogeneity, training stability, and privacy concerns. We propose a family of latent-space, tree-driven diffusion methods for minority oversampling that use conditional flow matching with gradient-boosted trees as the vector-field learner. The models operate in compact latent spaces to preserve tabular structure and reduce computation. We introduce three variants: PCAForest, which uses linear PCA embedding; EmbedForest, which uses a learned nonlinear embedding; and AttentionForest, which uses an attention-augmented embedding. Each method couples a GBT-based flow with a decoder back to the original feature space. Across 11 datasets from healthcare, finance, and manufacturing, AttentionForest achieves the best average minority recall while maintaining competitive precision, calibration, and distributional similarity. PCAForest and EmbedForest reach similar utility with much faster generation, offering favorable accuracy-efficiency trade-offs. Privacy evaluated with nearest-neighbor distance ratio and distance-to-closest-record is comparable to or better than the ForestDiffusion baseline. Ablation studies show that smaller embeddings tend to improve minority recall, while aggressive learning rates harm stability. Overall, latent-space, tree-driven diffusion provides an efficient and privacy-aware approach to high-fidelity tabular data augmentation under severe class imbalance.
- Abstract(参考訳): 重度のクラス不均衡は、稀だが重要なマイノリティクラスが信頼できる予測に不可欠である実世界の表型学習において一般的である。
GAN、VAE、拡散モデルといった既存の生成的オーバーサンプリング手法は、マイノリティクラスのパフォーマンスを改善することができるが、それらは表の不均一性、トレーニングの安定性、プライバシの懸念に悩まされることが多い。
本稿では,ベクトル場学習者として,勾配木と条件付きフローマッチングを用いたマイノリティーオーバーサンプリングのための潜在空間木駆動拡散手法のファミリーを提案する。
モデルは、グラフ構造を保存し、計算を減らすために、コンパクトな潜在空間で機能する。
線形PCA埋め込みを利用するPCAForestと、学習された非線形埋め込みを使用するEmbedForestと、注意を増した埋め込みを使用するAttentionForestの3つのバリエーションを紹介する。
各メソッドは、GBTベースのフローとデコーダを結合して元の特徴空間に戻す。
AttentionForestは、医療、ファイナンス、製造から11データセットにわたって、競争精度、キャリブレーション、ディストリビューションの類似性を保ちながら、最も平均的なマイノリティリコールを達成する。
PCAForestとEmbedForestは、非常に高速な生成で同様のユーティリティに到達し、良好な精度と効率のトレードオフを提供する。
最寄り距離比と最近距離記録によるプライバシー評価は、フォレスト拡散ベースラインと同等かそれ以上である。
アブレーション研究は、より小さな埋め込みは少数派リコールを改善する傾向にあり、一方、積極的な学習は安定性を損なうことを示している。
全体として、遅延空間、ツリー駆動拡散は、厳密なクラス不均衡の下で高忠実な表データ増大に対する効率的でプライバシーに配慮したアプローチを提供する。
関連論文リスト
- Modest-Align: Data-Efficient Alignment for Vision-Language Models [67.48633659305592]
クロスモーダルアライメントモデルは、リソース制約のある環境での運用において、過信と劣化したパフォーマンスに悩まされることが多い。
我々は,ロバスト性と効率性に配慮した軽量アライメントフレームワークであるModest-Alignを提案する。
本手法は,実世界の低リソースシナリオにおけるクロスモーダルアライメントを実現するための,実用的でスケーラブルなソリューションを提供する。
論文 参考訳(メタデータ) (2025-10-24T16:11:10Z) - Learning More with Less: A Generalizable, Self-Supervised Framework for Privacy-Preserving Capacity Estimation with EV Charging Data [84.37348569981307]
自己教師付き事前学習に基づく第一種能力推定モデルを提案する。
我々のモデルは一貫して最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2025-10-05T08:58:35Z) - Federated Learning Meets LLMs: Feature Extraction From Heterogeneous Clients [0.0]
フェデレートラーニング(FL)は、生データを共有せずに協調的なモデルトレーニングを可能にする。
我々は,事前学習された大規模言語モデル(LLM)を普遍的特徴抽出器として利用するフレームワークであるFedLLM-Alignを提案する。
冠動脈疾患予測におけるFedLLM-Alignの評価は,シミュレートされたスキーマ分岐を用いた分割データセットを用いて行われる。
論文 参考訳(メタデータ) (2025-09-29T14:06:52Z) - Learnable Sparse Customization in Heterogeneous Edge Computing [27.201987866208484]
異種フェデレート学習(FedLPS)のための学習可能なパーソナライズ・スパシフィケーションを提案する。
FedLPSは、局所データ表現におけるモデルユニットの重要性を学び、パーソナライズされたデータ特徴を正確に抽出するために、最小限の重要度に基づくスパースパターンを導出する。
実験により、FedLPSは精度とトレーニングコストにおいてステータスクオアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2024-12-10T06:14:31Z) - Probabilistic Contrastive Learning for Long-Tailed Visual Recognition [78.70453964041718]
細長い分布は、少数の少数派が限られた数のサンプルを含む実世界のデータにしばしば現れる。
近年の研究では、教師付きコントラスト学習がデータ不均衡を緩和する有望な可能性を示していることが明らかになっている。
本稿では,特徴空間の各クラスからのサンプルデータ分布を推定する確率論的コントラスト学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-11T13:44:49Z) - Local Learning Matters: Rethinking Data Heterogeneity in Federated
Learning [61.488646649045215]
フェデレートラーニング(FL)は、クライアントのネットワーク(エッジデバイス)でプライバシ保護、分散ラーニングを行うための有望な戦略である。
論文 参考訳(メタデータ) (2021-11-28T19:03:39Z) - Differentially Private Federated Learning with Laplacian Smoothing [72.85272874099644]
フェデレートラーニングは、ユーザ間でプライベートデータを共有せずに、協調的にモデルを学習することで、データのプライバシを保護することを目的としている。
敵は、リリースしたモデルを攻撃することによって、プライベートトレーニングデータを推測することができる。
差別化プライバシは、トレーニングされたモデルの正確性や実用性を著しく低下させる価格で、このような攻撃に対する統計的保護を提供する。
論文 参考訳(メタデータ) (2020-05-01T04:28:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。