論文の概要: CTTVAE: Latent Space Structuring for Conditional Tabular Data Generation on Imbalanced Datasets
- arxiv url: http://arxiv.org/abs/2602.03641v1
- Date: Tue, 03 Feb 2026 15:25:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.540828
- Title: CTTVAE: Latent Space Structuring for Conditional Tabular Data Generation on Imbalanced Datasets
- Title(参考訳): CTTVAE:不均衡データセットを用いた条件付きタブラリデータ生成のための遅延空間構造
- Authors: Milosh Devic, Jordan Gierschendorf, David Garson,
- Abstract要約: 本稿では,2つの相補的機構を備えた条件変換器を用いたタブラル変分自動エンコーダであるCTTVAEを紹介する。
CTTVAE+TBSは、トレーニングを不安定にすることなく、より代表的で実用性に整ったサンプルを一貫して得る。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating synthetic tabular data under severe class imbalance is essential for domains where rare but high-impact events drive decision-making. However, most generative models either overlook minority groups or fail to produce samples that are useful for downstream learning. We introduce CTTVAE, a Conditional Transformer-based Tabular Variational Autoencoder equipped with two complementary mechanisms: (i) a class-aware triplet margin loss that restructures the latent space for sharper intra-class compactness and inter-class separation, and (ii) a training-by-sampling strategy that adaptively increases exposure to underrepresented groups. Together, these components form CTTVAE+TBS, a framework that consistently yields more representative and utility-aligned samples without destabilizing training. Across six real-world benchmarks, CTTVAE+TBS achieves the strongest downstream utility on minority classes, often surpassing models trained on the original imbalanced data while maintaining competitive fidelity and bridging the gap for privacy for interpolation-based sampling methods and deep generative methods. Ablation studies further confirm that both latent structuring and targeted sampling contribute to these gains. By explicitly prioritizing downstream performance in rare categories, CTTVAE+TBS provides a robust and interpretable solution for conditional tabular data generation, with direct applicability to industries such as healthcare, fraud detection, and predictive maintenance where even small gains in minority cases can be critical.
- Abstract(参考訳): 重度のクラス不均衡の下で合成表データを生成することは、稀だが高影響のイベントが意思決定を促進する領域にとって不可欠である。
しかし、ほとんどの生成モデルは少数派を見落としているか、下流学習に役立つサンプルを作らないかのいずれかである。
我々は,2つの相補的機構を備えた条件変圧器を用いた可変変分オートエンコーダであるCTTVAEを紹介する。
(i)よりシャープなクラス内コンパクト性とクラス間分離のために潜在空間を再構成するクラス対応三重項マージン損失
(II)未表現グループへの露出を適応的に増加させるトレーニング・バイ・サンプリング戦略。
これらのコンポーネントは共にCTTVAE+TBSを形成し、トレーニングを不安定にすることなく、より汎用的でユーティリティに整合したサンプルを一貫して生成するフレームワークである。
6つの実世界のベンチマークで、CTTVAE+TBSはマイノリティクラスで最強のダウンストリームユーティリティを達成し、しばしばオリジナルの不均衡なデータで訓練されたモデルを上回っ、競争力を維持し、補間に基づくサンプリング手法と深層生成手法のプライバシーのギャップを埋める。
アブレーション研究は、潜伏構造と標的サンプリングの両方がこれらの利得に寄与することを確認する。
CTTVAE+TBSは、稀なカテゴリーで下流のパフォーマンスを明示的に優先順位付けすることで、医療、不正検出、予測保守などの業界に直接適用可能な、条件付き表型データ生成のための堅牢で解釈可能なソリューションを提供する。
関連論文リスト
- Modest-Align: Data-Efficient Alignment for Vision-Language Models [67.48633659305592]
クロスモーダルアライメントモデルは、リソース制約のある環境での運用において、過信と劣化したパフォーマンスに悩まされることが多い。
我々は,ロバスト性と効率性に配慮した軽量アライメントフレームワークであるModest-Alignを提案する。
本手法は,実世界の低リソースシナリオにおけるクロスモーダルアライメントを実現するための,実用的でスケーラブルなソリューションを提供する。
論文 参考訳(メタデータ) (2025-10-24T16:11:10Z) - Winning the Pruning Gamble: A Unified Approach to Joint Sample and Token Pruning for Efficient Supervised Fine-Tuning [71.30276778807068]
サンプルプルーニングとトークンプルーニングを戦略的に協調する統合フレームワークを提案する。
Q-Tuningは、トレーニングデータの12.5%しか使用せず、全データSFTベースラインに対する平均38%の改善を実現している。
論文 参考訳(メタデータ) (2025-09-28T13:27:38Z) - Learning Majority-to-Minority Transformations with MMD and Triplet Loss for Imbalanced Classification [0.5390869741300152]
教師付き分類におけるクラス不均衡は、多数派に対する予測をバイアスすることでモデル性能を低下させることが多い。
多数サンプルをマイノリティ分布にマッピングするパラメトリック変換を学習するオーバーサンプリングフレームワークを導入する。
提案手法は,グローバルアライメントのためのトランスフォーメーションと真のマイノリティサンプル間の平均最大誤差(MMD)を最小化する。
論文 参考訳(メタデータ) (2025-09-15T01:47:29Z) - Conditional Data Synthesis Augmentation [4.3108820946281945]
Conditional Data Synthesis Augmentation (CoDSA)は、マルチモーダルドメイン間のモデルパフォーマンスを改善するために高忠実度データを合成する新しいフレームワークである。
合成データの現実性を高め,スパース領域の試料密度を高めるために,CoDSAファインチューン事前学習生成モデルを構築した。
本稿では,合成サンプル量と対象領域割り当ての関数として,CoDSAが実現した統計的精度向上を定量化する理論的枠組みを提案する。
論文 参考訳(メタデータ) (2025-04-10T03:38:11Z) - Simplifying CLIP: Unleashing the Power of Large-Scale Models on Consumer-level Computers [3.2492319522383717]
Contrastive Language-Image Pre-Training (CLIP) はその優れたゼロショット性能と下流タスクへの優れた転送性のために注目を集めている。
しかし、そのような大規模モデルのトレーニングは通常、実際の計算とストレージを必要とするため、一般ユーザにとって消費者レベルのコンピュータでは障壁となる。
論文 参考訳(メタデータ) (2024-11-22T08:17:46Z) - Towards Robust Federated Learning via Logits Calibration on Non-IID Data [49.286558007937856]
Federated Learning(FL)は、エッジネットワークにおける分散デバイスの共同モデルトレーニングに基づく、プライバシ保護のための分散管理フレームワークである。
近年の研究では、FLは敵の例に弱いことが示されており、その性能は著しく低下している。
本研究では,対戦型訓練(AT)フレームワークを用いて,対戦型実例(AE)攻撃に対するFLモデルの堅牢性を向上させる。
論文 参考訳(メタデータ) (2024-03-05T09:18:29Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z) - Examining and Combating Spurious Features under Distribution Shift [94.31956965507085]
我々は、最小限の統計量という情報理論の概念を用いて、ロバストで刺激的な表現を定義し、分析する。
入力分布のバイアスしか持たない場合でも、モデルはトレーニングデータから急激な特徴を拾い上げることができることを証明しています。
分析から着想を得た結果,グループDROは,グループ同士の相関関係を直接考慮しない場合に失敗する可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-14T05:39:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。