論文の概要: A Systematic Framework for Tabular Data Disentanglement
- arxiv url: http://arxiv.org/abs/2604.07940v1
- Date: Thu, 09 Apr 2026 08:00:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.786301
- Title: A Systematic Framework for Tabular Data Disentanglement
- Title(参考訳): 語彙データ分散のための体系的枠組み
- Authors: Ivan Tjuawinata, Andre Gunawan, Anh Quan Tran, Nitish Kumar, Payal Pote, Harsh Bansal, Chu-Hung Chi, Kwok-Yan Lam, Parventanis Murthy,
- Abstract要約: 産業制御システムなどのアプリケーションで広く使われているタブラルデータは、しばしば複雑な属性を含む。
データ不整合は、そのようなデータを相互依存を減らした変数に変換することを目指している。
因子分析、CT-GAN、VAEといった既存のデータアンタングル法は制限に直面している。
本稿では,データ・アンタングルメントの体系的ビューを提供するフレームワークを提案する。
- 参考スコア(独自算出の注目度): 18.33158363652858
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tabular data, widely used in various applications such as industrial control systems, finance, and supply chain, often contains complex interrelationships among its attributes. Data disentanglement seeks to transform such data into latent variables with reduced interdependencies, facilitating more effective and efficient processing. Despite the extensive studies on data disentanglement over image, text, or audio data, tabular data disentanglement may require further investigation due to the more intricate attribute interactions typically found in tabular data. Moreover, due to the highly complex interrelationships, direct translation from other data domains results in suboptimal data disentanglement. Existing tabular data disentanglement methods, such as factor analysis, CT-GAN, and VAE face limitations including scalability issues, mode collapse, and poor extrapolation. In this paper, we propose the use of a framework to provide a systematic view on tabular data disentanglement that modularizes the process into four core components: data extraction, data modeling, model analysis, and latent representation extrapolation. We believe this work provides a deeper understanding of tabular data disentanglement and existing methods, and lays the foundation for potential future research in developing robust, efficient, and scalable data disentanglement techniques. Finally, we demonstrate the framework's applicability through a case study on synthetic tabular data generation, showcasing its potential in the particular downstream task of data synthesis.
- Abstract(参考訳): 産業制御システム、金融、サプライチェーンなどの様々な用途で広く使われているタブラルデータには、その属性に複雑な相互関係がしばしば含まれている。
データ不整合は、より効率的で効率的な処理を容易にし、相互依存を減らし、そのようなデータを潜伏変数に変換することを目指している。
画像、テキスト、オーディオデータに対するデータのゆがみに関する広範な研究にもかかわらず、表データのゆがみは、通常、表のデータに見られるより複雑な属性の相互作用のために、さらなる調査を必要とする可能性がある。
さらに、非常に複雑な相互関係のため、他のデータドメインからの直接変換は、最適なデータ非絡み合いをもたらす。
因子分析、CT-GAN、VAEといった既存の表形式のデータ非絡み合わせ手法は、スケーラビリティの問題、モード崩壊、外挿不良などの制限に直面している。
本稿では,データ抽出,データモデリング,モデル解析,潜在表現外挿という4つのコアコンポーネントにプロセスをモジュール化する,表層データ分散の体系的ビューを提供するフレームワークを提案する。
この研究は、表形式のデータ非絡合と既存の方法のより深い理解を提供し、堅牢で効率的でスケーラブルなデータ非絡合技術を開発するための、将来の研究の基盤となると信じています。
最後に、本フレームワークの適用性を、合成表データ生成のケーススタディを通じて実証し、データ合成の特定の下流タスクにおけるその可能性を示す。
関連論文リスト
- Universal Embeddings of Tabular Data [0.0]
リレーショナルデータベースにおけるタブラリデータは、産業データのかなりの部分を占めている。
本稿では,予め定義された目標を満たさずにダウンストリームタスクを実行するための,タスク非依存な表データの埋め込みを普遍的に生成するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-08T11:45:29Z) - LLM-TabLogic: Preserving Inter-Column Logical Relationships in Synthetic Tabular Data via Prompt-Guided Latent Diffusion [49.898152180805454]
合成データセットはドメイン固有の論理的一貫性を維持する必要がある。
既存の生成モデルは、しばしばこれらのカラム間の関係を見落としている。
本研究では,ドメイン知識を必要とせずに列間関係を効果的に維持する手法を提案する。
論文 参考訳(メタデータ) (2025-03-04T00:47:52Z) - TabDiff: a Mixed-type Diffusion Model for Tabular Data Generation [91.50296404732902]
グラフデータの混合型分布を1つのモデルでモデル化する共同拡散フレームワークであるTabDiffを紹介する。
我々の重要な革新は、数値データと分類データのための連立連続時間拡散プロセスの開発である。
TabDiffは、既存の競合ベースラインよりも優れた平均性能を実現し、ペアワイドカラム相関推定における最先端モデルよりも最大で22.5%改善されている。
論文 参考訳(メタデータ) (2024-10-27T22:58:47Z) - A Survey on Deep Tabular Learning [0.0]
タブラルデータは、その不均一な性質と空間構造が欠如していることから、深層学習の独特な課題を提示する。
本調査では,早期完全接続ネットワーク(FCN)から,TabNet,SAINT,TabTranSELU,MambaNetといった先進アーキテクチャに至るまで,タブラルデータのディープラーニングモデルの進化を概観する。
論文 参考訳(メタデータ) (2024-10-15T20:08:08Z) - FedTabDiff: Federated Learning of Diffusion Probabilistic Models for
Synthetic Mixed-Type Tabular Data Generation [5.824064631226058]
textitFederated Tabular Diffusion (FedTabDiff) を導入し、元のデータセットに一元的にアクセスすることなく、高忠実な混合型表型データを生成する。
FedTabDiffは、データプライバシとローカリティを尊重しながら、複数のエンティティが共同で生成モデルをトレーニングできるようにする分散学習方式を実現する。
実世界の金融および医療データセットに関する実験的評価は、高い忠実性、ユーティリティ、プライバシ、カバレッジを維持する合成データを生成するフレームワークの能力を実証している。
論文 参考訳(メタデータ) (2024-01-11T21:17:50Z) - Generating tabular datasets under differential privacy [0.0]
ディープニューラルネットワークのトレーニングプロセスに差分プライバシー(DP)を導入する。
これにより、結果データの品質とプライバシの間にトレードオフが生じます。
我々は、注意機構を活用する新しいエンドツーエンドモデルを実装している。
論文 参考訳(メタデータ) (2023-08-28T16:35:43Z) - A Comprehensive Survey of Dataset Distillation [73.15482472726555]
限られた計算能力で無制限に成長するデータを扱うことは困難になっている。
ディープラーニング技術はこの10年で前例のない発展を遂げた。
本稿では,多面的なデータセット蒸留の総合的な理解を提供する。
論文 参考訳(メタデータ) (2023-01-13T15:11:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。