論文の概要: Diffusion-nested Auto-Regressive Synthesis of Heterogeneous Tabular Data
- arxiv url: http://arxiv.org/abs/2410.21523v1
- Date: Mon, 28 Oct 2024 20:49:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-30 13:39:57.156863
- Title: Diffusion-nested Auto-Regressive Synthesis of Heterogeneous Tabular Data
- Title(参考訳): 拡散型自己回帰合成による不均一な語彙データの合成
- Authors: Hengrui Zhang, Liancheng Fang, Qitian Wu, Philip S. Yu,
- Abstract要約: 本稿では,これらの問題に対処する拡散型自己回帰モデル(TabDAR)を提案する。
異なる特性を持つ10のデータセットに対して広範な実験を行い、提案したTabDARは3つの異なる側面にわたる8つの指標に対して、従来の最先端手法を18%から45%上回っている。
- 参考スコア(独自算出の注目度): 56.48119008663155
- License:
- Abstract: Autoregressive models are predominant in natural language generation, while their application in tabular data remains underexplored. We posit that this can be attributed to two factors: 1) tabular data contains heterogeneous data type, while the autoregressive model is primarily designed to model discrete-valued data; 2) tabular data is column permutation-invariant, requiring a generation model to generate columns in arbitrary order. This paper proposes a Diffusion-nested Autoregressive model (TabDAR) to address these issues. To enable autoregressive methods for continuous columns, TabDAR employs a diffusion model to parameterize the conditional distribution of continuous features. To ensure arbitrary generation order, TabDAR resorts to masked transformers with bi-directional attention, which simulate various permutations of column order, hence enabling it to learn the conditional distribution of a target column given an arbitrary combination of other columns. These designs enable TabDAR to not only freely handle heterogeneous tabular data but also support convenient and flexible unconditional/conditional sampling. We conduct extensive experiments on ten datasets with distinct properties, and the proposed TabDAR outperforms previous state-of-the-art methods by 18% to 45% on eight metrics across three distinct aspects.
- Abstract(参考訳): 自己回帰モデルは自然言語生成に大きく依存するが、表形式のデータへの応用はいまだ過小評価されている。
これは2つの要因に起因すると仮定する。
1)表型データには異種データ型が含まれており,自己回帰モデルは,主に離散値データをモデル化するために設計されている。
2) 表型データは列置換不変であり、任意の順序で列を生成するために生成モデルを必要とする。
本稿では,これらの問題に対処する拡散型自己回帰モデル(TabDAR)を提案する。
連続列に対する自己回帰的手法を実現するために、TabDARは拡散モデルを用いて連続特徴の条件分布をパラメータ化する。
任意の生成順序を確保するために、TabDARは、カラム順序の様々な置換をシミュレートし、他の列の任意の組み合わせを与えられたターゲット列の条件分布を学習する、双方向の注意を持つマスク付きトランスフォーマーを利用する。
これらの設計により、TabDARは不均一な表データだけでなく、便利で柔軟な無条件/条件サンプリングもサポートできる。
異なる特性を持つ10のデータセットに対して広範な実験を行い、提案したTabDARは、3つの異なる側面にわたる8つの指標に対して、従来の最先端手法を18%から45%上回っている。
関連論文リスト
- TabDiff: a Multi-Modal Diffusion Model for Tabular Data Generation [91.50296404732902]
1つのモデルで表データのマルチモーダル分布をモデル化する共同拡散フレームワークであるTabDiffを紹介する。
我々の重要な革新は、数値データと分類データのための連立連続時間拡散プロセスの開発である。
TabDiffは、既存の競合ベースラインよりも優れた平均性能を実現し、ペアワイドカラム相関推定における最先端モデルよりも最大で22.5%改善されている。
論文 参考訳(メタデータ) (2024-10-27T22:58:47Z) - AdapTable: Test-Time Adaptation for Tabular Data via Shift-Aware Uncertainty Calibrator and Label Distribution Handler [29.395855812763617]
我々は、ソースデータにアクセスすることなく、ターゲットデータに機械学習モデルを適用するためのフレームワークであるAdapTableを提案する。
AdapTableは、(1)シフト認識不確実性校正器を用いてモデル予測を校正し、2)ターゲットラベル分布とラベル分布ハンドラとを一致させるようにこれらの予測を調整する。
我々の結果は、AdapTableが様々な現実世界の分散シフトを処理できることを示し、データセットで最大16%の改善を実現した。
論文 参考訳(メタデータ) (2024-07-15T15:02:53Z) - LaTable: Towards Large Tabular Models [63.995130144110156]
タブラル生成基盤モデルは、異なるデータセットの不均一な特徴空間のために構築が困難である。
LaTableは、これらの課題に対処し、異なるデータセットでトレーニング可能な、新しい拡散モデルである。
LaTableは、分散生成のベースラインよりも優れており、微調整されたLaTableは、より少ないサンプルで分散データセットをより良く生成できる。
論文 参考訳(メタデータ) (2024-06-25T16:03:50Z) - IBADR: an Iterative Bias-Aware Dataset Refinement Framework for
Debiasing NLU models [52.03761198830643]
IBADR(Iterative Bias-Aware dataset Refinement framework)を提案する。
まず、プール内のサンプルのバイアス度を定量化するために浅いモデルを訓練する。
次に、各サンプルにバイアス度を表すバイアス指標をペアにして、これらの拡張サンプルを使用してサンプルジェネレータを訓練する。
このようにして、このジェネレータは、バイアスインジケータとサンプルの対応関係を効果的に学習することができる。
論文 参考訳(メタデータ) (2023-11-01T04:50:38Z) - Training-Free Generalization on Heterogeneous Tabular Data via
Meta-Representation [67.30538142519067]
メタ表現(TabPTM)を用いたタブラルデータ事前学習を提案する。
深層ニューラルネットワークは、これらのメタ表現とデータセット固有の分類信頼度を関連付けるように訓練される。
実験により、TabPTMは、数ショットのシナリオであっても、新しいデータセットで有望なパフォーマンスを達成することを確認した。
論文 参考訳(メタデータ) (2023-10-31T18:03:54Z) - CoDi: Co-evolving Contrastive Diffusion Models for Mixed-type Tabular
Synthesis [28.460781361829326]
2つの拡散モデルにより連続変数と離散変数を別々に(しかし互いに条件付けされている)処理することを提案する。
2つの拡散モデルは、互いに読み合うことによって、訓練中に共進化する。
実世界の11のデータセットと8のベースライン手法を用いて実験を行い,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2023-04-25T08:38:36Z) - REaLTabFormer: Generating Realistic Relational and Tabular Data using
Transformers [0.0]
本稿では,合成データ生成モデルであるREaLTabFormer(Realistic and Tabular Transformer)を紹介する。
まず、自己回帰GPT-2モデルを用いて親テーブルを生成し、その後、シーケンス・ツー・シーケンスモデルを用いて親テーブル上で条件付けられた関係データセットを生成する。
実世界のデータセットを用いた実験では、REaLTabFormerはモデルベースラインよりもリレーショナル構造をよりよくキャプチャする。
論文 参考訳(メタデータ) (2023-02-04T00:32:50Z) - Mutual Exclusivity Training and Primitive Augmentation to Induce
Compositionality [84.94877848357896]
最近のデータセットは、標準的なシーケンス・ツー・シーケンスモデルにおける体系的な一般化能力の欠如を露呈している。
本稿では,セq2seqモデルの振る舞いを分析し,相互排他バイアスの欠如と全例を記憶する傾向の2つの要因を同定する。
広範に使用されている2つの構成性データセット上で、標準的なシーケンス・ツー・シーケンスモデルを用いて、経験的改善を示す。
論文 参考訳(メタデータ) (2022-11-28T17:36:41Z) - TabDDPM: Modelling Tabular Data with Diffusion Models [33.202222842342465]
TabDDPM -- どんなデータセットにも普遍的に適用でき、どんなタイプの機能でも扱える拡散モデルです。
我々は,TabDDPMを広範囲のベンチマークで評価し,既存のGAN/VAE代替よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-09-30T12:26:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。