論文の概要: TabTreeFormer: Tree Augmented Tabular Data Generation using Transformers
- arxiv url: http://arxiv.org/abs/2501.01216v1
- Date: Thu, 02 Jan 2025 11:57:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:12:54.633067
- Title: TabTreeFormer: Tree Augmented Tabular Data Generation using Transformers
- Title(参考訳): TabTreeFormer: トランスフォーマーを用いた木拡張タブラルデータ生成
- Authors: Jiayu Li, Bingyin Zhao, Zilong Zhao, Kevin Yee, Uzair Javaid, Yingjie Lao, Biplab Sikdar,
- Abstract要約: TabTreeFormerは、ツリーベースのモデルを組み込んだハイブリッドトランスフォーマーアーキテクチャである。
マルチモーダル連続分布を捉えるための二重量子化トークン化器を提案する。
実験の結果,TabTreeFormerは優れた忠実度,実用性,プライバシ,効率性を実現していることがわかった。
- 参考スコア(独自算出の注目度): 25.447956326772225
- License:
- Abstract: Transformers have achieved remarkable success in tabular data generation. However, they lack domain-specific inductive biases which are critical to preserving the intrinsic characteristics of tabular data. Meanwhile, they suffer from poor scalability and efficiency due to quadratic computational complexity. In this paper, we propose TabTreeFormer, a hybrid transformer architecture that incorporates a tree-based model that retains tabular-specific inductive biases of non-smooth and potentially low-correlated patterns due to its discreteness and non-rotational invariance, and hence enhances the fidelity and utility of synthetic data. In addition, we devise a dual-quantization tokenizer to capture the multimodal continuous distribution and further facilitate the learning of numerical value distribution. Moreover, our proposed tokenizer reduces the vocabulary size and sequence length due to the limited dimension-wise semantic meaning and training set size of tabular data, rendering a significant model size shrink without sacrificing the capability of the transformer model. We evaluate TabTreeFormer on 10 datasets against multiple generative models on various metrics; our experimental results show that TabTreeFormer achieves superior fidelity, utility, privacy, and efficiency. Our best model yields a 40% utility improvement with 1/16 of the baseline model size.
- Abstract(参考訳): 変換器は表データ生成において顕著な成功を収めた。
しかし、それらは表データの本質的な特徴を保存するのに重要なドメイン固有の帰納バイアスを欠いている。
一方、彼らは2次計算の複雑さのためにスケーラビリティと効率が悪くなっています。
本稿では,木構造を組み込んだハイブリッドトランスフォーマアーキテクチャTabTreeFormerを提案する。このアーキテクチャは,非滑らかかつ低相関なパターンの表層特異的な帰納バイアスを,その離散性と非回転不変性により保持し,合成データの忠実性と有用性を向上する。
さらに、マルチモーダルな連続分布を捕捉し、さらに数値分布の学習を容易にするための二重量子化トークン化器を考案した。
さらに,提案するトークン化器は,表層データの意味の限定による語彙サイズとシーケンス長を低減し,変換器モデルの能力を犠牲にすることなく,有意なモデルサイズを縮小する。
実験結果は,TabTreeFormerが優れた忠実度,ユーティリティ,プライバシ,効率を実現することを示す。
私たちの最高のモデルでは、ベースラインモデルのサイズの1/16で40%の実用性向上を実現しています。
関連論文リスト
- Diffusion-nested Auto-Regressive Synthesis of Heterogeneous Tabular Data [56.48119008663155]
本稿では,これらの問題に対処する拡散型自己回帰モデル(TabDAR)を提案する。
異なる特性を持つ10のデータセットに対して広範な実験を行い、提案したTabDARは3つの異なる側面にわたる8つの指標に対して、従来の最先端手法を18%から45%上回っている。
論文 参考訳(メタデータ) (2024-10-28T20:49:26Z) - TabDiff: a Multi-Modal Diffusion Model for Tabular Data Generation [91.50296404732902]
1つのモデルで表データのマルチモーダル分布をモデル化する共同拡散フレームワークであるTabDiffを紹介する。
我々の重要な革新は、数値データと分類データのための連立連続時間拡散プロセスの開発である。
TabDiffは、既存の競合ベースラインよりも優れた平均性能を実現し、ペアワイドカラム相関推定における最先端モデルよりも最大で22.5%改善されている。
論文 参考訳(メタデータ) (2024-10-27T22:58:47Z) - A Survey on Deep Tabular Learning [0.0]
タブラルデータは、その不均一な性質と空間構造が欠如していることから、深層学習の独特な課題を提示する。
本調査では,早期完全接続ネットワーク(FCN)から,TabNet,SAINT,TabTranSELU,MambaNetといった先進アーキテクチャに至るまで,タブラルデータのディープラーニングモデルの進化を概観する。
論文 参考訳(メタデータ) (2024-10-15T20:08:08Z) - Unmasking Trees for Tabular Data [0.0]
勾配型決定木を用いた表計算(および生成)の簡易な方法であるUnmaskingTreesを提案する。
条件生成サブプロブレムを解決するために,木分類器のバランス木に適合するBaltoBotを提案する。
従来の方法とは異なり、条件分布のパラメトリックな仮定は必要とせず、多重モーダル分布を持つ特徴を収容する。
我々はついに2つのアプローチをメタアルゴリズムとみなし、TabPFNを用いた文脈内学習に基づく生成モデリングを実証した。
論文 参考訳(メタデータ) (2024-07-08T04:15:43Z) - An improved tabular data generator with VAE-GMM integration [9.4491536689161]
本稿では,現在のアプローチの限界に対処する新しい変分オートエンコーダ(VAE)モデルを提案する。
本手法は,TVAEモデルにインスパイアされたベイジアン・ガウス混合モデル(BGM)をVAEアーキテクチャに組み込む。
我々は,2つの医療関連データセットを含む混合データ型を持つ実世界の3つのデータセットに対して,我々のモデルを徹底的に検証する。
論文 参考訳(メタデータ) (2024-04-12T12:31:06Z) - Making Pre-trained Language Models Great on Tabular Prediction [50.70574370855663]
ディープニューラルネットワーク(DNN)の転送性は、画像および言語処理において著しく進歩している。
本稿では,表型データ予測のための訓練済みLMであるTP-BERTaを提案する。
新たな相対等級トークン化では、スカラー数値の特徴値を細分化した高次元トークンに変換し、特徴値と対応する特徴名を統合する。
論文 参考訳(メタデータ) (2024-03-04T08:38:56Z) - In-Context Data Distillation with TabPFN [11.553950697974825]
In-context data distillation (ICD) は、TabPFNのコンテキストを最適化することでこれらの制約を効果的に除去する新しい手法である。
ICDにより、TabPFNは固定メモリ予算ではるかに大きなデータセットを処理でき、TabPFNの二次メモリの複雑さは向上するが、多くのチューニングステップのコストがかかる。
論文 参考訳(メタデータ) (2024-02-10T15:23:45Z) - Language Models are Realistic Tabular Data Generators [15.851912974874116]
本稿では,GReaT (Generation of Realistic Tabular data) を提案する。
提案手法の有効性を,複数角度から得られたデータサンプルの有効性と品質を定量化する一連の実験で実証した。
論文 参考訳(メタデータ) (2022-10-12T15:03:28Z) - AdaCat: Adaptive Categorical Discretization for Autoregressive Models [84.85102013917606]
AdaCat(Adaptive Categorical Discretization)と呼ばれる,効率的で表現性の高いマルチモーダルパラメータ化を提案する。
AdaCatは自己回帰モデルの各次元を適応的に識別し、モデルが関心の細かい間隔に密度を割り当てることを可能にする。
論文 参考訳(メタデータ) (2022-08-03T17:53:46Z) - Fast, Accurate, and Simple Models for Tabular Data via Augmented
Distillation [97.42894942391575]
本研究では、FAST-DADを用いて、任意の複雑なアンサンブル予測を、高木、無作為林、深層ネットワークなどの個々のモデルに抽出する。
我々の個々の蒸留モデルは、H2O/AutoSklearnのようなAutoMLツールが生成するアンサンブル予測よりも10倍高速で精度が高い。
論文 参考訳(メタデータ) (2020-06-25T09:57:47Z) - Particle-Gibbs Sampling For Bayesian Feature Allocation Models [77.57285768500225]
最も広く使われているMCMC戦略は、特徴割り当て行列のギブス更新に頼っている。
単一移動で特徴割り当て行列の全行を更新できるギブスサンプリング器を開発した。
このサンプルは、計算複雑性が特徴数で指数関数的にスケールするにつれて、多数の特徴を持つモデルにとって実用的ではない。
我々は,行ワイズギブズ更新と同じ分布を目標としたパーティクルギブズサンプルの開発を行うが,特徴数でのみ線形に増大する計算複雑性を有する。
論文 参考訳(メタデータ) (2020-01-25T22:11:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。