論文の概要: TabTreeFormer: Tabular Data Generation Using Hybrid Tree-Transformer
- arxiv url: http://arxiv.org/abs/2501.01216v6
- Date: Fri, 16 May 2025 11:34:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:11.863858
- Title: TabTreeFormer: Tabular Data Generation Using Hybrid Tree-Transformer
- Title(参考訳): TabTreeFormer:ハイブリッドツリー変換器を用いた語彙データ生成
- Authors: Jiayu Li, Bingyin Zhao, Zilong Zhao, Uzair Javaid, Kevin Yee, Biplab Sikdar,
- Abstract要約: TabTreeFormerは、ツリーベースのモデルの帰納バイアスを統合するハイブリッドトランスフォーマーアーキテクチャである。
TabTreeFormerは、実用性、忠実性、プライバシの指標を競争効率で一貫して上回ります。
- 参考スコア(独自算出の注目度): 14.330758748478281
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers have shown impressive results in tabular data generation. However, they lack domain-specific inductive biases which are critical for preserving the intrinsic characteristics of tabular data. They also suffer from poor scalability and efficiency due to quadratic computational complexity. In this paper, we propose TabTreeFormer, a hybrid transformer architecture that integrates inductive biases of tree-based models (i.e., non-smoothness and non-rotational invariance) to effectively handle the discrete and weakly correlated features in tabular datasets. To improve numerical fidelity and capture multimodal distributions, we introduce a novel tokenizer that learns token sequences based on the complexity of tabular values. This reduces vocabulary size and sequence length, yielding more compact and efficient representations without sacrificing performance. We evaluate TabTreeFormer on nine diverse datasets, benchmarking against eight generative models. We show that TabTreeFormer consistently outperforms baselines in utility, fidelity, and privacy metrics with competitive efficiency. Notably, in scenarios prioritizing data utility over privacy and efficiency, the best variant of TabTreeFormer delivers a 44% performance gain relative to its baseline variant.
- Abstract(参考訳): 変換器は、表形式のデータ生成において印象的な結果を示している。
しかし、それらは表データの本質的な特徴を保存するのに重要なドメイン固有の帰納バイアスを欠いている。
また、2次計算の複雑さによりスケーラビリティと効率性が低下する。
本稿では,木質モデルの帰納バイアス(非滑らか性,非回転不変性)を統合するハイブリッドトランスフォーマーアーキテクチャTabTreeFormerを提案する。
数値忠実度を向上し,マルチモーダル分布を捉えるために,表値の複雑さに基づいてトークン列を学習する新しいトークン化器を導入する。
これにより語彙サイズとシーケンス長が減少し、性能を犠牲にすることなくよりコンパクトで効率的な表現が得られる。
我々はTabTreeFormerを9つの多様なデータセットで評価し、8つの生成モデルに対してベンチマークを行った。
TabTreeFormerは、実用性、忠実性、プライバシの指標を競争効率で一貫して上回ります。
特に、プライバシと効率性よりもデータユーティリティを優先するシナリオでは、TabTreeFormerの最良の変種は、ベースラインの変種と比較して44%のパフォーマンス向上を提供する。
関連論文リスト
- TabRep: Training Tabular Diffusion Models with a Simple and Effective Continuous Representation [16.907006955584343]
拡散モデルはデータ生成の主要な生成モデルである。
統一された連続表現で訓練されたトレーニングアーキテクチャであるTabRepを紹介する。
この結果から,TabRepは幅広い評価スイートにおいて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-04-07T07:44:27Z) - Efficient Autoregressive Shape Generation via Octree-Based Adaptive Tokenization [68.07464514094299]
既存の方法では、すべての形状を固定サイズのトークンにエンコードし、3Dデータにまたがるスケールと複雑さの固有のバリエーションを無視している。
形状の複雑さに応じて潜在表現の次元を調節する新しいフレームワークであるOctoreeをベースとした適応トークン化を提案する。
当社の手法では,同等の視覚的品質を維持しながら,固定サイズの手法に比べてトークン数を50%削減する。
論文 参考訳(メタデータ) (2025-04-03T17:57:52Z) - CtrTab: Tabular Data Synthesis with High-Dimensional and Limited Data [16.166752861658953]
データ次元が大きくなると、既存のモデルは縮退する傾向があり、単純な非拡散モデルよりもさらに悪いパフォーマンスを示す可能性がある。
これは、高次元空間における限られたトレーニングサンプルが、しばしば生成モデルが分布を正確に捉えることを妨げているためである。
我々は,高次元,低データシナリオにおける拡散型生成モデルの性能向上のために,CtrTabを提案する。
論文 参考訳(メタデータ) (2025-03-09T05:01:56Z) - A Closer Look at TabPFN v2: Strength, Limitation, and Extension [51.08999772842298]
Tabular Prior-data Fitted Network v2 (TabPFN v2)は、複数のデータセットにまたがる前例のないコンテキスト内学習の精度を達成する。
本稿では,300以上のデータセット上でTabPFN v2を評価し,中小規模タスクにおける例外的な一般化機能を確認する。
論文 参考訳(メタデータ) (2025-02-24T17:38:42Z) - Structural Entropy Guided Probabilistic Coding [52.01765333755793]
構造エントロピー誘導型確率的符号化モデルSEPCを提案する。
我々は、構造エントロピー正規化損失を提案することにより、潜在変数間の関係を最適化に組み込む。
分類タスクと回帰タスクの両方を含む12の自然言語理解タスクに対する実験結果は、SEPCの優れた性能を示す。
論文 参考訳(メタデータ) (2024-12-12T00:37:53Z) - Diffusion-nested Auto-Regressive Synthesis of Heterogeneous Tabular Data [56.48119008663155]
本稿では,これらの問題に対処する拡散型自己回帰モデル(TabDAR)を提案する。
異なる特性を持つ10のデータセットに対して広範な実験を行い、提案したTabDARは3つの異なる側面にわたる8つの指標に対して、従来の最先端手法を18%から45%上回っている。
論文 参考訳(メタデータ) (2024-10-28T20:49:26Z) - TabDiff: a Multi-Modal Diffusion Model for Tabular Data Generation [91.50296404732902]
1つのモデルで表データのマルチモーダル分布をモデル化する共同拡散フレームワークであるTabDiffを紹介する。
我々の重要な革新は、数値データと分類データのための連立連続時間拡散プロセスの開発である。
TabDiffは、既存の競合ベースラインよりも優れた平均性能を実現し、ペアワイドカラム相関推定における最先端モデルよりも最大で22.5%改善されている。
論文 参考訳(メタデータ) (2024-10-27T22:58:47Z) - A Survey on Deep Tabular Learning [0.0]
タブラルデータは、その不均一な性質と空間構造が欠如していることから、深層学習の独特な課題を提示する。
本調査では,早期完全接続ネットワーク(FCN)から,TabNet,SAINT,TabTranSELU,MambaNetといった先進アーキテクチャに至るまで,タブラルデータのディープラーニングモデルの進化を概観する。
論文 参考訳(メタデータ) (2024-10-15T20:08:08Z) - Unmasking Trees for Tabular Data [0.0]
勾配型決定木を用いた表計算(および生成)の簡易な方法であるUnmaskingTreesを提案する。
条件生成サブプロブレムを解決するために,木分類器のバランス木に適合するBaltoBotを提案する。
従来の方法とは異なり、条件分布のパラメトリックな仮定は必要とせず、多重モーダル分布を持つ特徴を収容する。
我々はついに2つのアプローチをメタアルゴリズムとみなし、TabPFNを用いた文脈内学習に基づく生成モデリングを実証した。
論文 参考訳(メタデータ) (2024-07-08T04:15:43Z) - An improved tabular data generator with VAE-GMM integration [9.4491536689161]
本稿では,現在のアプローチの限界に対処する新しい変分オートエンコーダ(VAE)モデルを提案する。
本手法は,TVAEモデルにインスパイアされたベイジアン・ガウス混合モデル(BGM)をVAEアーキテクチャに組み込む。
我々は,2つの医療関連データセットを含む混合データ型を持つ実世界の3つのデータセットに対して,我々のモデルを徹底的に検証する。
論文 参考訳(メタデータ) (2024-04-12T12:31:06Z) - Making Pre-trained Language Models Great on Tabular Prediction [50.70574370855663]
ディープニューラルネットワーク(DNN)の転送性は、画像および言語処理において著しく進歩している。
本稿では,表型データ予測のための訓練済みLMであるTP-BERTaを提案する。
新たな相対等級トークン化では、スカラー数値の特徴値を細分化した高次元トークンに変換し、特徴値と対応する特徴名を統合する。
論文 参考訳(メタデータ) (2024-03-04T08:38:56Z) - In-Context Data Distillation with TabPFN [11.553950697974825]
In-context data distillation (ICD) は、TabPFNのコンテキストを最適化することでこれらの制約を効果的に除去する新しい手法である。
ICDにより、TabPFNは固定メモリ予算ではるかに大きなデータセットを処理でき、TabPFNの二次メモリの複雑さは向上するが、多くのチューニングステップのコストがかかる。
論文 参考訳(メタデータ) (2024-02-10T15:23:45Z) - Efficient Nonparametric Tensor Decomposition for Binary and Count Data [27.02813234958821]
本稿では、二分数テンソルと数テンソルのアンダーラインデコンポジションとして、アンダーライン効率のアンダーラインNonアンダーラインテンソルであるENTEDを提案する。
論文 参考訳(メタデータ) (2024-01-15T14:27:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。