論文の概要: Tabular Foundation Model for Generative Modelling
- arxiv url: http://arxiv.org/abs/2605.09424v1
- Date: Sun, 10 May 2026 08:52:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.243585
- Title: Tabular Foundation Model for Generative Modelling
- Title(参考訳): 生成モデルのためのタブラリ基礎モデル
- Authors: Xiangjian Jiang, Mingxuan Liu, Nikola Simidjievski, Tassilo Klein, Mateja Jamnik,
- Abstract要約: 生成モデリングは、教師付き予測対象のみを最適化するのではなく、与えられたデータモダリティに対して堅牢で全体論的表現学習を必要とする。
既存の表形式のファンデーションジェネレータは、合成データ品質において、強力なデータセット固有のジェネレータと一貫して一致していない。
事前訓練されたtextbfTabular textbffoundational textbfRepresentation for textbfGEneration 上に構築した TabFORGE を紹介する。
- 参考スコア(独自算出の注目度): 34.3599321018728
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative modelling is a demanding test of foundation models, because it requires robust, holistic representation learning for a given data modality, rather than optimisation for a supervised prediction target alone. While recent work on tabular foundation models has achieved remarkable progress in predictive modelling, generative tabular foundation models remain underexplored. Existing tabular foundation generators, in particular, have not yet consistently matched strong dataset-specific generators in synthetic data quality. A key reason is their misalignment with the distinctive causal structural prior of heterogeneous tabular data. In this paper, we address this gap by introducing a novel tabular foundation model, \textbf{TabFORGE}, built on pretrained \textbf{Tab}ular \textbf{FO}undational \textbf{R}epresentations for \textbf{GE}neration. TabFORGE is designed to utilise the implicitly learned causal information underlying diverse tabular datasets in a unified latent space induced by a pretrained causality-aware feature encoder. It further decouples latent modelling from decoding through a two-stage design: we first pretrain a score-based diffusion transformer, and then pretrain a denoising-aligned decoder using the denoised latent embeddings. This design elegantly mitigates the distribution shifts in latent embeddings that typically arise between training and inference. We evaluate TabFORGE comprehensively against 22 benchmark methods on 45 real-world datasets. Our results show that TabFORGE effectively learns and leverages generalisable tabular representations, enabling efficient generation of high-quality synthetic tabular data, particularly with strong structural fidelity.
- Abstract(参考訳): 生成モデリングは、教師付き予測対象のみを最適化するのではなく、与えられたデータモダリティに対して堅牢で全体論的表現学習を必要とするため、基礎モデルの要求のあるテストである。
表層基礎モデルに関する最近の研究は予測的モデリングにおいて顕著な進歩を遂げているが、生成的表層基礎モデルはまだ未定である。
既存の表形式の基盤ジェネレータは、合成データの品質において、強力なデータセット固有のジェネレータと一貫して一致していない。
主な理由は、不均一な表型データに先立って、特徴的な因果構造との相違である。
本稿では,事前学習した \textbf{Tab}ular \textbf{FO}undational \textbf{R}epresentation for \textbf{GE}neration 上に構築された新しい表層基盤モデルである \textbf{TabFORGE} を導入することで,このギャップに対処する。
TabFORGEは、事前訓練された因果認識機能エンコーダによって誘導される統一潜在空間において、暗黙的に学習された多様な表層データセットに基づく因果情報を活用するように設計されている。
さらに2段階の設計により、遅延モデリングを復号化から切り離し、まずスコアベースの拡散変換器を事前訓練し、次に復号化遅延埋め込みを用いて復号化整列デコーダを事前訓練する。
この設計は、通常トレーニングと推論の間に生じる潜伏埋め込みにおける分布シフトをエレガントに緩和する。
我々は,TabFORGEを実世界の45のデータセット上で22のベンチマーク手法に対して総合的に評価した。
以上の結果から,TabFORGEは汎用的な表表表現を効果的に学習し,活用し,高品質な合成表表データの効率的な生成を可能にする。
関連論文リスト
- Self-Improving Tabular Language Models via Iterative Group Alignment [76.43372236405664]
自動フィードバックによるデータ生成のための,最初の自己改善フレームワークであるTabGRAAを紹介する。
新たに生成されたサンプルを高品質なグループと低品質なグループに分割し、グループ相対的な有利な目標を優先順位付けする。
実験では、TabGRAAは、忠実さ、ユーティリティ、プライバシにおいて、既存のメソッドよりも優れています。
論文 参考訳(メタデータ) (2026-04-21T01:29:52Z) - Mitra: Mixed Synthetic Priors for Enhancing Tabular Foundation Models [85.64873567417396]
実世界のデータに対して,その多様性,特異性,および性能のために選択された合成前駆体の硬化した混合物をトレーニングしたTFMであるMitraを紹介する。
Mitraは、TabPFNv2やTabICLのような最先端のTFMを、分類と回帰のベンチマークで一貫して上回っている。
論文 参考訳(メタデータ) (2025-10-24T07:15:06Z) - TabRep: Training Tabular Diffusion Models with a Simple and Effective Continuous Representation [16.907006955584343]
拡散モデルはデータ生成の主要な生成モデルである。
統一された連続表現で訓練されたトレーニングアーキテクチャであるTabRepを紹介する。
この結果から,TabRepは幅広い評価スイートにおいて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-04-07T07:44:27Z) - A Closer Look at TabPFN v2: Understanding Its Strengths and Extending Its Capabilities [51.08999772842298]
Tabular Prior-data Fitted Network v2 (TabPFN v2)は、さまざまな下流データセット間で、前例のないコンテキスト内学習性能を達成する。
本研究では,TabPFN v2が属性トークンをランダムに入力しても属性関係を推測可能であることを示す。
我々はTabPFN v2の制限がテスト時間分割・コンテキスト戦略によって対処できることを実証した。
論文 参考訳(メタデータ) (2025-02-24T17:38:42Z) - TabDiff: a Mixed-type Diffusion Model for Tabular Data Generation [91.50296404732902]
グラフデータの混合型分布を1つのモデルでモデル化する共同拡散フレームワークであるTabDiffを紹介する。
我々の重要な革新は、数値データと分類データのための連立連続時間拡散プロセスの開発である。
TabDiffは、既存の競合ベースラインよりも優れた平均性能を実現し、ペアワイドカラム相関推定における最先端モデルよりも最大で22.5%改善されている。
論文 参考訳(メタデータ) (2024-10-27T22:58:47Z) - Disentanglement via Latent Quantization [60.37109712033694]
本研究では,組織化された潜在空間からの符号化と復号化に向けた帰納的バイアスを構築する。
本稿では,基本データレコーダ (vanilla autoencoder) と潜時再構成 (InfoGAN) 生成モデルの両方に追加することで,このアプローチの広範な適用性を実証する。
論文 参考訳(メタデータ) (2023-05-28T06:30:29Z) - Generative Table Pre-training Empowers Models for Tabular Prediction [71.76829961276032]
本稿では,テーブル事前学習を利用した最初の試みであるTapTapを提案する。
TapTapは、プライバシ保護、リソースの低さ、価値計算の欠如、不均衡な分類など、さまざまなアプリケーションをサポートするための高品質な合成テーブルを生成することができる。
LightGBM、Multilayer Perceptron (MLP)、Transformerなどのバックボーンモデルと簡単に組み合わせることができる。
論文 参考訳(メタデータ) (2023-05-16T06:37:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。