論文の概要: Mind the Gap? A Distributional Comparison of Real and Synthetic Priors for Tabular Foundation Models
- arxiv url: http://arxiv.org/abs/2605.06343v1
- Date: Thu, 07 May 2026 14:29:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.902561
- Title: Mind the Gap? A Distributional Comparison of Real and Synthetic Priors for Tabular Foundation Models
- Title(参考訳): ギャップを意識する? 語彙基礎モデルにおける実と合成の事前分布の比較
- Authors: Alex O. Davies, Telmo de Menezes e Silva Filho, Nirav Ajmeri,
- Abstract要約: タブラル基礎モデルは、ベンチマークリポジトリから収集されたキュレートデータセット、Webから大規模に収集されたテーブル、パラメトリック生成前のデータからサンプリングされた合成テーブルの3つのクラスのうちの1つで事前訓練されている。
この作業では、表層基礎モデルのトレーニングに使用される3つの標準的アーキティパルデータセットを取ります。
各コーパスは, テーブル全体, 列, 相関関係の集合的特徴を用いて特徴付け, 識別器AUCとk-NNのカバレッジ指標を用いて比較する。
我々は、TabICL合成前は実テーブルの空間の狭い領域を占めており、このミスマッチは事前の最適化によっては閉じられないことを発見した。
- 参考スコア(独自算出の注目度): 7.124188498356204
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Tabular foundation models are pre-trained on one of three classes of corpus: curated datasets drawn from benchmark repositories, tables harvested at scale from the web, or synthetic tables sampled from a parametric generative prior. Despite the centrality of pre-training data to model performance, little is known about how these corpora relate to one another in distribution, and the impact this has on downstream performance. In this work we take three canonical, archetypal datasets used to train tabular foundation models; the T4 dataset represents web-scraped corpora, the TabFM dataset curated tables from Kaggle, and the TabICL dataset as the only well-used synthetic prior with publicly available parameters. We characterise each corpus using aggregate features over whole tables, columns and correlations, and compare them using discriminator AUCs and k-NN coverage metrics. We find that the TabICL synthetic prior occupies a narrow region of the space of real tables, that this mismatch cannot be closed by optimising prior hyper-parameters across more than 86 thousand configurations, and that curated and web-scraped corpora are broadly interchangeable on a distributional level in feature space. Surprisingly, the distributional gap between synthetic pre-training data and real tables has a clearly detectable effect on performance under neither feature-based proximity measures or TabICL's own internal representations, suggesting that coverage of the real-data distribution is not the primary driver of TabICL's generalisation.
- Abstract(参考訳): タブラル基礎モデルは、ベンチマークリポジトリから収集されたキュレートデータセット、Webから大規模に収集されたテーブル、パラメトリック生成前のデータからサンプリングされた合成テーブルの3つのクラスのうちの1つで事前訓練されている。
パフォーマンスをモデル化するための事前トレーニングデータの集中性にもかかわらず、これらのコーパスが分散において相互にどのように関係し、それが下流のパフォーマンスに与える影響についてはほとんど分かっていない。
T4データセットはWebスクラッドコーパスを表すもので、KaggleのTabFMデータセットはキュレートされたテーブルであり、TabICLデータセットは一般に利用可能なパラメータを持つ唯一のよく使われる合成前のデータセットである。
各コーパスは, テーブル全体, 列, 相関関係の集合的特徴を用いて特徴付け, 識別器AUCとk-NNのカバレッジ指標を用いて比較する。
その結果,TabICL 合成は実テーブル空間の狭い領域を占有しており,86万以上の構成で事前のハイパーパラメータを最適化することで,このミスマッチをクローズすることは不可能であり,キュレートされたコーパスとウェブスクラッドコーパスは特徴空間の分布レベルで広く交換可能であることがわかった。
意外なことに、合成事前学習データと実表との分布ギャップは、特徴ベース近接測度やTabICLの内部表現のどちらにおいても明らかに検出可能であり、実データ分布のカバレッジがTabICLの一般化の主要因ではないことを示唆している。
関連論文リスト
- Noise Immunity in In-Context Tabular Learning: An Empirical Robustness Analysis of TabPFN's Attention Mechanisms [0.0]
言語基礎モデル(TFM)は、文脈内学習(ICL)を通して異種データセットを一般化する
制御された合成摂動を用いた二元分類問題に対するTabPFNとその注意機構について検討する。
我々は、注意集中度や注目度に基づく特徴ランクの指標を含む内部信号を分析する。
論文 参考訳(メタデータ) (2026-04-06T17:16:37Z) - TableNet A Large-Scale Table Dataset with LLM-Powered Autonomous [4.207642146162365]
テーブル構造認識(TSR)は、複雑なテーブルレイアウトを扱うために、大規模言語モデル(LLM)の論理的推論能力を必要とする。
複数のソースから収集・生成される新しいテーブル構造認識データセットであるTableNetデータセットを提案する。
論文 参考訳(メタデータ) (2026-02-27T02:44:38Z) - RDBLearn: Simple In-Context Prediction Over Relational Databases [21.996337463952255]
簡単なレシピを簡単なレシピでリレーショナルな予測に拡張できることを示す。
本手法は,Scikit-learn-style estimator インタフェースを備えた使いやすいツールキットである textitRDBLearn に実装する。
RelBenchと4DBInferデータセットの広範なコレクションの中で、RDBLearnは私たちが評価した最も優れた基盤モデルアプローチです。
論文 参考訳(メタデータ) (2026-02-14T09:24:04Z) - PluRel: Synthetic Data unlocks Scaling Laws for Relational Foundation Models [51.42043158297229]
マルチタブラルリレーショナルデータベースをスクラッチから合成するフレームワークであるPluelを紹介する。
ステップバイステップの方法では,(1)有向グラフのスキーマ,(2)二部グラフのテーブル間一次外部キー接続,(3)条件因果機構によるテーブル内の特徴分布をモデル化する。
論文 参考訳(メタデータ) (2026-02-03T21:35:18Z) - Mitra: Mixed Synthetic Priors for Enhancing Tabular Foundation Models [85.64873567417396]
実世界のデータに対して,その多様性,特異性,および性能のために選択された合成前駆体の硬化した混合物をトレーニングしたTFMであるMitraを紹介する。
Mitraは、TabPFNv2やTabICLのような最先端のTFMを、分類と回帰のベンチマークで一貫して上回っている。
論文 参考訳(メタデータ) (2025-10-24T07:15:06Z) - LLM-TabLogic: Preserving Inter-Column Logical Relationships in Synthetic Tabular Data via Prompt-Guided Latent Diffusion [49.898152180805454]
合成データセットはドメイン固有の論理的一貫性を維持する必要がある。
既存の生成モデルは、しばしばこれらのカラム間の関係を見落としている。
本研究では,ドメイン知識を必要とせずに列間関係を効果的に維持する手法を提案する。
論文 参考訳(メタデータ) (2025-03-04T00:47:52Z) - TabDiff: a Mixed-type Diffusion Model for Tabular Data Generation [91.50296404732902]
グラフデータの混合型分布を1つのモデルでモデル化する共同拡散フレームワークであるTabDiffを紹介する。
我々の重要な革新は、数値データと分類データのための連立連続時間拡散プロセスの開発である。
TabDiffは、既存の競合ベースラインよりも優れた平均性能を実現し、ペアワイドカラム相関推定における最先端モデルよりも最大で22.5%改善されている。
論文 参考訳(メタデータ) (2024-10-27T22:58:47Z) - Rethinking Pre-Training in Tabular Data: A Neighborhood Embedding Perspective [71.45945607871715]
メタ表現(TabPTM)を用いたタブラルデータ事前学習を提案する。
中心となる考え方は、データインスタンスを共有機能空間に埋め込むことで、各インスタンスは、近隣の固定数とそのラベルまでの距離で表現される。
101データセットの大規模な実験は、微調整の有無にかかわらず、分類タスクと回帰タスクの両方においてTabPTMの有効性を確認した。
論文 参考訳(メタデータ) (2023-10-31T18:03:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。