論文の概要: Can Graphs Improve Tabular Foundation Models?
- arxiv url: http://arxiv.org/abs/2512.12405v1
- Date: Sat, 13 Dec 2025 17:34:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.248181
- Title: Can Graphs Improve Tabular Foundation Models?
- Title(参考訳): グラフはタブラル基礎モデルを改善するか?
- Authors: Franck Le, Keith Grueneberg, Erich Nahum, Vadim Sheinin,
- Abstract要約: 我々は、RoBERTa-Tab(マスクトケン予測で事前訓練されたRoBERTaスタイルのバックボーン)を拡張した、軽量で静的な二部グラフヘッドBOLEROを紹介する。
TP-BERTaベンチマークスイートから,80の分類と64の回帰データセットを評価した。
BOLEROは、分類と回帰の両方で統計学的に有意な勝利を最も多く達成している。
- 参考スコア(独自算出の注目度): 0.6901411094880271
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tabular data are central to many real-world systems. While recent tabular transformers and in-context learners such as SAINT, TP-BERTa, TabPFN, TabICL, and MITRA incorporate limited inter-row reasoning, most approaches still lack an explicit mechanism to model relationships among instances, even though similar samples often share related outcomes. We investigate whether introducing \emph{simple graph priors} can enhance \emph{pretrained tabular transformers}. Concretely, we introduce {BOLERO}, a lightweight, static bipartite graph head that augments {RoBERTa-Tab} (a RoBERTa-style tabular backbone pretrained with masked-token prediction.) Each instance connects to feature/value anchors; a small GNN refines row representations, while the backbone remains frozen. We evaluate on 80 classification and 64 regression datasets from the TP-BERTa benchmark suites, comparing against strong baselines including XGBoost, CatBoost, TabPFN-v2, MITRA, TabICL, TP-BERTa, and RoBERTa-Tab. To ensure statistically sound conclusions, we follow best practices for multi-dataset evaluation: pairwise Wilcoxon signed-rank tests on per-dataset score differences and effect sizes (median improvement with confidence intervals), rather than mean-rank post-hoc tests that depend on the competitor pool. BOLERO achieves the highest number of statistically significant wins across both classification and regression, demonstrating that lightweight graph priors meaningfully improve pretrained tabular transformers.
- Abstract(参考訳): タブラルデータは、多くの現実世界システムの中心である。
SAINT、TP-BERTa、TabPFN、TabICL、MITRAといった最近の表型トランスフォーマーやインコンテキストラーナーは、行間推論を限定しているが、ほとんどのアプローチは、類似したサンプルがしばしば関連する結果を共有するにもかかわらず、インスタンス間の関係をモデル化するための明示的なメカニズムを欠いている。
本稿では, \emph{simple graph priors} を導入することで, \emph{pretrained tabular transformers} を拡張できるかどうかを検討する。
具体的には,RoBERTa-Tabを拡張した軽量で静的な2部グラフヘッドである {BOLERO}(RoBERTa-Tab)を紹介し,各インスタンスが特徴/値アンカーに接続し,小さなGNNが行表現を洗練し,バックボーンは凍結されている。
TP-BERTaベンチマークスイートから,XGBoost,CatBoost,TabPFN-v2,MITRA,TabICL,TP-BERTa,RoBERTa-Tabなどの強力なベースラインと比較して,80の分類と64の回帰データセットを評価した。
統計学的に健全な結論を得るためには、競合するプールに依存する平均的なポストホックテストよりも、データセット毎のスコア差と効果サイズ(信頼区間による中間改善)に対するウィルコクソンのサインランクテストが最適である。
BOLEROは、分類と回帰の両方で統計学的に有意な勝利を最も多く達成し、軽量グラフが事前学習された表型トランスフォーマーを有意に改善することを示した。
関連論文リスト
- Generalization Can Emerge in Tabular Foundation Models From a Single Table [38.07740881271672]
簡単な自己教師型事前学習は、単体の実テーブル上で、異種ベンチマーク間で驚くほど強力な転送を実現できることを示す。
次に、ほとんどのTFMが共有する事前学習手順に接続し、データセットから構築できるEmphtaskの数と品質が、下流のパフォーマンスの鍵であることを示します。
論文 参考訳(メタデータ) (2025-11-12T19:12:40Z) - Chunked TabPFN: Exact Training-Free In-Context Learning for Long-Context Tabular Data [2.2682391370097794]
本稿では,TabPFNフレームワーク内での注目度を計算するためのタイルブロック戦略を提案する。
この設計は標準のGPUセットアップと互換性がある。
標準TabArenaベンチマークにおいて,提案手法の有効性を示す。
論文 参考訳(メタデータ) (2025-08-30T02:57:01Z) - TabPFN: One Model to Rule Them All? [21.658323618943697]
統計利用者に対して,TabPFNがどのように機能するかを整理した説明を提供する。
本稿では,TabPFNのアウト・オブ・ザ・ボックス適用が,最先端の特殊な手法よりもはるかに優れていることを示す。
論文 参考訳(メタデータ) (2025-05-26T13:55:29Z) - A Closer Look at TabPFN v2: Understanding Its Strengths and Extending Its Capabilities [51.08999772842298]
Tabular Prior-data Fitted Network v2 (TabPFN v2)は、さまざまな下流データセット間で、前例のないコンテキスト内学習性能を達成する。
本研究では,TabPFN v2が属性トークンをランダムに入力しても属性関係を推測可能であることを示す。
我々はTabPFN v2の制限がテスト時間分割・コンテキスト戦略によって対処できることを実証した。
論文 参考訳(メタデータ) (2025-02-24T17:38:42Z) - TabDiff: a Mixed-type Diffusion Model for Tabular Data Generation [91.50296404732902]
グラフデータの混合型分布を1つのモデルでモデル化する共同拡散フレームワークであるTabDiffを紹介する。
我々の重要な革新は、数値データと分類データのための連立連続時間拡散プロセスの開発である。
TabDiffは、既存の競合ベースラインよりも優れた平均性能を実現し、ペアワイドカラム相関推定における最先端モデルよりも最大で22.5%改善されている。
論文 参考訳(メタデータ) (2024-10-27T22:58:47Z) - Rethinking Pre-Training in Tabular Data: A Neighborhood Embedding Perspective [71.45945607871715]
メタ表現(TabPTM)を用いたタブラルデータ事前学習を提案する。
中心となる考え方は、データインスタンスを共有機能空間に埋め込むことで、各インスタンスは、近隣の固定数とそのラベルまでの距離で表現される。
101データセットの大規模な実験は、微調整の有無にかかわらず、分類タスクと回帰タスクの両方においてTabPTMの有効性を確認した。
論文 参考訳(メタデータ) (2023-10-31T18:03:54Z) - Generative Table Pre-training Empowers Models for Tabular Prediction [71.76829961276032]
本稿では,テーブル事前学習を利用した最初の試みであるTapTapを提案する。
TapTapは、プライバシ保護、リソースの低さ、価値計算の欠如、不均衡な分類など、さまざまなアプリケーションをサポートするための高品質な合成テーブルを生成することができる。
LightGBM、Multilayer Perceptron (MLP)、Transformerなどのバックボーンモデルと簡単に組み合わせることができる。
論文 参考訳(メタデータ) (2023-05-16T06:37:38Z) - XTab: Cross-table Pretraining for Tabular Transformers [29.419276738753968]
XTabは、さまざまなドメインのデータセット上の表型トランスフォーマーのクロステーブル事前トレーニングのためのフレームワークである。
XTabは、複数の表型変換器の一般化性、学習速度、性能を一貫して向上させることを示す。
回帰、二分法、多クラス分類といった様々なタスクにおいて、最先端の表層深層学習モデルよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2023-05-10T12:17:52Z) - TabGNN: Multiplex Graph Neural Network for Tabular Data Prediction [43.35301059378836]
最近普及しているグラフニューラルネットワーク(GNN)に基づく新しいフレームワークTabGNNを提案する。
具体的には,まず,多面的サンプル関係をモデル化するための多重グラフを構築し,次に,各サンプルに対する拡張表現を学習するための多重グラフニューラルネットワークを設計する。
分類と回帰を含む11のTDPデータセットに対する実験は、TabGNNが一貫して性能を向上できることを示している。
論文 参考訳(メタデータ) (2021-08-20T11:51:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。