論文の概要: Revisiting Metafeatures to Explain Model Differences on Tabular Data
- arxiv url: http://arxiv.org/abs/2605.28418v2
- Date: Thu, 28 May 2026 09:14:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:54.851151
- Title: Revisiting Metafeatures to Explain Model Differences on Tabular Data
- Title(参考訳): メタファの再検討 : タブラルデータにおけるモデル差について
- Authors: Markus Herre, Andrej Tschalzev, Sascha Marton, Christian Bartelt,
- Abstract要約: TabArenaベンチマークの結果を用いて、データセットレベルのパフォーマンスギャップを分析し、それらをモデルに依存しないデータセット記述子に関連付ける。
ニューラルネットワーク対木間隙の場合、メタフィーチャーが偽発見制御を生き残ることはなく、一方のアソシエーションは堅牢であるが、一方のアソシエーションはLeft-one-data-out予測でテストしても一般化しない。
- 参考スコア(独自算出の注目度): 12.445205798094412
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rise of tabular foundation models alongside traditional models still performing well on many tasks, choosing the right model for a tabular dataset remains difficult. We investigate whether dataset meta-features can explain performance gaps between model families on tabular prediction tasks. Using the TabArena benchmark results, we analyze dataset-level performance gaps and relate them to model-agnostic dataset descriptors. After strict statistical tests with false discovery control, we find that (1) for neural network vs. tree gaps, no meta-feature survives false discovery control, (2) for non-foundation vs. foundation model gaps, one association is robust but does not generalize when tested in leave-one-dataset-out prediction, and (3) for TabICLv2 vs. TabPFN-2.6, one robust association also improves held-out prediction. Furthermore, we conduct a leave-one-dataset-out analysis and find that meta-feature predictors fail to improve meaningfully over a simple baseline. Overall, our results show the heterogeneity of tabular datasets and that global meta-feature approaches are not robust enough to offer explanations on the 51 TabArena datasets.
- Abstract(参考訳): 従来のモデルと並んで表層基盤モデルの台頭は多くのタスクで依然としてうまく機能しているため、表層データセットの適切なモデルを選択することは依然として困難である。
本稿では,データセットのメタ機能を用いて,表型予測タスクにおけるモデルファミリ間の性能ギャップを説明できるかどうかを検討する。
TabArenaベンチマークの結果を用いて、データセットレベルのパフォーマンスギャップを分析し、それらをモデルに依存しないデータセット記述子に関連付ける。
その結果,(1)ニューラルネットワーク対木間隙による厳密な統計的テストの後,(1)メタファは偽発見制御を継続せず,(2)基礎モデル間隙に対する非境界性については,(2)ロバストであり,(2)データアウト予測でテストした場合は一般化しない,(3)TabICLv2対TabPFN-2.6では,ロバストな関連性も,ホールドアウト予測を改善していることがわかった。
さらに,メタ機能予測器が単純なベースラインよりも有意に改善できないことを発見した。
以上の結果から,グローバルなメタ機能アプローチは51のTabArenaデータセットで説明できるほど堅牢ではないことがわかった。
関連論文リスト
- Mind the Gap? A Distributional Comparison of Real and Synthetic Priors for Tabular Foundation Models [7.124188498356204]
タブラル基礎モデルは、ベンチマークリポジトリから収集されたキュレートデータセット、Webから大規模に収集されたテーブル、パラメトリック生成前のデータからサンプリングされた合成テーブルの3つのクラスのうちの1つで事前訓練されている。
この作業では、表層基礎モデルのトレーニングに使用される3つの標準的アーキティパルデータセットを取ります。
各コーパスは, テーブル全体, 列, 相関関係の集合的特徴を用いて特徴付け, 識別器AUCとk-NNのカバレッジ指標を用いて比較する。
我々は、TabICL合成前は実テーブルの空間の狭い領域を占めており、このミスマッチは事前の最適化によっては閉じられないことを発見した。
論文 参考訳(メタデータ) (2026-05-07T14:29:31Z) - Selecting Feature Interactions for Generalized Additive Models by Distilling Foundation Models [10.044939709126007]
一般化加法モデル(GAM)は、高次効果や文脈依存効果を欠く可能性のある相互作用を選択する手順に依存することが多い。
この課題に対処するために,表層基礎モデルとポストホック蒸留法を利用したタブディスティルを提案する。
以上の結果から,TabDistillは相互作用発見,高容量モデルのブリッジ,解釈可能な付加的フレームワークのための効果的なデータ駆動型ガイドとして機能することが示唆された。
論文 参考訳(メタデータ) (2026-04-14T22:37:11Z) - OmniTabBench: Mapping the Empirical Frontiers of GBDTs, Neural Networks, and Foundation Models for Tabular Data at Scale [82.32822441887886]
私たちはこれまでで最大のベンチマークであるOmniTabBenchを紹介します。
我々は、OmniTabBench上で、すべてのモデルファミリーから最先端モデルの大規模な評価を行い、支配的な勝者がいないことを確認した。
論文 参考訳(メタデータ) (2026-04-08T08:31:43Z) - Make Still Further Progress: Chain of Thoughts for Tabular Data Leaderboard [27.224577475861214]
機械学習の基本的なデータフォーマットであるタブラルデータは、競争や現実世界のアプリケーションで主に利用されている。
本研究では,大規模言語モデルを活用したテキスト内アンサンブルフレームワークを提案する。
提案手法は,各テストインスタンスの周囲のコンテキストを,その近傍と外部モデルのプールからの予測を用いて構築する。
論文 参考訳(メタデータ) (2025-05-19T17:52:58Z) - A Closer Look at TabPFN v2: Understanding Its Strengths and Extending Its Capabilities [51.08999772842298]
Tabular Prior-data Fitted Network v2 (TabPFN v2)は、さまざまな下流データセット間で、前例のないコンテキスト内学習性能を達成する。
本研究では,TabPFN v2が属性トークンをランダムに入力しても属性関係を推測可能であることを示す。
我々はTabPFN v2の制限がテスト時間分割・コンテキスト戦略によって対処できることを実証した。
論文 参考訳(メタデータ) (2025-02-24T17:38:42Z) - Fully Test-time Adaptation for Tabular Data [48.67303250592189]
本稿では,FTTA法で予測のラベル分布を頑健に最適化できる,タブラルデータに対する完全テスト時間適応を提案する。
我々は6つのベンチマークデータセットに関する総合的な実験を行い、3つの指標を用いて評価した。
論文 参考訳(メタデータ) (2024-12-14T15:49:53Z) - Rethinking Pre-Training in Tabular Data: A Neighborhood Embedding Perspective [71.45945607871715]
メタ表現(TabPTM)を用いたタブラルデータ事前学習を提案する。
中心となる考え方は、データインスタンスを共有機能空間に埋め込むことで、各インスタンスは、近隣の固定数とそのラベルまでの距離で表現される。
101データセットの大規模な実験は、微調整の有無にかかわらず、分類タスクと回帰タスクの両方においてTabPTMの有効性を確認した。
論文 参考訳(メタデータ) (2023-10-31T18:03:54Z) - MediTab: Scaling Medical Tabular Data Predictors via Data Consolidation, Enrichment, and Refinement [44.693325083735424]
患者の健康リスク予測などの医療応用において,タブラルデータ予測が採用されている。
以前の予測子は、手動でキュレートされた小さなデータセットでトレーニングされることが多い。
論文 参考訳(メタデータ) (2023-05-20T03:37:09Z) - REaLTabFormer: Generating Realistic Relational and Tabular Data using
Transformers [0.0]
本稿では,合成データ生成モデルであるREaLTabFormer(Realistic and Tabular Transformer)を紹介する。
まず、自己回帰GPT-2モデルを用いて親テーブルを生成し、その後、シーケンス・ツー・シーケンスモデルを用いて親テーブル上で条件付けられた関係データセットを生成する。
実世界のデータセットを用いた実験では、REaLTabFormerはモデルベースラインよりもリレーショナル構造をよりよくキャプチャする。
論文 参考訳(メタデータ) (2023-02-04T00:32:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。