論文の概要: TabularMath: Evaluating Computational Extrapolation in Tabular Learning via Program-Verified Synthesis
- arxiv url: http://arxiv.org/abs/2602.02523v1
- Date: Sun, 25 Jan 2026 23:44:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:14.898295
- Title: TabularMath: Evaluating Computational Extrapolation in Tabular Learning via Program-Verified Synthesis
- Title(参考訳): TabularMath:プログラム検証合成によるタブラリラーニングにおける計算外挿の評価
- Authors: Zerui Cheng, Jiashuo Liu, Jianzhu Yao, Pramod Viswanath, Ge Zhang, Wenhao Huang,
- Abstract要約: 8KとAIMEに基づく検証プログラムから生成される114個の決定論的問題(233,472行)の診断ベンチマークであるTabularMathを提案する。
標準回帰指標では、TabPFN v2.5は、分布シフト下においてもR2=0.998の分布を達成し、正のR2を維持することができる。
丸みを帯びた一貫性(正確には整数の精度)を測定すると、別の図が現れる。 TabPFN v2.5は配布外データで10%以下に低下し、ICLは約40%を維持します。
- 参考スコア(独自算出の注目度): 22.883505574924303
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Standard tabular benchmarks mainly focus on the evaluation of a model's capability to interpolate values inside a data manifold, where models good at performing local statistical smoothing are rewarded. However, there exists a very large category of high-value tabular data, including financial modeling and physical simulations, which are generated based upon deterministic computational processes, as opposed to stochastic and noisy relationships. Therefore, we investigate if tabular models can provide an extension from statistical interpolation to computational extrapolation. We propose TabularMath, a diagnostic benchmark of 114 deterministic problems (233,472 rows) generated from verified programs based on GSM8K and AIME. We evaluate 9 tabular architectures and in-context learning (ICL) with GPT-OSS-120B. On standard regression metrics, TabPFN v2.5 performs remarkably well, achieving R^2=0.998 in-distribution and maintaining positive R^2 even under distribution shift, which is unique among the tabular models we tested. When we measure rounded consistency (exact integer match), a different picture emerges: TabPFN v2.5 drops below 10% on out-of-distribution data, while ICL maintains around 40%. This gap between R^2 and exact-match accuracy suggests that tabular models learn smooth function approximations but struggle to recover precise computational outputs under extrapolation. The two paradigms appear complementary: TabPFN scales efficiently with data; ICL achieves exact computation from few examples. We release all code and data to support further investigation.
- Abstract(参考訳): 標準的な表型ベンチマークは主に、局所的な統計スムーシングを行うのに優れたモデルが報酬を受けるデータ多様体内の値を補間するモデルの能力の評価に焦点を当てている。
しかし、金融モデリングや物理シミュレーションなど、確率的および雑音的関係とは対照的に、決定論的計算プロセスに基づいて生成される非常に大きなグラフデータカテゴリが存在する。
そこで本研究では,統計補間から計算外挿への拡張を表わすことができるか検討する。
GSM8KとAIMEに基づく検証プログラムから生成される114の決定論的問題(233,472行)の診断ベンチマークであるTabularMathを提案する。
GPT-OSS-120Bを用いて9つの表型アーキテクチャとICL(In-context Learning)を評価した。
標準回帰指標では,TabPFN v2.5 は,分布シフト下においても R^2=0.998 の分布を達成し,正の R^2 を維持した。
TabPFN v2.5は配布外データで10%以下に低下し、ICLは約40%を維持します。
このR^2と正確なマッチング精度の差は、表型モデルは滑らかな関数近似を学習するが、外挿の下で正確な計算出力を回復するのに苦労していることを示している。
TabPFNはデータと効率的にスケールし、ICLはいくつかの例から正確な計算を行う。
さらなる調査を支援するため、すべてのコードとデータを公開しています。
関連論文リスト
- TabPFN: One Model to Rule Them All? [21.658323618943697]
統計利用者に対して,TabPFNがどのように機能するかを整理した説明を提供する。
本稿では,TabPFNのアウト・オブ・ザ・ボックス適用が,最先端の特殊な手法よりもはるかに優れていることを示す。
論文 参考訳(メタデータ) (2025-05-26T13:55:29Z) - TabICL: A Tabular Foundation Model for In-Context Learning on Large Data [15.08819125687632]
最大60Kサンプルの合成データセットを事前学習した表層ベースモデルであるTabICLを導入する。
TALENTベンチマークから200を越える分類データセットのうち、TabICLはTabPFNv2と同等であり、体系的に高速(最大10倍)である。
10K以上のサンプルを持つ53のデータセットで、TabICLはTabPFNv2とCatBoostを上回り、大規模データに対するICLの可能性を示している。
論文 参考訳(メタデータ) (2025-02-08T13:25:04Z) - Drift-Resilient TabPFN: In-Context Learning Temporal Distribution Shifts on Tabular Data [39.40116554523575]
In-Context Learning with a Prior-Data Fitted Network に基づく新しいアプローチである Drift-Resilient TabPFN を提案する。
先行した合成データセットのベイズ推定を近似することを学ぶ。
精度は0.688から0.744に向上し、OC AUCは0.786から0.832に向上し、キャリブレーションも強化された。
論文 参考訳(メタデータ) (2024-11-15T23:49:23Z) - TabDiff: a Mixed-type Diffusion Model for Tabular Data Generation [91.50296404732902]
グラフデータの混合型分布を1つのモデルでモデル化する共同拡散フレームワークであるTabDiffを紹介する。
我々の重要な革新は、数値データと分類データのための連立連続時間拡散プロセスの開発である。
TabDiffは、既存の競合ベースラインよりも優れた平均性能を実現し、ペアワイドカラム相関推定における最先端モデルよりも最大で22.5%改善されている。
論文 参考訳(メタデータ) (2024-10-27T22:58:47Z) - TabDPT: Scaling Tabular Foundation Models on Real Data [20.00390825519329]
ICLに基づく検索と自己教師付き学習を組み合わせた基礎モデルの学習手法を提案する。
事前学習フェーズに実際のデータを組み込むことで、学習が大幅に速くなり、見当たらないデータへの一般化が向上することを示す。
得られたモデルであるTabDPTは回帰 (CTR23) と分類 (CC18) のベンチマークで最高の性能を達成する。
論文 参考訳(メタデータ) (2024-10-23T18:00:00Z) - Large Scale Transfer Learning for Tabular Data via Language Modeling [30.44823668480631]
グラフ予測のための言語モデルであるTabuLa-8Bを提案する。
4百万を超えるユニークなテーブルから210億行を超えるデータセットを使用します。
その結果,TabuLa-8Bはランダムな推測よりも15ポイント以上高い未確認のテーブル上でゼロショット精度を持つことがわかった。
論文 参考訳(メタデータ) (2024-06-17T18:58:20Z) - Iterative Methods for Full-Scale Gaussian Process Approximations for Large Spatial Data [6.550684951976902]
実規模近似(FSAs)を用いた確率,勾配,予測分布の計算における計算コストの削減に,反復的手法がいかに有効かを示す。
我々は,新しいプレコンディショナーを導入し,共役勾配法の収束速度を加速し,FSAパラメータに対する感度を緩和することを示す。
我々の実験では、Vecchia近似に対する既存の最先端プリコンディショナーよりも優れています。
論文 参考訳(メタデータ) (2024-05-23T12:25:22Z) - Computational-Statistical Gaps in Gaussian Single-Index Models [77.1473134227844]
単次元モデル(Single-Index Models)は、植木構造における高次元回帰問題である。
我々は,統計的クエリ (SQ) と低遅延多項式 (LDP) フレームワークの両方において,計算効率のよいアルゴリズムが必ずしも$Omega(dkstar/2)$サンプルを必要とすることを示した。
論文 参考訳(メタデータ) (2024-03-08T18:50:19Z) - On the Performance of Empirical Risk Minimization with Smoothed Data [59.3428024282545]
経験的リスク最小化(Empirical Risk Minimization、ERM)は、クラスがiidデータで学習可能であれば、サブ線形誤差を達成できる。
We show that ERM can able to achieve sublinear error when a class are learnable with iid data。
論文 参考訳(メタデータ) (2024-02-22T21:55:41Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Learning Summary Statistics for Bayesian Inference with Autoencoders [58.720142291102135]
我々は,ディープニューラルネットワークに基づくオートエンコーダの内部次元を要約統計として利用する。
パラメータ関連情報を全て符号化するエンコーダのインセンティブを作成するため,トレーニングデータの生成に使用した暗黙的情報にデコーダがアクセスできるようにする。
論文 参考訳(メタデータ) (2022-01-28T12:00:31Z) - Scaling Structured Inference with Randomization [64.18063627155128]
本稿では、構造化されたモデルを数万の潜在状態に拡張するためにランダム化された動的プログラミング(RDP)のファミリを提案する。
我々の手法は古典的DPベースの推論に広く適用できる。
また、自動微分とも互換性があり、ニューラルネットワークとシームレスに統合できる。
論文 参考訳(メタデータ) (2021-12-07T11:26:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。