論文の概要: TabularMath: Evaluating Computational Extrapolation in Tabular Learning via Program-Verified Synthesis
- arxiv url: http://arxiv.org/abs/2602.02523v1
- Date: Sun, 25 Jan 2026 23:44:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:14.898295
- Title: TabularMath: Evaluating Computational Extrapolation in Tabular Learning via Program-Verified Synthesis
- Title(参考訳): TabularMath:プログラム検証合成によるタブラリラーニングにおける計算外挿の評価
- Authors: Zerui Cheng, Jiashuo Liu, Jianzhu Yao, Pramod Viswanath, Ge Zhang, Wenhao Huang,
- Abstract要約: 8KとAIMEに基づく検証プログラムから生成される114個の決定論的問題(233,472行)の診断ベンチマークであるTabularMathを提案する。
標準回帰指標では、TabPFN v2.5は、分布シフト下においてもR2=0.998の分布を達成し、正のR2を維持することができる。
丸みを帯びた一貫性(正確には整数の精度)を測定すると、別の図が現れる。 TabPFN v2.5は配布外データで10%以下に低下し、ICLは約40%を維持します。
- 参考スコア(独自算出の注目度): 22.883505574924303
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Standard tabular benchmarks mainly focus on the evaluation of a model's capability to interpolate values inside a data manifold, where models good at performing local statistical smoothing are rewarded. However, there exists a very large category of high-value tabular data, including financial modeling and physical simulations, which are generated based upon deterministic computational processes, as opposed to stochastic and noisy relationships. Therefore, we investigate if tabular models can provide an extension from statistical interpolation to computational extrapolation. We propose TabularMath, a diagnostic benchmark of 114 deterministic problems (233,472 rows) generated from verified programs based on GSM8K and AIME. We evaluate 9 tabular architectures and in-context learning (ICL) with GPT-OSS-120B. On standard regression metrics, TabPFN v2.5 performs remarkably well, achieving R^2=0.998 in-distribution and maintaining positive R^2 even under distribution shift, which is unique among the tabular models we tested. When we measure rounded consistency (exact integer match), a different picture emerges: TabPFN v2.5 drops below 10% on out-of-distribution data, while ICL maintains around 40%. This gap between R^2 and exact-match accuracy suggests that tabular models learn smooth function approximations but struggle to recover precise computational outputs under extrapolation. The two paradigms appear complementary: TabPFN scales efficiently with data; ICL achieves exact computation from few examples. We release all code and data to support further investigation.
- Abstract(参考訳): 標準的な表型ベンチマークは主に、局所的な統計スムーシングを行うのに優れたモデルが報酬を受けるデータ多様体内の値を補間するモデルの能力の評価に焦点を当てている。
しかし、金融モデリングや物理シミュレーションなど、確率的および雑音的関係とは対照的に、決定論的計算プロセスに基づいて生成される非常に大きなグラフデータカテゴリが存在する。
そこで本研究では,統計補間から計算外挿への拡張を表わすことができるか検討する。
GSM8KとAIMEに基づく検証プログラムから生成される114の決定論的問題(233,472行)の診断ベンチマークであるTabularMathを提案する。
GPT-OSS-120Bを用いて9つの表型アーキテクチャとICL(In-context Learning)を評価した。
標準回帰指標では,TabPFN v2.5 は,分布シフト下においても R^2=0.998 の分布を達成し,正の R^2 を維持した。
TabPFN v2.5は配布外データで10%以下に低下し、ICLは約40%を維持します。
このR^2と正確なマッチング精度の差は、表型モデルは滑らかな関数近似を学習するが、外挿の下で正確な計算出力を回復するのに苦労していることを示している。
TabPFNはデータと効率的にスケールし、ICLはいくつかの例から正確な計算を行う。
さらなる調査を支援するため、すべてのコードとデータを公開しています。
関連論文リスト
- TabPFN: One Model to Rule Them All? [21.658323618943697]
統計利用者に対して,TabPFNがどのように機能するかを整理した説明を提供する。
本稿では,TabPFNのアウト・オブ・ザ・ボックス適用が,最先端の特殊な手法よりもはるかに優れていることを示す。
論文 参考訳(メタデータ) (2025-05-26T13:55:29Z) - TabDiff: a Mixed-type Diffusion Model for Tabular Data Generation [91.50296404732902]
グラフデータの混合型分布を1つのモデルでモデル化する共同拡散フレームワークであるTabDiffを紹介する。
我々の重要な革新は、数値データと分類データのための連立連続時間拡散プロセスの開発である。
TabDiffは、既存の競合ベースラインよりも優れた平均性能を実現し、ペアワイドカラム相関推定における最先端モデルよりも最大で22.5%改善されている。
論文 参考訳(メタデータ) (2024-10-27T22:58:47Z) - Large Scale Transfer Learning for Tabular Data via Language Modeling [30.44823668480631]
グラフ予測のための言語モデルであるTabuLa-8Bを提案する。
4百万を超えるユニークなテーブルから210億行を超えるデータセットを使用します。
その結果,TabuLa-8Bはランダムな推測よりも15ポイント以上高い未確認のテーブル上でゼロショット精度を持つことがわかった。
論文 参考訳(メタデータ) (2024-06-17T18:58:20Z) - Iterative Methods for Full-Scale Gaussian Process Approximations for Large Spatial Data [6.550684951976902]
実規模近似(FSAs)を用いた確率,勾配,予測分布の計算における計算コストの削減に,反復的手法がいかに有効かを示す。
我々は,新しいプレコンディショナーを導入し,共役勾配法の収束速度を加速し,FSAパラメータに対する感度を緩和することを示す。
我々の実験では、Vecchia近似に対する既存の最先端プリコンディショナーよりも優れています。
論文 参考訳(メタデータ) (2024-05-23T12:25:22Z) - Computational-Statistical Gaps in Gaussian Single-Index Models [77.1473134227844]
単次元モデル(Single-Index Models)は、植木構造における高次元回帰問題である。
我々は,統計的クエリ (SQ) と低遅延多項式 (LDP) フレームワークの両方において,計算効率のよいアルゴリズムが必ずしも$Omega(dkstar/2)$サンプルを必要とすることを示した。
論文 参考訳(メタデータ) (2024-03-08T18:50:19Z) - On the Performance of Empirical Risk Minimization with Smoothed Data [59.3428024282545]
経験的リスク最小化(Empirical Risk Minimization、ERM)は、クラスがiidデータで学習可能であれば、サブ線形誤差を達成できる。
We show that ERM can able to achieve sublinear error when a class are learnable with iid data。
論文 参考訳(メタデータ) (2024-02-22T21:55:41Z) - Learning Summary Statistics for Bayesian Inference with Autoencoders [58.720142291102135]
我々は,ディープニューラルネットワークに基づくオートエンコーダの内部次元を要約統計として利用する。
パラメータ関連情報を全て符号化するエンコーダのインセンティブを作成するため,トレーニングデータの生成に使用した暗黙的情報にデコーダがアクセスできるようにする。
論文 参考訳(メタデータ) (2022-01-28T12:00:31Z) - Scaling Structured Inference with Randomization [64.18063627155128]
本稿では、構造化されたモデルを数万の潜在状態に拡張するためにランダム化された動的プログラミング(RDP)のファミリを提案する。
我々の手法は古典的DPベースの推論に広く適用できる。
また、自動微分とも互換性があり、ニューラルネットワークとシームレスに統合できる。
論文 参考訳(メタデータ) (2021-12-07T11:26:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。