論文の概要: High Performance, Low Reliability: Uncertainty Benchmarking for Tabular Foundation Models
- arxiv url: http://arxiv.org/abs/2605.28554v1
- Date: Wed, 27 May 2026 14:45:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:56.126654
- Title: High Performance, Low Reliability: Uncertainty Benchmarking for Tabular Foundation Models
- Title(参考訳): 高性能で信頼性の低いタブラル基礎モデルの不確実性ベンチマーク
- Authors: José Lucas De Melo Costa, Fabrice Popineau, Arpad Rimmel, Bich-Liên Doan,
- Abstract要約: 最近のTarbular Foundation Models (TFMs) は最先端の予測性能を示し、しばしばGBDT(Gradient-Boosted Decision Trees)を上回っている。
TFM,GBDT,および古典的ベースラインをTALENTベンチマークの112データセットで比較し,このギャップについて検討した。
TFMは高い予測性能を示したが, コンフォメーション予測では条件付きカバレッジが低かった。
- 参考スコア(独自算出の注目度): 6.212269948361801
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent Tabular Foundation Models (TFMs) have demonstrated state-of-the-art predictive performance, often surpassing Gradient-Boosted Decision Trees (GBDTs). However, the trustworthiness of these models, particularly their uncertainty quantification, has been largely overlooked. We investigate this gap through an extensive study comparing TFMs, GBDTs, and classical baselines on the 112 datasets of the TALENT benchmark. Our results reveal a performance-uncertainty trade-off: although TFMs achieve the highest predictive performance, measured by AUC, they exhibit lower conditional coverage under conformal prediction, measured by SSCS, compared to GBDTs. Complementary experiments on synthetic datasets further characterize the regimes in which this effect intensifies. We conclude that while TFMs advance predictive frontiers, achieving well-calibrated uncertainty remains a major open challenge for their reliable adoption. Code is available at: https://github.com/jose-melo/high-performance-low-reliability
- Abstract(参考訳): 最近のTarbular Foundation Models (TFMs) は最先端の予測性能を示し、しばしばGBDT(Gradient-Boosted Decision Trees)を上回っている。
しかし、これらのモデルの信頼性、特に不確実な定量化は概ね見過ごされている。
TFM,GBDT,および古典的ベースラインをTALENTベンチマークの112データセットで比較し,このギャップについて検討した。
以上の結果より, TFM は AUC が測定した予測性能が最も高いが, SSCS が測定したコンフォメーション予測では GBDT よりも低い条件カバレッジを示した。
合成データセットに関する補完的な実験は、この効果が強化される体制をさらに特徴づける。
TFMが先進的な予測フロンティアを推し進める一方で、十分に校正された不確実性を達成することは、信頼性の高い採用にとって大きな課題である、と結論付けている。
コードは以下の通り。 https://github.com/jose-melo/high- Performance-low-reliability
関連論文リスト
- LiveFMBench: Unveiling the Power and Limits of Agentic Workflows in Specification Generation [75.05397479715576]
大規模言語モデル(LLM)とエージェントは有望な進歩を示しているが、その真の能力と失敗モードは未だ不明である。
CプログラムのためのLCMおよびエージェントベースの形式仕様生成に関する、最初の体系的および汚染に配慮した研究を提案する。
論文 参考訳(メタデータ) (2026-05-02T11:31:33Z) - STAR : Bridging Statistical and Agentic Reasoning for Large Model Performance Prediction [78.0692157478247]
本稿では,知識駆動型エージェント推論を用いて,データ駆動型静的予測を橋渡しするフレームワークSTARを提案する。
STARはスコアベースとランクベースの両方の基準線を一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-02-12T16:30:07Z) - From Observations to States: Latent Time Series Forecasting [65.98504021691666]
本稿では,TSFを観測回帰から潜時予測に移行する新しいパラダイムであるLatent Time Series Forecasting(LatentTSF)を提案する。
具体的には、LatentTSFはAutoEncoderを使用して、各段階での観測結果を高次元の潜在状態空間に投影する。
提案する潜伏目標は,予測潜伏状態と地道状態と観測値との相互情報を暗黙的に最大化する。
論文 参考訳(メタデータ) (2026-01-30T20:39:44Z) - Causal Pre-training Under the Fairness Lens: An Empirical Study of TabPFN [3.059960033014892]
Tabular Prior-data Fitted Network (TabPFN) とその微調整版の評価を行った。
以上の結果から,TabPFNはベースラインに比べて高い予測精度を達成できるが,公平性の改善は適度で矛盾することがわかった。
以上の結果から,TabPFNの因果前訓練はアルゴリズム的公平性には不十分であることが示唆された。
論文 参考訳(メタデータ) (2026-01-25T17:17:12Z) - ProbFM: Probabilistic Time Series Foundation Model with Uncertainty Decomposition [0.12489632787815884]
Time Series Foundation Models (TSFMs) はゼロショット財務予測のための有望なアプローチとして登場した。
現在のアプローチでは、制限的な分布仮定に依存したり、異なる不確実性の源を詳述したり、原則化された校正機構が欠如している。
本稿では,Deep Evidential Regression (DER) を利用した変圧器を用いた新しい確率的フレームワーク ProbFM を提案する。
論文 参考訳(メタデータ) (2026-01-15T17:02:06Z) - KAN vs LSTM Performance in Time Series Forecasting [0.0]
本稿では,KAN(Kolmogorov-Arnold Networks)とLSTM(Long Short-Term Memory Network)を比較し,非決定論的株価データを予測する。
LSTMは、全ての試験された予測地平線に対してかなりの優位性を示す。
LSTMの実践的な財務予測への採用を支援するとともに、特化KANアーキテクチャの継続的な研究が今後の改善をもたらす可能性があることを示唆している。
論文 参考訳(メタデータ) (2025-11-23T21:09:58Z) - Reasoning or Memorization? Unreliable Results of Reinforcement Learning Due to Data Contamination [67.67725938962798]
大規模なWebスケールコーパスの事前トレーニングは、広く使用されているベンチマークでデータ汚染の影響を受けやすいQwen2.5が残る。
我々はRandomCalculationと呼ばれる任意の長さと難易度を持つ完全クリーンな算術問題を生成するジェネレータを導入する。
精度の高い報酬信号のみがベースモデルの性能境界を超える安定した改善をもたらすことを示す。
論文 参考訳(メタデータ) (2025-07-14T17:55:15Z) - DiffSTG: Probabilistic Spatio-Temporal Graph Forecasting with Denoising
Diffusion Models [53.67562579184457]
本稿では,不確実性や複雑な依存関係のモデル化が困難であることから,確率的STG予測に焦点をあてる。
本稿では,一般的な拡散モデルをSTGに一般化する最初の試みとして,DiffSTGと呼ばれる新しい非自己回帰フレームワークを提案する。
提案手法は,本質的時間学習能力STNNと拡散モデルの不確実性測定を組み合わせたものである。
論文 参考訳(メタデータ) (2023-01-31T13:42:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。