論文の概要: Distributional Regression with Tabular Foundation Models: Evaluating Probabilistic Predictions via Proper Scoring Rules
- arxiv url: http://arxiv.org/abs/2603.08206v1
- Date: Mon, 09 Mar 2026 10:38:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:15.797508
- Title: Distributional Regression with Tabular Foundation Models: Evaluating Probabilistic Predictions via Proper Scoring Rules
- Title(参考訳): タブラル基礎モデルによる分布回帰:適切なスコーリング規則による確率的予測の評価
- Authors: Jonas Landsgesell, Pascal Knoll,
- Abstract要約: 本稿では,分布回帰における確率的予測の妥当性を評価するための適切なスコアリングルールの適用について論じる。
そこで我々は,確率回帰のためのベンチマークにCRPS(Continuous Rank probability score)を用いることを提唱する。
- 参考スコア(独自算出の注目度): 0.7009487789080344
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prior-Data Fitted Networks (PFNs), such as TabPFN and TabICL, have revolutionized tabular deep learning by leveraging in-context learning for tabular data. These models are meant as foundation models for classification and regression settings and promise to greatly simplify deployment in practical settings because their performance is unprecedented (in terms of mean squared error or $R^2$, when measured on common benchmarks like TabArena or TALENT). However, we see an important weakness of current benchmarks for the regression setting: the current benchmarks focus on evaluating win rates and performance using metrics like (root) mean squared error or $R^2$. Therefore, these leaderboards (implicitly and explicitly) push researchers to optimize for machine learning pipelines which elicit a good mean value estimate. The main problem is that this approach only evaluates a point estimate (namely the mean estimator which is the Bayes estimator associated with the mean squared error loss). In this article we discuss the application of proper scoring rules for evaluating the goodness of probabilistic forecasts in distributional regression. We also propose to enhance common machine learning benchmarks with metrics for probabilistic regression. To improve the status quo and make the machine learning community aware of scoring rules for probabilistic regression, we advocate to use the continuous ranked probability score (CRPS) in benchmarks for probabilistic regression. However, we also illustrate that the choice of the scoring rule changes the inductive bias of the trained model. We, therefore, advocate for finetuning or promptable tabular foundation models.
- Abstract(参考訳): TabPFNやTabICLのようなPFN(Presideed Data Fitted Networks)は、コンテキスト内学習をタブデータに活用することで、表層深層学習に革命をもたらした。
これらのモデルは分類と回帰設定の基礎モデルとして意図されており、パフォーマンスが前例のない(TabArenaやTALENTのような一般的なベンチマークで測定された場合、平均2乗誤差または$R^2$)ため、実用的な設定でのデプロイメントを大幅に単純化することを約束している。
現在のベンチマークでは、(root)平均2乗誤差や$R^2$といったメトリクスを使用して、勝利率とパフォーマンスを評価することに重点を置いています。
したがって、これらのリーダーボード(シンプルかつ明示的に)は、研究者に、良い平均値推定をもたらす機械学習パイプラインに最適化するよう促す。
主な問題は、このアプローチが点推定(平均二乗誤差損失に付随するベイズ推定器である平均推定器)のみを評価することである。
本稿では,分布回帰における確率的予測の妥当性を評価するための適切なスコアリングルールの適用について論じる。
また、確率回帰のためのメトリクスを用いて、一般的な機械学習ベンチマークを強化することを提案する。
確率回帰のスコアリングルールを機械学習コミュニティに認識させるため、確率回帰のベンチマークにCRPS(Continuous Rank probability score)を用いることを提唱する。
しかし、スコアリングルールの選択は、トレーニングされたモデルの帰納バイアスを変化させることを示す。
したがって、我々は微調整または迅速な表層基礎モデルを支持する。
関連論文リスト
- Uncertainty Quantification for Regression using Proper Scoring Rules [76.24649098854219]
CRPS,対数,2乗誤差,2次スコアなど,適切なスコアリングルールに基づく回帰のための統一的UQフレームワークを提案する。
実測パラメトリックな仮定に基づく不確実性尺度に対する閉形式式を導出し、モデルのアンサンブルを用いてそれらを推定する方法を示す。
合成および実世界の回帰データセットに対する広範な評価は、信頼性の高いUQ尺度を選択するためのガイダンスを提供する。
論文 参考訳(メタデータ) (2025-09-30T17:52:12Z) - TabResFlow: A Normalizing Spline Flow Model for Probabilistic Univariate Tabular Regression [10.521468881948008]
単変量表回帰に特化して設計された正規化スプラインフローモデルであるTabResFlowを紹介する。
我々は、9つの公開ベンチマークデータセット上でTabResFlowを評価し、確率スコアの既存の確率回帰モデルを一貫して上回っていることを示した。
また,現実の自動車価格予測タスクにおけるTabResFlowの実用性についても,選択的回帰の下で検証した。
論文 参考訳(メタデータ) (2025-08-23T15:09:02Z) - How Benchmark Prediction from Fewer Data Misses the Mark [18.693874781163657]
ベンチマーク予測は、評価ポイントの小さなサブセットを選択し、そのサブセットからベンチマーク全体のパフォーマンスを予測することを目的としている。
本論文では,19種類のベンチマークにおいて,11種類のベンチマーク予測手法の長所と短所を体系的に評価する。
論文 参考訳(メタデータ) (2025-06-09T11:50:41Z) - Self-Boost via Optimal Retraining: An Analysis via Approximate Message Passing [58.52119063742121]
独自の予測と潜在的にノイズの多いラベルを使ってモデルをトレーニングすることは、モデルパフォーマンスを改善するためのよく知られた戦略である。
本稿では,モデルの予測と提供ラベルを最適に組み合わせる方法について論じる。
我々の主な貢献は、現在のモデルの予測と与えられたラベルを組み合わせたベイズ最適集約関数の導出である。
論文 参考訳(メタデータ) (2025-05-21T07:16:44Z) - A Probabilistic Perspective on Unlearning and Alignment for Large Language Models [48.96686419141881]
大規模言語モデル(LLM)のための最初の形式的確率的評価フレームワークを紹介する。
すなわち,モデルの出力分布に関する確率保証の高い新しい指標を提案する。
私たちのメトリクスはアプリケーションに依存しないので、デプロイ前にモデル機能についてより信頼性の高い見積を行うことができます。
論文 参考訳(メタデータ) (2024-10-04T15:44:23Z) - A Backdoor-based Explainable AI Benchmark for High Fidelity Evaluation of Attributions [60.06461883533697]
まず、属性手法の信頼性ベンチマークが満たすであろう信頼度基準のセットを同定する。
次に、望ましい忠実度基準に準拠したBackdoorベースのeXplainable AIベンチマーク(BackX)を紹介します。
我々の分析はまた、属性を利用して神経トロイの木馬を守るための洞察を提供する。
論文 参考訳(メタデータ) (2024-05-02T13:48:37Z) - Regression Trees for Fast and Adaptive Prediction Intervals [2.6763498831034043]
本稿では,局所的なカバレッジ保証を伴う回帰問題に対して,予測間隔を調整するための一連の手法を提案する。
回帰木とランダムフォレストを適合度スコアでトレーニングすることで分割を作成する。
提案手法は多種多様な適合性スコアや予測設定に適用できるため,多種多様である。
論文 参考訳(メタデータ) (2024-02-12T01:17:09Z) - Learning to Estimate Without Bias [57.82628598276623]
ガウスの定理は、重み付き最小二乗推定器は線形モデルにおける線形最小分散アンバイアスド推定(MVUE)であると述べている。
本稿では、バイアス制約のあるディープラーニングを用いて、この結果を非線形設定に拡張する第一歩を踏み出す。
BCEの第二の動機は、同じ未知の複数の推定値が平均化されてパフォーマンスが向上するアプリケーションにおいてである。
論文 参考訳(メタデータ) (2021-10-24T10:23:51Z) - Learning Probabilistic Ordinal Embeddings for Uncertainty-Aware
Regression [91.3373131262391]
不確かさが唯一の確実性である。
伝統的に、直接回帰定式化を考慮し、ある確率分布の族に出力空間を変更することによって不確実性をモデル化する。
現在のレグレッション技術における不確実性をモデル化する方法は、未解決の問題である。
論文 参考訳(メタデータ) (2021-03-25T06:56:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。