論文の概要: Distributional Regression with Tabular Foundation Models: Evaluating Probabilistic Predictions via Proper Scoring Rules
- arxiv url: http://arxiv.org/abs/2603.08206v3
- Date: Mon, 16 Mar 2026 14:03:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 18:28:57.489291
- Title: Distributional Regression with Tabular Foundation Models: Evaluating Probabilistic Predictions via Proper Scoring Rules
- Title(参考訳): タブラル基礎モデルによる分布回帰:適切なスコーリング規則による確率的予測の評価
- Authors: Jonas Landsgesell, Pascal Knoll,
- Abstract要約: 適切なスコアリングルールは、トレーニング中に異なるモデルランキングと異なる帰納バイアスを誘導することを示す。
事前トレーニング中に見えないスコアルールを持つ微調整の realTabPFNv2.5 は、対応するメトリクスに対して一貫した改善をもたらす。
- 参考スコア(独自算出の注目度): 0.7009487789080344
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tabular foundation models such as TabPFN and TabICL already produce full predictive distributions, yet the benchmarks used to evaluate them (TabArena, TALENT, and others) still rely almost exclusively on point-estimate metrics (RMSE, $R^2$). This mismatch implicitly rewards models that elicit a good conditional mean while ignoring the quality of the predicted distribution. We make two contributions. First, we propose supplementing standard point metrics with proper scoring rules (CRPS, CRLS, and the Interval Score) and provide a head-to-head comparison of realTabPFNv2.5 and TabICLv2 with regards to some proper scoring rules across 20 OpenML regression datasets. Second, we show analytically and empirically that different proper scoring rules induce different model rankings and different inductive biases during training, even though each rule is individually minimized by the true distribution. Fine-tuning realTabPFNv2.5 with scoring rules not seen during pretraining (CRLS, $β=1.8$ energy score) yields consistent improvements on the corresponding metrics, confirming that the training loss shapes the model beyond what propriety alone guarantees. Together, these findings argue for (i) reporting distributional metrics in tabular regression benchmarks and (ii) making the training objective of foundation models adaptable (via fine-tuning or task-token conditioning) to the scoring rule relevant to the downstream decision problem.
- Abstract(参考訳): TabPFN(英語版)やTabICL(英語版)のようなタブラル基礎モデルは、既に完全な予測分布を生成するが、評価に使われたベンチマーク(TabArena(英語版)、TALENT(英語版)など)は、依然としてほとんどポイント推定指標(RMSE、$R^2$)に依存している。
このミスマッチは、予測された分布の品質を無視しながら、良い条件平均を導き出すモデルに暗黙的に報いる。
私たちは2つの貢献をします。
まず、適切なスコアリングルール(CRPS、CRLS、Interval Score)を付した標準点測度を補足し、20個のOpenML回帰データセットにまたがる適切なスコアリングルールに関して、realTabPFNv2.5とTabICLv2のヘッド・ツー・ヘッド比較を行う。
第2に、各ルールが真の分布によって個々に最小化されているにもかかわらず、異なる適切なスコアリングルールが訓練中に異なるモデルランキングと異なる帰納バイアスを誘導することを示す。
事前トレーニング(CRLS, $β=1.8$ Energy score)中に見えないスコアルールを持つ微調整された realTabPFNv2.5 は、対応するメトリクスに対して一貫した改善をもたらし、トレーニング損失が、プロパティのみが保証する範囲を超えてモデルを形作ることを確認した。
これらの発見は共に主張する。
一 表式回帰ベンチマークにおける分布指標の報告及び
二 下流決定問題に係るスコアリングルールに基礎モデルのトレーニング目標を(微調整又はタスクトーケン条件付きにより)適合させる。
関連論文リスト
- Uncertainty Quantification for Regression using Proper Scoring Rules [76.24649098854219]
CRPS,対数,2乗誤差,2次スコアなど,適切なスコアリングルールに基づく回帰のための統一的UQフレームワークを提案する。
実測パラメトリックな仮定に基づく不確実性尺度に対する閉形式式を導出し、モデルのアンサンブルを用いてそれらを推定する方法を示す。
合成および実世界の回帰データセットに対する広範な評価は、信頼性の高いUQ尺度を選択するためのガイダンスを提供する。
論文 参考訳(メタデータ) (2025-09-30T17:52:12Z) - TabResFlow: A Normalizing Spline Flow Model for Probabilistic Univariate Tabular Regression [10.521468881948008]
単変量表回帰に特化して設計された正規化スプラインフローモデルであるTabResFlowを紹介する。
我々は、9つの公開ベンチマークデータセット上でTabResFlowを評価し、確率スコアの既存の確率回帰モデルを一貫して上回っていることを示した。
また,現実の自動車価格予測タスクにおけるTabResFlowの実用性についても,選択的回帰の下で検証した。
論文 参考訳(メタデータ) (2025-08-23T15:09:02Z) - How Benchmark Prediction from Fewer Data Misses the Mark [18.693874781163657]
ベンチマーク予測は、評価ポイントの小さなサブセットを選択し、そのサブセットからベンチマーク全体のパフォーマンスを予測することを目的としている。
本論文では,19種類のベンチマークにおいて,11種類のベンチマーク予測手法の長所と短所を体系的に評価する。
論文 参考訳(メタデータ) (2025-06-09T11:50:41Z) - Self-Boost via Optimal Retraining: An Analysis via Approximate Message Passing [58.52119063742121]
独自の予測と潜在的にノイズの多いラベルを使ってモデルをトレーニングすることは、モデルパフォーマンスを改善するためのよく知られた戦略である。
本稿では,モデルの予測と提供ラベルを最適に組み合わせる方法について論じる。
我々の主な貢献は、現在のモデルの予測と与えられたラベルを組み合わせたベイズ最適集約関数の導出である。
論文 参考訳(メタデータ) (2025-05-21T07:16:44Z) - A Probabilistic Perspective on Unlearning and Alignment for Large Language Models [48.96686419141881]
大規模言語モデル(LLM)のための最初の形式的確率的評価フレームワークを紹介する。
すなわち,モデルの出力分布に関する確率保証の高い新しい指標を提案する。
私たちのメトリクスはアプリケーションに依存しないので、デプロイ前にモデル機能についてより信頼性の高い見積を行うことができます。
論文 参考訳(メタデータ) (2024-10-04T15:44:23Z) - A Backdoor-based Explainable AI Benchmark for High Fidelity Evaluation of Attributions [60.06461883533697]
まず、属性手法の信頼性ベンチマークが満たすであろう信頼度基準のセットを同定する。
次に、望ましい忠実度基準に準拠したBackdoorベースのeXplainable AIベンチマーク(BackX)を紹介します。
我々の分析はまた、属性を利用して神経トロイの木馬を守るための洞察を提供する。
論文 参考訳(メタデータ) (2024-05-02T13:48:37Z) - Regression Trees for Fast and Adaptive Prediction Intervals [2.6763498831034043]
本稿では,局所的なカバレッジ保証を伴う回帰問題に対して,予測間隔を調整するための一連の手法を提案する。
回帰木とランダムフォレストを適合度スコアでトレーニングすることで分割を作成する。
提案手法は多種多様な適合性スコアや予測設定に適用できるため,多種多様である。
論文 参考訳(メタデータ) (2024-02-12T01:17:09Z) - Learning to Estimate Without Bias [57.82628598276623]
ガウスの定理は、重み付き最小二乗推定器は線形モデルにおける線形最小分散アンバイアスド推定(MVUE)であると述べている。
本稿では、バイアス制約のあるディープラーニングを用いて、この結果を非線形設定に拡張する第一歩を踏み出す。
BCEの第二の動機は、同じ未知の複数の推定値が平均化されてパフォーマンスが向上するアプリケーションにおいてである。
論文 参考訳(メタデータ) (2021-10-24T10:23:51Z) - Learning Probabilistic Ordinal Embeddings for Uncertainty-Aware
Regression [91.3373131262391]
不確かさが唯一の確実性である。
伝統的に、直接回帰定式化を考慮し、ある確率分布の族に出力空間を変更することによって不確実性をモデル化する。
現在のレグレッション技術における不確実性をモデル化する方法は、未解決の問題である。
論文 参考訳(メタデータ) (2021-03-25T06:56:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。