論文の概要: ScoringBench: A Benchmark for Evaluating Tabular Foundation Models with Proper Scoring Rules
- arxiv url: http://arxiv.org/abs/2603.29928v1
- Date: Tue, 31 Mar 2026 16:01:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:03.782134
- Title: ScoringBench: A Benchmark for Evaluating Tabular Foundation Models with Proper Scoring Rules
- Title(参考訳): ScoringBench: 適切なスコーリングルールによるタブラルファウンデーションモデルの評価ベンチマーク
- Authors: Jonas Landsgesell, Pascal Knoll,
- Abstract要約: TabPFN(英語版)やTabICL(英語版)のようなタブラル基礎モデルは、既に完全な分布を生成しているが、回帰ベンチマーク(英語版)はRMSE R2(英語版)によってほぼ独占的に評価されている。
ScoringBenchは、CRPS CRLS Interval Score Energy Score weighted CRPSやBrier Scoreといった適切なスコアルールの総合的なスイートを標準点メトリクスとともに計算するオープンベンチマークである。
結果は、モデルランキングが選択されたスコアリングルールに依存し、単一の事前学習目標が普遍的に最適でないことを確認した。
- 参考スコア(独自算出の注目度): 0.7009487789080344
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Tabular foundation models such as TabPFN and TabICL already produce full predictive distributions yet prevailing regression benchmarks evaluate them almost exclusively via point estimate metrics RMSE R2 These aggregate measures often obscure model performance in the tails of the distribution a critical deficit for high stakes decision making in domains like finance and clinical research where asymmetric risk profiles are the norm We introduce ScoringBench an open benchmark that computes a comprehensive suite of proper scoring rules like CRPS CRLS Interval Score Energy Score weighted CRPS and Brier Score alongside standard point metrics providing a richer picture of probabilistic forecast quality We evaluate realTabPFNv2.5 fine tuned with different scoring rule objectives and TabICL relative to untuned realTabPFNv2.5 across a suite of regression benchmarks Our results confirm that model rankings depend on the chosen scoring rule and that no single pretraining objective is universally optimal This demonstrates that for applications sensitive to extreme events the choice of evaluation metric is as much a domain specific requirement as the data itself ScoringBench is available at https://github.com/jonaslandsgesell/ScoringBench A live preview of the current leaderboard is available at https://scoringbench.bolt.host The leaderboard is maintained via git pull requests to ensure transparency traceability agility and reproducibility
- Abstract(参考訳): TabPFNやTabICLのようなタブラルな基盤モデルは、まだ完全に予測的な分布をすでに生成しているが、回帰ベンチマークは、ほぼ独占的に評価されている RMSE R2 これらの総合的尺度は、しばしば、ポイント見積の指標によって評価されている RMSE R2 これらの総合的尺度は、分布の尾部において、しばしば不明瞭なパフォーマンスをモデル化する 金融や臨床研究のような、非対称なリスクプロファイルが標準である領域において、高い利害決定のための重要な欠陥をモデル化する スコリングベンチは、CRPS CRLSのような適切な評価ルールの包括的なスイートを計算するオープンベンチマークを紹介します。
関連論文リスト
- Distributional Regression with Tabular Foundation Models: Evaluating Probabilistic Predictions via Proper Scoring Rules [0.7009487789080344]
適切なスコアリングルールは、トレーニング中に異なるモデルランキングと異なる帰納バイアスを誘導することを示す。
事前トレーニング中に見えないスコアルールを持つ微調整の realTabPFNv2.5 は、対応するメトリクスに対して一貫した改善をもたらす。
論文 参考訳(メタデータ) (2026-03-09T10:38:01Z) - IF-RewardBench: Benchmarking Judge Models for Instruction-Following Evaluation [85.56193980646981]
命令追従のための総合的メタ評価ベンチマークであるIF-RewardBenchを提案する。
各命令に対して、複数の応答間の全てのペアの選好を含む選好グラフを構築する。
IF-RewardBenchの実験は、現在の審査モデルに重大な欠陥を呈している。
論文 参考訳(メタデータ) (2026-03-05T02:21:17Z) - Reference-Free Rating of LLM Responses via Latent Information [53.463883683503106]
本研究では,判断モデルに対して,自由テキスト応答にQuattスケールのスコアを割り当てるよう依頼する一般的な実践について検討する。
次に、内部モデル信号からスカラー評価を導出する潜在裁判官を提案し、評価する。
ペアとシングルレーティングのベンチマークの幅広いスイートの中で、潜在メソッドは標準のプロンプトにマッチするか、超えている。
論文 参考訳(メタデータ) (2025-09-29T12:15:52Z) - PredictaBoard: Benchmarking LLM Score Predictability [50.47497036981544]
大きな言語モデル(LLM)は予測不能に失敗することが多い。
これは、安全なデプロイメントを保証する上で、大きな課題となる。
PredictaBoardは,新しいベンチマークフレームワークである。
論文 参考訳(メタデータ) (2025-02-20T10:52:38Z) - GREAT Score: Global Robustness Evaluation of Adversarial Perturbation using Generative Models [60.48306899271866]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。
我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。
GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文 参考訳(メタデータ) (2023-04-19T14:58:27Z) - Dynaboard: An Evaluation-As-A-Service Platform for Holistic
Next-Generation Benchmarking [41.99715850562528]
ベンチマークをホスティングし、全体モデル比較を行うための評価・アズ・ア・サービスフレームワークであるDynaboardを紹介した。
我々のプラットフォームは、単一のデータセットで自己報告されたメトリクスや予測に頼るのではなく、NLPモデルを直接評価します。
論文 参考訳(メタデータ) (2021-05-21T01:17:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。