論文の概要: An Imbalance-Robust Evaluation Framework for Extreme Risk Forecasts
- arxiv url: http://arxiv.org/abs/2512.00916v1
- Date: Sun, 30 Nov 2025 14:47:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.496361
- Title: An Imbalance-Robust Evaluation Framework for Extreme Risk Forecasts
- Title(参考訳): 極度リスク予測のための不均衡ロバスト評価フレームワーク
- Authors: Sotirios D. Nikolopoulos,
- Abstract要約: イベントの頻度が低下するにつれて標準メトリクスが崩壊するため、レアイベント予測を評価することは難しい。
イベント確率がゼロに近づくと、最適なしきい値が厳密に内部に残るレアイベント安定(RES)メトリクスのファミリーを開発する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluating rare-event forecasts is challenging because standard metrics collapse as event prevalence declines. Measures such as F1-score, AUPRC, MCC, and accuracy induce degenerate thresholds -- converging to zero or one -- and their values become dominated by class imbalance rather than tail discrimination. We develop a family of rare-event-stable (RES) metrics whose optimal thresholds remain strictly interior as the event probability approaches zero, ensuring coherent decision rules under extreme rarity. Simulations spanning event probabilities from 0.01 down to one in a million show that RES metrics maintain stable thresholds, consistent model rankings, and near-complete prevalence invariance, whereas traditional metrics exhibit statistically significant threshold drift and structural collapse. A credit-default application confirms these results: RES metrics yield interpretable probability-of-default cutoffs (4-9%) and remain robust under subsampling, while classical metrics fail operationally. The RES framework provides a principled, prevalence-invariant basis for evaluating extreme-risk forecasts.
- Abstract(参考訳): 標準メトリクスは、イベントの頻度が低下するにつれて崩壊するため、レアイベント予測を評価することは難しい。
F1スコア、AUPRC、MCC、精度などの尺度は、縮退しきい値(0または1に収束する)を誘導し、その値は末尾識別よりもクラス不均衡によって支配される。
イベント確率がゼロに近づくにつれて、最適なしきい値が厳密な内部にとどまるレアイベント安定度(RES)尺度のファミリーを開発し、極端に希少な条件下での一貫性のある決定ルールを保証する。
事象確率を0.01から100万に下げるシミュレーションでは、RESメトリクスが安定したしきい値、一貫したモデルランキング、ほぼ完全な精度のばらつきを維持しているのに対し、従来のメトリクスは統計的に重要なしきい値のドリフトと構造的崩壊を示している。
RESメトリクスは解釈可能なデフォルトの確率カットオフ(4-9%)を獲得し、サブサンプリングの下では堅牢であり、古典的なメトリクスは運用に失敗する。
RESフレームワークは、極端なリスク予測を評価するための原則付き、有病率不変の基盤を提供する。
関連論文リスト
- Uncertainty Quantification for Regression using Proper Scoring Rules [76.24649098854219]
CRPS,対数,2乗誤差,2次スコアなど,適切なスコアリングルールに基づく回帰のための統一的UQフレームワークを提案する。
実測パラメトリックな仮定に基づく不確実性尺度に対する閉形式式を導出し、モデルのアンサンブルを用いてそれらを推定する方法を示す。
合成および実世界の回帰データセットに対する広範な評価は、信頼性の高いUQ尺度を選択するためのガイダンスを提供する。
論文 参考訳(メタデータ) (2025-09-30T17:52:12Z) - CCE: Confidence-Consistency Evaluation for Time Series Anomaly Detection [56.302586730134806]
本稿では,新しい評価指標である信頼性・一貫性評価(CCE)を紹介する。
CCEは同時に、予測の信頼性と不確実性を測定する。
RankEvalは、さまざまなメトリクスのランキング機能を比較するためのベンチマークです。
論文 参考訳(メタデータ) (2025-09-01T03:38:38Z) - COIN: Uncertainty-Guarding Selective Question Answering for Foundation Models with Provable Risk Guarantees [51.5976496056012]
COINは、統計的に有効な閾値を校正し、質問毎に1つの生成された回答をフィルタリングする不確実性保護選択フレームワークである。
COINはキャリブレーションセット上で経験的誤差率を推定し、信頼区間法を適用して真誤差率に高い確率上界を確立する。
リスク管理におけるCOINの堅牢性,許容回答を維持するための強いテストタイムパワー,キャリブレーションデータによる予測効率を実証する。
論文 参考訳(メタデータ) (2025-06-25T07:04:49Z) - Trust, or Don't Predict: Introducing the CWSA Family for Confidence-Aware Model Evaluation [0.0]
信頼性重み付き選択精度(CWSA)と正規化変種CWSA+を紹介する。
CWSAは、信頼しきい値の下で予測モデルを評価するための原則的で解釈可能な方法を提供する。
CWSAとCWSA+は、信頼度の高いテストにおいて、ニュアンスド障害モードを効果的に検出し、古典的な指標より優れていることを示す。
論文 参考訳(メタデータ) (2025-05-24T10:07:48Z) - SConU: Selective Conformal Uncertainty in Large Language Models [59.25881667640868]
SconU(Selective Conformal Uncertainity)と呼ばれる新しいアプローチを提案する。
我々は,特定の管理可能なリスクレベルで設定されたキャリブレーションの不確実性分布から,与えられたサンプルが逸脱するかどうかを決定するのに役立つ2つの共形p値を開発する。
我々のアプローチは、単一ドメインと学際的コンテキストの両方にわたる誤発見率の厳密な管理を促進するだけでなく、予測の効率を高める。
論文 参考訳(メタデータ) (2025-04-19T03:01:45Z) - New Statistical Framework for Extreme Error Probability in High-Stakes Domains for Reliable Machine Learning [4.14360329494344]
極端な価値理論(EVT)は、最悪のケースの失敗を推定するための厳密なアプローチを提供する統計フレームワークである。
EVTを合成および実世界のデータセットに適用することにより、破滅的故障確率のロバストな推定を可能にする。
この作業は、EVTをモデルの信頼性を評価し、新しいテクノロジにおけるより安全なAIデプロイメントを保証するための基本的なツールとして確立する。
論文 参考訳(メタデータ) (2025-03-31T16:08:11Z) - Distributionally Robust Instrumental Variables Estimation [10.765695227417865]
We show that Wasserstein DRIVE is a distributionally robust IV estimation method。
本稿では,Wasserstein DRIVEの分布を導出し,正規化パラメータを選択するためのデータ駆動方式を提案する。
論文 参考訳(メタデータ) (2024-10-21T04:33:38Z) - Probabilistic Scores of Classifiers, Calibration is not Enough [0.32985979395737786]
二項分類タスクでは、確率的予測の正確な表現が実世界の様々な応用に不可欠である。
本研究では,予測スコアと真の確率分布の一致を優先するアプローチを強調した。
その結果,従来の校正基準の限界が明らかとなり,重要な意思決定のための予測モデルの信頼性を損なう可能性が示唆された。
論文 参考訳(メタデータ) (2024-08-06T19:53:00Z) - Selective Regression Under Fairness Criteria [30.672082160544996]
少数派集団のパフォーマンスは、カバー範囲を減らしながら低下する場合もある。
満足度基準を満たす特徴を構築できれば、そのような望ましくない行動は避けられることを示す。
論文 参考訳(メタデータ) (2021-10-28T19:05:12Z) - Learning Probabilistic Ordinal Embeddings for Uncertainty-Aware
Regression [91.3373131262391]
不確かさが唯一の確実性である。
伝統的に、直接回帰定式化を考慮し、ある確率分布の族に出力空間を変更することによって不確実性をモデル化する。
現在のレグレッション技術における不確実性をモデル化する方法は、未解決の問題である。
論文 参考訳(メタデータ) (2021-03-25T06:56:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。