論文の概要: A Consequentialist Critique of Binary Classification Evaluation Practices
- arxiv url: http://arxiv.org/abs/2504.04528v1
- Date: Sun, 06 Apr 2025 15:58:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:15:42.156120
- Title: A Consequentialist Critique of Binary Classification Evaluation Practices
- Title(参考訳): バイナリ分類評価実践の連続的批判
- Authors: Gerardo Flores, Abigail Schiff, Alyssa H. Smith, Julia A Fukuyama, Ashia C. Wilson,
- Abstract要約: ICML、FAccT、CHILといった主要なカンファレンスでは、トップKメトリクスや一定のしきい値が好まれています。
我々は、この決定論的フレームワークを使用して、評価指標を最適なユースケースにマッピングし、Pythonパッケージであるbriertoolsとともに、より広範なBrierスコアの採用を促進する。
- 参考スコア(独自算出の注目度): 4.603739046972463
- License:
- Abstract: ML-supported decisions, such as ordering tests or determining preventive custody, often involve binary classification based on probabilistic forecasts. Evaluation frameworks for such forecasts typically consider whether to prioritize independent-decision metrics (e.g., Accuracy) or top-K metrics (e.g., Precision@K), and whether to focus on fixed thresholds or threshold-agnostic measures like AUC-ROC. We highlight that a consequentialist perspective, long advocated by decision theorists, should naturally favor evaluations that support independent decisions using a mixture of thresholds given their prevalence, such as Brier scores and Log loss. However, our empirical analysis reveals a strong preference for top-K metrics or fixed thresholds in evaluations at major conferences like ICML, FAccT, and CHIL. To address this gap, we use this decision-theoretic framework to map evaluation metrics to their optimal use cases, along with a Python package, briertools, to promote the broader adoption of Brier scores. In doing so, we also uncover new theoretical connections, including a reconciliation between the Brier Score and Decision Curve Analysis, which clarifies and responds to a longstanding critique by (Assel, et al. 2017) regarding the clinical utility of proper scoring rules.
- Abstract(参考訳): MLが支援するテストの発注や予防的保護の決定などの決定は、確率的予測に基づく二項分類を含むことが多い。
このような予測のための評価フレームワークは、一般的に、独立決定メトリクス(例えば、精度)やトップKメトリクス(例えば、Precision@K)の優先順位を決定するか、固定しきい値にフォーカスするか、AUC-ROCのようなしきい値に依存しない測度にフォーカスするかを検討する。
我々は、意思決定論者が長年提唱してきた連関主義的視点が、ブライアスコアやログ損失など、それらの有病率から得られる閾値の混合を用いて、独立決定を支持する評価を自然に支持すべきである、と強調する。
しかし,実験分析の結果,ICML,FAccT,CHILといった主要カンファレンスにおける評価において,上位K指標や一定の閾値を強く好んでいることが明らかとなった。
このギャップに対処するために、私たちはこの決定論的フレームワークを使用して、評価指標を最適なユースケースにマッピングし、Pythonパッケージであるbriertoolsを使って、より広範なBrierスコアの採用を促進する。
また,Brier Score と Decision Curve Analysis の整合性など新たな理論的関連性を明らかにするとともに,適切なスコアリングルールの臨床的有用性について (Assel, et al 2017) の長年にわたる批判を明確化し,回答する。
関連論文リスト
- Top-K Pairwise Ranking: Bridging the Gap Among Ranking-Based Measures for Multi-Label Classification [120.37051160567277]
本稿では,Top-K Pairwise Ranking(TKPR)という新しい尺度を提案する。
一連の分析により、TKPRは既存のランキングベースの尺度と互換性があることが示されている。
一方,データ依存縮約法という新しい手法に基づいて,提案手法の急激な一般化を確立する。
論文 参考訳(メタデータ) (2024-07-09T09:36:37Z) - Query Performance Prediction using Relevance Judgments Generated by Large Language Models [53.97064615557883]
自動生成関連判定(QPP-GenRE)を用いたQPPフレームワークを提案する。
QPP-GenREは、QPPを独立したサブタスクに分解し、ランクリスト内の各項目の関連性を所定のクエリに予測する。
これにより、生成した関連判断を擬似ラベルとして利用して、任意のIR評価尺度を予測することができる。
論文 参考訳(メタデータ) (2024-04-01T09:33:05Z) - Likelihood Ratio Confidence Sets for Sequential Decision Making [51.66638486226482]
確率に基づく推論の原理を再検討し、確率比を用いて妥当な信頼シーケンスを構築することを提案する。
本手法は, 精度の高い問題に特に適している。
提案手法は,オンライン凸最適化への接続に光を当てることにより,推定器の最適シーケンスを確実に選択する方法を示す。
論文 参考訳(メタデータ) (2023-11-08T00:10:21Z) - Orthogonal Series Estimation for the Ratio of Conditional Expectation
Functions [2.855485723554975]
本章は、条件付き期待関数(CEFR)の推定と推定のための一般的な枠組みを開発する。
本研究は,ガウスブートストラップの有効性を含むCEFRの推定と推定のためのポイントワイドおよび均一な結果を導出する。
提案手法を適用し,世帯資産に対する401(k)プログラムの因果効果を推定する。
論文 参考訳(メタデータ) (2022-12-26T13:01:17Z) - Robust Design and Evaluation of Predictive Algorithms under Unobserved Confounding [2.8498944632323755]
選択的に観測されたデータにおける予測アルゴリズムの頑健な設計と評価のための統一的なフレームワークを提案する。
我々は、選択されていないユニットと選択されたユニットの間で、平均して結果がどの程度異なるかという一般的な仮定を課す。
我々は,大規模な予測性能推定値のクラスにおける境界値に対するバイアス付き機械学習推定器を開発する。
論文 参考訳(メタデータ) (2022-12-19T20:41:44Z) - Evaluating Treatment Prioritization Rules via Rank-Weighted Average
Treatment Effects [24.258855352542096]
本稿では,治療優先化ルールの質を比較し,検証するための簡易かつ一般的な指標として,ランク重み付き平均治療効果指標を提案する。
RATEメトリクスは、優先順位付けルールの導出方法に非依存であり、治療から最も恩恵を受ける個人をどの程度正確に識別するかのみを評価する。
我々は脳卒中患者に対するアスピリンの最適標的を含む多くの応用の文脈でRATEを紹介した。
論文 参考訳(メタデータ) (2021-11-15T18:22:35Z) - Proximal Reinforcement Learning: Efficient Off-Policy Evaluation in
Partially Observed Markov Decision Processes [65.91730154730905]
医療や教育などの観察データへのオフライン強化学習の適用においては、観察された行動は観測されていない要因に影響される可能性があるという一般的な懸念がある。
ここでは、部分的に観察されたマルコフ決定過程(POMDP)における非政治評価を考慮し、この問題に取り組む。
我々は、近位因果推論の枠組みをPOMDP設定に拡張し、識別が可能となる様々な設定を提供する。
論文 参考訳(メタデータ) (2021-10-28T17:46:14Z) - Deconfounding Scores: Feature Representations for Causal Effect
Estimation with Weak Overlap [140.98628848491146]
推定対象の偏りを伴わずに高い重なりを生じさせる,デコンファウンディングスコアを導入する。
分離スコアは観測データで識別可能なゼロ共分散条件を満たすことを示す。
特に,この手法が標準正規化の魅力的な代替となることを示す。
論文 参考訳(メタデータ) (2021-04-12T18:50:11Z) - Deep ROC Analysis and AUC as Balanced Average Accuracy to Improve Model
Selection, Understanding and Interpretation [4.7096631717710045]
医療から自動運転までの意思決定には最適なパフォーマンスが欠かせません。
精度、感度、F1スコアなどの尺度は、個々の単一確率または予測リスクを反映した単一のしきい値の尺度である。
より洞察力のある分析のために,確率群や予測リスクを調査する,深層ROC解析の手法を提案する。
論文 参考訳(メタデータ) (2021-03-21T10:27:35Z) - Invariant Rationalization [84.1861516092232]
典型的な合理化基準、すなわち最大相互情報(MMI)は、合理性のみに基づいて予測性能を最大化する合理性を見つける。
ゲーム理論の不変な有理化基準を導入し、各環境において同じ予測器を最適にするために、有理を制約する。
理論的にも実証的にも、提案された理性は、素早い相関を除外し、異なるテストシナリオをより一般化し、人間の判断とよく一致させることができることを示す。
論文 参考訳(メタデータ) (2020-03-22T00:50:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。