A much studied issue is the extent to which the confidence scores provided by
machine learning algorithms are calibrated to ground truth probabilities. Our
starting point is that calibration is seemingly incompatible with class
weighting, a technique often employed when one class is less common (class
imbalance) or with the hope of achieving some external objective
(cost-sensitive learning). We provide a model-based explanation for this
incompatibility and use our anthropomorphic model to generate a simple method
of recovering likelihoods from an algorithm that is miscalibrated due to class
weighting. We validate this approach in the binary pneumonia detection task of
Rajpurkar, Irvin, Zhu, et al. (2017).
Calibrating for Class Weights by Modeling Machine Learning
機械学習のモデリングによるクラスウェイト校正
0.80
Andrew Caplin
アンドリュー・カプリン
0.60
Department of Economics New York University
経済学科 ニューヨーク大学
0.63
andrew.caplin@nyu.ed u
andrew.caplin@nyu.ed u
0.29
Daniel Martin
ダニエル・マーティン
0.63
Kellogg School of Management Northwestern University
ケロッグ経営学院 ノースウェスタン大学
0.57
d-martin@kellogg.nor thwestern.edu
d-martin@kellogg.nor thwestern.edu
0.24
Philip Marx
フィリップ・マルクス
0.69
Department of Economics Louisiana State University philiplmarx@gmail.co m
ルイジアナ州立大学philiplmarx@gmail.co m
0.60
Abstract A much studied issue is the extent to which the confidence scores provided by machine learning algorithms are calibrated to ground truth probabilities.
Our starting point is that calibration is seemingly incompatible with class weighting, a technique often employed when one class is less common (class imbalance) or with the hope of achieving some external objective (cost-sensitive learning).
We provide a model-based explanation for this incompatibility and use our anthropomorphic model to generate a simple method of recovering likelihoods from an algorithm that is miscalibrated due to class weighting.
We validate this approach in the binary pneumonia detection task of Rajpurkar, Irvin, Zhu, et al (2017).
本手法はRajpurkar, Irvin, Zhu, et al (2017) の2成分性肺炎検出タスクにおいて有効である。
0.70
1 Introduction An important set of machine learning applications involve classification.
1 はじめに 機械学習の重要な応用は分類である。
0.57
In a classification task, the goal is to correctly identify a categorical label y ∈ Y = {0, . . . , n − 1} given an instance/observation x.
分類タスクにおいて、目標は、インスタンス/オブザーブレーション x が与えられた圏ラベル y ∈ y = {0, . . , n − 1} を正しく識別することである。
0.80
For example, the label y may be a medical condition, the instance x a medical image, and the prediction a recommended clinical diagnosis.
例えば、ラベルyは、医学的状態であり、例xは医学的イメージであり、予測は推奨される臨床診断である。
0.64
In addition to this prediction, machine learning classifiers typically also provide a vector of confidence scores a = (a0, ..., an−1) ∈ A ⊆ Rn that can be used to assess “confidence” in their predictions.
この予測に加えて、機械学習分類器は一般に、予測において「自信」を評価するのに使用できる、信頼スコア a = (a0, ..., an−1) ∈ A > Rn のベクトルを提供する。
0.78
A much studied issue is the extent to which these confidence scores are calibrated to ground truth probabilities.
When scores are calibrated, they represent the likelihood of each label, for instance, the probability a medical image indicates a medical condition.
スコアが校正されると、それぞれのラベルの確率を表し、例えば、医療画像が医学的状態を示す確率を表す。
0.74
Calibration has clear advantages for downstream purposes, as evidenced by the large literature devoted to its study (Platt 1999, Zadrozny and Elkan 2001, Zadrozny and Elkan 2002, Guo, Pleiss, Sun, and Weinberger 2017, Minderer et al 2021).
校正は、その研究に携わる大規模な文献(platt 1999, zadrozny and elkan 2001, zadrozny and elkan 2002, guo, pleiss, sun, and weinberger 2017, minderer et al 2021)によって証明された下流の目的に対して明確な利点を持っている。
0.80
For example, if a score indicates high uncertainty about the true label, then alternative likelihoods, such as those produced by other programs or human agents, can be used instead (Jiang, Osl, Kim, and Ohno-Machado 2012, Raghu et al 2019, Kompa, Snoek, and Beam 2021).
例えば、スコアが真のラベルについて高い不確実性を示す場合、他のプログラムや人間エージェントが生成する可能性(Jiang, Osl, Kim, Ohno-Machado 2012, Raghu et al 2019, Kompa, Snoek, Beam 2021)を使用することができる。
0.71
Also, calibrated confidence scores are valuable for human interpretability (Cosmides and Tooby 1996), which can improve decision making and trust in algorithmic predictions.
また、評価された信頼スコアは人間の解釈可能性(Cosmides and Tooby 1996)に有用であり、アルゴリズム予測における意思決定と信頼を改善することができる。
0.70
Our starting point is that calibration is seemingly incompatible with class weighting, a technique often employed when one class is less common (Thai-Nghe, Gantner, and Schmidt-
Figure 1: Calibration curves for the pneumonia detection task of Rajpurkar, Irvin, Zhu, et al (2017) for ChestX-ray14 data (Wang et al 2017) with varying class weights.
図1: クラス重量の異なるChestX-ray14データ(Wang et al 2017)に対するRajpurkar, Irvin, Zhu, et al (2017)の肺炎検出タスクの校正曲線。
0.79
Thieme 2010) or with the hope of achieving some external objective (Zadrozny, Langford, and Abe 2003).
We provide a model-based explanation for this incompatibility and use our model to generate a simple method of recovering likelihoods from an algorithm that is miscalibrated due to class weighting.
We validate this approach in the binary pneumonia detection task of Rajpurkar, Irvin, Zhu, et al (2017) and elaborate on the connections to related methods for addressing class imbalance in Section 4.
rajpurkar, irvin, zhu, et al(2017)の2次肺炎検出タスクでこのアプローチを検証し,第4節におけるクラス不均衡に対処するための関連手法との関連について詳述した。
0.68
In the anthropomorphic model that underpins our approach, we conceive of an algorithm as a decision-maker that receives informative signals, forms posterior beliefs, and reports confidence scores that minimize its loss function given its beliefs.
If the algorithm does not pass this test, it is trivially improvable.
もしアルゴリズムがこのテストに合格しなかったら、それは自明に実装可能である。
0.62
Caplin, Martin, and Marx (2022) expand on our model by assuming the algorithmic decision-maker optimally chooses what to learn (chooses what signal structure to use) based on resource constraints.
They use this expanded model to produce an Inverse Machine Learning (IML) approach in which the algorithmic decision-maker’s resource constraints are recovered.
2 Calibration and Class Weights Formally, confidence scores are calibrated if, for each potential label and observed score, the score equals the probability of the label when that score is provided: Definition 1 (Calibration).
(1) We use the binary pneumonia detection task of Rajpurkar, Irvin, Zhu, et al (2017) to illustrate the incompatibility of calibration with class weighting.
A standard log loss function for binary classification would specify losses from the positive confidence score a1 conditional on a positive label (outcome y = 1) as − log(a1) and those on a negative label (outcome y = 0) as − log(1 − a1).
1) denotes the relative weight on the positive class.
1) 正のクラスにおける相対重みを表す。
0.74
For a rare yet important event such as pneumonia, one upweights the relative importance of false negatives: the inverse class weight used in Rajpurkar, Irvin, Zhu, et al (2017) was approximately 0.99.
肺炎のような稀だが重要な出来事では、偽陰性の相対的な重要性が上昇し、ラジュプルカル、イルビン、ズー(2017年)などで使用される逆級の重みは約0.99である。 訳抜け防止モード: 肺炎のような稀だが重要な出来事は、偽陰性の相対的重要性を高揚させる :rajpurkar,irvin,zhu における逆級重み et al (2017) は約 0.99 であった。
Figure 2: Theoretical calibration curves for loss-calibrated algorithm with varying class weights.
図2:クラス重みの異なる損失補償アルゴリズムの理論的キャリブレーション曲線。
0.83
In Figure 1 we apply class weights β1 = 0.5, 0.9, 0.99 and plot decile-binned calibration curves (DeGroot and Fienberg 1983; Niculescu-Mizil and Caruana 2005).1
The horizontal axis represents the (logged) confidence score, and the vertical axis the corresponding (logged) pneumonia rate in the data.
水平軸は(ログされた)信頼スコアを表し、垂直軸はデータ中の対応する(ログされた)肺炎率を表す。
0.78
The axes are log-scaled to separate spacing between points and to ease visualization of the relationships, without altering the relationships themselves.
If an algorithm successfully minimizes losses, it must not be possible to lower losses by taking all of the instances in which the confidence score a was provided and using alternative confidence score a0 instead.
It is this property that defines an algorithm as loss-calibrated.
この性質は、アルゴリズムを損失校正として定義するものである。
0.65
To formalize this property, we denote L(a, y) as the losses for score a when the label is y and P L(a, y) as the joint probability of scores and labels when the loss function is L.2
この性質を定式化するために、ラベルが y のときのスコア a の損失として L(a, y) と、損失関数が L.2 のときのスコアとラベルの結合確率として PL(a, y) と表す。
0.77
Definition 2 (Loss-Calibration).
定義2(Loss-Calibration)。
0.40
Confidence scores are loss-calibrated to loss function L if a wholesale switching of scores does not reduce losses according to L:
One value of introducing this construct is that if an algorithm is loss-calibrated there is a straightforward theoretical prediction for the miscalibration induced a particular loss function.
By way of illustration, Figure 2 shows this theoretical relationship between scores and pneumonia rates for relative positive class weights β1 = 0.5, 0.9, 0.99.
The precise form of this function is derived in a more general setting in Proposition 2 in Section 3.
この関数の正確な形は、セクション3の命題2のより一般的な設定で導かれる。
0.72
Figure 3 superimposes Figure 1 and Figure 2 combining the actual and theoretical relationships between confidence scores and pneumonia rates.
図3は、信頼度スコアと肺炎率の実際のおよび理論的関係を組み合わせた図1と図2を重ね合わせます。
0.74
This figure strongly suggests that while the algorithm becomes increasingly miscalibrated with higher weights, it is always very close to being loss-calibrated.
simple analytic correction, the loss-corrected confidence score.
単純な分析補正、損失補正信頼スコア。
0.74
In this case of weighted binary classification with weight β1, the loss-corrected confidence score is:
重み付き二分分類と重み付きβ1の場合、損失補正信頼スコアは以下の通りである。
0.61
gβ1(a1) = (3)
gβ1(a1) = (3)
0.41
(1 − β1)a1
(1 − β1)a1
0.46
β1 + (1 − 2β1)a1
β1 + (1 − 2β1)a1
0.41
Figure 4 plots the loss-corrected confidence scores and indicates that this analytic correction successfully induces calibration.
図4は、損失補正された信頼スコアをプロットし、この分析補正が校正を成功させることを示す。
0.61
The general mapping is characterized formally in Section 3.
一般写像は第3節で正式に特徴づけられる。
0.56
We also confirm that Figure 3 and Figure 4 are intimately linked: confidence scores are loss-calibrated if and only if loss-corrected confidence scores are calibrated (Proposition 5).
3 Modeling Machine Learning An algorithm converts a set of inputs (training data, training procedure, loss function, etc.) into a scoring rule that is evaluated on a set of labeled observations.
Blackwell (1953) model of experimentation, signal processing, and choice.
Blackwell (1953) の実験、信号処理、選択のモデル。
0.70
Technically the algorithm is modeled as an optimizing agent that
技術的には、アルゴリズムは最適化エージェントとしてモデル化される。
0.57
i) gets signals that provide information about labels,
一 ラベルに関する情報を提供する信号を得る。
0.71
(ii) forms posterior beliefs about labels via Bayesian updating, and
(二)ベイズ更新によるラベルに関する後続の信条、及び
0.64
iii) converts these posteriors into reported scores.
iii)これらの後方を報告されたスコアに変換する。
0.51
Each stage may be modulated by incentives, in particular those inherent in the scoring loss function L. Technically, prior beliefs are specified by unconditional probabilities π(y) over labels y ∈ Y .
技術的には、事前の信念はラベル y ∈ Y 上の無条件確率 π(y) によって特定される。 訳抜け防止モード: 各ステージは、特にスコアリング損失関数Lに固有のインセンティブによって変調することができる。 事前の信念は、ラベル y ∈ Y 上の非条件確率 π(y) によって特定される。
0.66
Together with a finite set of possible signals S and the conditional probabilities of each signal with each label π(s|y) this defines a statistical experiment in the sense of Blackwell (1953).
可能な信号 s の有限集合と各ラベル π(s|y) を持つ各信号の条件付き確率と共に、これはブラックウェル(1953)の意味での統計実験を定義する。
0.81
Upon observing a signal s, the model posits that the algorithm forms posterior beliefs γs about label y using Bayes’ rule:
This formalizes when a machine’s behavior can be interpreted as if an algorithm performs a statistical experiment, observes signals, updates in a Bayesian manner, and then optimally scores the resulting posteriors.
In turn, separating what an algorithm learned from how it scored that information forms the basis of our subsequent approach to recovering calibration.
Definition 3. For a given loss function L, P L has a signal-based representation (SBR) if there exists a finite signal set S, a statistical experiment π, and a scoring function α : S → A such that:
定義3。 与えられた損失関数 L に対して、PL は有限信号集合 S, 統計実験 π, スコア関数 α : S → A が存在するとき、信号に基づく表現 (SBR) を持つ。
0.57
1. Prior beliefs are correct: π(y) = P L(y).
1. 事前の信念は正しい: π(y) = P L(y)。
0.79
2. Posterior beliefs satisfy Bayes’ rule: γs
2. ベイズの規則を満たした後方信念:γs
0.76
3. Scores are loss-minimizing given posterior beliefs: αs ∈ cL(γs).
3. スコアは、後続の信念である αs ∈ cL(γs) によって損失最小化される。
0.51
s:αs=a π(s, y).
s:αs=a π(s, y)。
0.88
4. Scores are generated by the model: P L(a, y) =P
4.スコアはモデルによって生成される: P L(a, y) = P
0.87
y = π(y|s).
y = π(y|s) である。
0.76
If P L has an SBR, then it is as if the algorithm optimizes scores given the Bayesian posterior beliefs induced by its statistical experiment.
p l が sbr を持つならば、アルゴリズムはその統計実験によって引き起こされるベイズ的後方信念によりスコアを最適化する。
0.71
The following result formalizes the equivalence between loss calibration and the existence of such an interpretation.3
次の結果は損失校正とそのような解釈の存在の等価性を定式化する。
0.69
For this result, we only need apply one minor condition to P L, which is that the distribution of states is not identical for any two scores: P L(a, y) 6= P L(a0, y) for some y ∈ Y if a 6= a0.
この結果のためには、p l に1つのマイナー条件を適用するだけでよい。これは、状態の分布が任意の2つのスコアに対して同一ではないということである: p l(a, y) 6= p l(a0, y) ある y ∈ y に対して a 6= a0 ならば p l(a, y) である。 訳抜け防止モード: この結果に対し、P L に対して1つのマイナー条件のみを適用する必要がある。 つまり、状態の分布は任意の2つのスコア: P L(a, y ) 6 = P L(a0, y ) for some y ∈ Y if a 6 = a0 。
0.88
Proofs of all formal results are collected in Appendix A.1.
すべての公式な結果の証明は、Appendix A.1で収集される。
0.55
Proposition 1. Confidence scores are loss-calibrated if and only if P L has an SBR.
第1話。 信頼度スコアは、PLがSBRを持つ場合に限り損失校正される。
0.54
If confidence scores are loss-calibrated, then a simple SBR is the one corresponding to the observed scores: S = A, π(a, y) = P L(a, y), and αa = a.
信頼スコアが損失校正された場合、単純なSBRは観測されたスコアに対応するもので、S = A, π(a, y) = P L(a, y) および αa = a である。
0.85
As noted previously, if scores are not loss-calibrated, it is always possible to strictly reduce losses through a wholesale relabeling procedure of some realized score violating (2), so that no signal-based representation exists because condition 3 of Definition 3 is violated.
3Formally, the model and result form a special case of Caplin and Martin (2015) in which the
3 形式的には、モデルと結果は、Caplin and Martin (2015) の特別なケースを形成する。
0.80
utility (in our case loss) function is known.
実用性(私たちの場合の損失)機能は知られています
0.60
5
5
0.42
英語(論文から抽出)
日本語訳
スコア
Incentivizing Miscalibration
ミススキャリブレーションのインセンティブ
0.49
3.2 To characterize incentive effects on confidence scores we study the optimal posterior scoring choice rule (5) as we add class weights to a baseline binary loss function L that is differentiable and strictly proper.
3.2 信頼度スコアに対するインセンティブ効果を特徴付けるため, クラス重み付けを基本2次損失関数 L に追加することにより, 最適後点選択規則 (5) について検討する。
0.85
Such a loss function induces a uniquely optimal action, which is to truthfully score any posterior.
このような損失関数は一意に最適な作用を誘導し、これは真に任意の後方に得点を与える。
0.60
By truthful we mean that cL(γ) = γ.
真に言えば、cL(γ) = γ を意味する。
0.76
We begin with the setting of binary classification and adopt the characterization introduced in machine learning by Buja, Stuetzle, and Shen (2005) and with origins in psychometrics (Shuford, Albert, and Edward Massengill 1966).
まず二項分類の設定から始め、Buja, Stuetzle, and Shen (2005) による機械学習で導入された特徴を取り入れ、心理学(Shuford, Albert, Edward Massengill 1966)に起源を持つ。
0.76
Being strictly proper corresponds to the loss function being incentive-compatible for belief elicitation (see Schotter and Trevino 2014 for a review).
厳密には正しいとすると、損失関数は信念の勧誘にインセンティブに適合する(レビューはSchotter and Trevino 2014を参照)。
0.71
Definition 4. A loss function L(a1, y) defined on (0, 1) × {0, 1} is differentiable and strictly proper if it satisfies differentiability in a1 for each y ∈ {0, 1} with derivatives satisfying:
for some positive weight function w(a1) > 0 on (0, 1), and withR 1−ε
ある正の重み関数 w(a1) > 0 に対して (0, 1) と withR 1−ε
0.90
= w(a1)(a1 − 1),
= w(a1)(a1 − 1),
0.46
= w(a1)a1 ∂a1
= w(a1)a1 ∂a1
0.38
∂L(a1, 1) ∂L(a1, 0)
∂L(a1, 1) ∂L(a1, 0)
0.46
∂a1 (6) w(a1)da1 < ∞ for all
∂a1 (6)w(a1)da1 < ∞ である。
0.55
ε > 0. This class includes standard loss functions such as squared error and cross-entropy.
ε > 0. このクラスは二乗誤差やクロスエントロピーのような標準的な損失関数を含む。
0.50
Proper weighting functions are of interest because they incentivize unbiased scoring for symmetrically weighted outcomes.
適切な重み付け関数は、対称に重み付けされた結果に対して偏りのないスコアを与えるため、興味深い。
0.46
Thus, restricting to proper loss functions, calibration (Definition
したがって、適切な損失関数、校正(決定)に制限する。
0.62
1) and loss calibration (Definition
1)損失校正(精錬)
0.35
2) are equivalent. An algorithm that has a signal-based representation would generate calibrated scores if its posterior beliefs were correct on average and truthfully scored cL(γ) = γ.
However, the situation for a general loss function is quite different, given that the incentives in mapping posteriors to confidence scores vary with the loss function.
Consider weighted loss functions that are defined by beginning with a differentiable and strictly proper binary loss function L and reweighting the positive class β1 ∈ [0, 1]:
(7) The following proposition (established in Appendix A.1) provides the optimal scoring rule for this weighted loss function.
(7) 次の命題(付録a.1)は、この重み付き損失関数の最適採点規則を提供する。
0.76
For simplicity of notation and since the function L is fixed throughout, we suppress it from the superscript on the choice function, so that cβ1(γ1) ≡ cLβ1 (γ1).
表記の単純さと函数 L が全体固定されるので、選択函数上の上書きからそれを抑制するので、cβ1(γ1) は cLβ1(γ1) となる。
It clarifies how the incentives provided to the algorithm are modulated by β1.
アルゴリズムが提供するインセンティブがどのようにβ1によって調節されるかを明確にする。
0.59
When β1 > 0.5, there is an incentive to overscore cβ1(γ1) > γ1, whereas when β1 < 0.5 there is an incentive to underscore cβ1(γ1) > γ1 all interior posteriors γ1 ∈ (0, 1).
The impact of β1 on optimal scores can be quite strong, especially since class weights are frequently used in settings where class imbalance is large.For example, at posterior belief γ1 = 0.5, the optimal prediction for a given β1 is cβ1(0.5) = β1.
In the case of our pneumonia application where less than 2% of labels are positive, inverse probability weighting would yield β1 > 0.98.
ラベルの2%未満が陽性である肺炎の場合には,逆確率重みはβ1 > 0.98になる。
0.77
Proposition 2 suggests a novel graph that we call the loss calibration curve, which overlays the calibration curve with the theoretical map between posterior probabilities γ1 and optimal posterior scores, in this case cβ1(γ1).
If an algorithm is loss-calibrated, the calibration curve should match the theoretical map between probabilities and optimal predictions.
アルゴリズムが損失校正された場合、キャリブレーション曲線は確率と最適予測の間の理論写像と一致する。
0.77
This is illustrated by Figure 3.
これは図3で示されます。
0.83
6
6
0.43
英語(論文から抽出)
日本語訳
スコア
We now generalize the intuition to the case of n labels by using the fact that many richer classification problems can be expressed as an aggregate of simpler binary problems.
我々は、よりリッチな分類問題をより単純な二分問題の集合として表現できるという事実を用いて、直観を n ラベルの場合に一般化する。
0.67
Consider weighted loss functions that are defined by beginning with a differentiable and strictly proper binary loss function L and weighting according to a matrix β ∈ Rn×n:
微分可能かつ厳密な二項損失関数 L から始まり、行列 β ∈ Rn×n に従って重み付けによって定義される重み付き損失関数を考える。
0.80
βy,y0L(ay0, I{y = y0}).
βy,y0L(ay0, I{y = y0})。
0.41
(9) Lβ(a, y) = X
(9) Lβ(a, y) = X
0.45
y0∈Y In this case we have the following corollary, which follows from observing that the necessary and sufficient condition for an optimal score in each dimension y is expressible as in (7) for an average weight and a class indicator function.
y0-Y この場合、各次元 y における最適なスコアに必要な十分条件は、平均ウェイトとクラスインジケータ関数の (7) のように表現できる。
. (10) The intuition of incentivizing miscalibration is the same as previously in Proposition 2, except that it now depends on relative weights across multiple classes.
Proposition 4 (Loss-Corrected Confidence Score for an Invertible Scoring Rule).
Proposition 4 (Loss-Corrected Confidence Score for an Invertible Scoring Rule)
0.42
Suppose cL(γ) is single-valued and invertible and confidence scores are loss-calibrated.
cL(γ) が単値で可逆であり、信頼スコアが損失校正であると仮定する。
0.60
For any a such that P(a) > 0, the posterior distribution over labels is recovered by inverting the choice rule: (11) We call the inverted score (cL)−1(a) the loss-corrected confidence score.
. The loss-corrected confidence scores for our application are plotted in Figure 4.
. アプリケーションに対する損失補正された信頼スコアを図4に示します。
0.57
The visual evidence is suggestive of calibration, which is consistent with the loss calibration suggested by Figure 3 and the connections between calibration, loss calibration, and loss-corrected confidence scores highlighted in Proposition 5.
There are at least three reasons why our anthropomorphic model of algorithmic predictions is useful.
アルゴリズム予測の擬人化モデルが有用である理由は少なくとも3つある。
0.73
First, it specifies an optimal scoring rule for any implicit posterior beliefs.
まず、暗黙の後方信念に対して最適なスコアリングルールを指定する。
0.66
Evaluated at the posterior outcome probabilities we observe, this optimal scoring rule underlies the test of algorithmic optimality in loss calibration (2).
scoring rule allows us to recover the algorithm’s implicit posteriors from reported scores.
スコアリングルールは、報告されたスコアからアルゴリズムの暗黙の後方を復元することを可能にする。
0.54
In the case of binary classification with proper loss functions, this inversion is precisely our transformation for loss-corrected confidence scores (3).
適切な損失関数を持つ二分分類の場合、この反転は正確に損失補正信頼度スコアの変換(3)である。
0.82
Second, our loss-based model helps organize approaches to the class imbalance problem because it connects existing methods and can apply equally well to the scoring and prediction stages of classification.
As observed in Breiman, Friedman, Olshen, and Stone (1984), there is a close formal relationship between reweighting, resampling, and thresholding.
Breiman, Friedman, Olshen, and Stone (1984) に見られるように、再重み付け、再サンプリング、しきい値付けの間には密接な関係がある。
0.72
In related work, Pozzolo, Caelen, Johnson, and Bontempi (2015) propose an analytical miscalibration correction for randomly undersampled data by framing the problem in terms of sample selection.
関連する研究において、Pozzolo, Caelen, Johnson, and Bontempi (2015) は、サンプル選択の観点から問題をフレーミングすることにより、ランダムにアンサンプされたデータに対する分析的誤校正法を提案する。
0.62
Adapted to our notation, their correction formula is:
我々の記法に適応した修正公式は
0.65
δa1 hδ(a1) =
δa1 hδ(a1) =
0.37
1 + (δ − 1)a1
1 + (δ − 1)a1
0.47
(13) where δ = P(t = 1|y = 0) is the probability of randomly selecting t = 1 a negative instance in the undersampled data when all minority class instances are sampled, P(t = 1|y = 1) = 1.
Of course, the sufficiency of varying thresholds also raises the question of why reweighting or resampling of the training data is necessary at all (Elkan 2001).
This leads naturally to a question raised also by Provost (2000): can reweighting or resampling at the training stage systematically affect what the machine learns, rather than just how the machine reports its information?
For example, Elkan (2001) predicts and finds little effect of resampling on standard Bayesian and decision tree learning models, yet it also seems possible that systematic deviations could arise with increasingly complex and hyperparametrized learning procedures.
Caplin, Martin, and Marx 2022 find and interpret evidence of such systematic deviations for a deep neural network model with early stopping, which suggests that reweighting impacts what the machine learns.
As the third and final contribution, our model can be generalized to also make predictions about what the machine learns, which helps to explain these systematic deviations.
Huang, Gao, Zhuang Liu, Kilian Q. Weinberger, and Laurens van der Maaten (2016).
Huang, Gao, Zhuang Liu, Kilian Q. Weinberger, Laurens van der Maaten (2016)。
0.38
“Densely connected convolutional networks”.
「まじめに」 connected convolutional networks” (英語)
0.58
In: arXiv preprint arXiv:1608.06993.
arXiv preprint arXiv:1608.06993
0.46
Ioffe, Sergey and Christian Szegedy (2015).
ioffe, sergey and christian szegedy (2015)を参照。
0.62
“Batch normalization: accelerating deep network training by reducing internal covariate shift”.
バッチ正規化: 内部共変量シフトの削減によるディープネットワークトレーニングの促進。
0.76
In: International Conference on Machine Learning (ICML), pp. 448–456.
国際機械学習会議(ICML)、p.448-456。
0.60
Jiang, Xiaoqian, Melanie Osl, Jihoon Kim, and Lucila Ohno-Machado (2012).
Jiang, Xiaoqian, Melanie Osl, Jihoon Kim, Lucila Ohno-Machado (2012)
0.39
“Calibrating predictive model estimates to support personalized medicine”.
パーソナライズされた医療を支援するための予測モデルの推定値のキャリブレーション」。
0.58
In: Journal of the American Medical Informatics Association 19.2, pp. 263–274.
Journal of the American Medical Informatics Association 19.2, pp. 263–274。
0.43
Kingma, Diederik and Jimmy Ba (2014).
Kingma, Diederik and Jimmy Ba (2014年)
0.69
“Adam: a method for stochastic optimization”.
adam: 確率最適化の方法です。
0.51
In: arXiv preprint arXiv:1412.6980.
院 arXiv preprint arXiv:1412.6980
0.29
Kompa, Benjamin, Jasper Snoek, and Andrew L Beam (2021).
コパン、ベンジャミン、ジャスパー・スヌーク、アンドリュー・l・ビーム(2021年)。
0.61
“Second opinion needed: communicating uncertainty in medical machine learning”.
医療機械学習における不確実性をコミュニケーションすること。
0.64
In: NPJ Digital Medicine 4.1, pp. 1–6.
NPJ Digital Medicine 4.1, pp. 1-6。
0.84
Minderer, Matthias et al (2021).
Minderer, Matthias et al (2021年)。
0.42
“Revisiting the calibration of modern neural networks”.
現代のニューラルネットワークの校正を再検討する”。
0.75
In: Neural Information Processing Systems (NeurIPS).
院 ニューラル情報処理システム(NeurIPS)。
0.44
Niculescu-Mizil, Alexandru and Rich Caruana (2005).
Niculescu-Mizil, Alexandru and Rich Caruana (2005)。
0.48
“Predicting good probabilities with supervised learning”.
『教師付き学習による優れた確率予測』
0.68
In: Proceedings of the 22nd international conference on Machine learning, pp. 625–632.
In: Proceedings of the 22th International Conference on Machine Learning, pp. 625–632。
0.94
Platt, John (1999).
ジョン・プラット(1999年)。
0.70
“Probabilistic outputs for support vector machines and comparisons to regularized likelihood methods”.
「支持ベクトルマシンの確率出力と正規化可能性法との比較」
0.73
In: Advances in large margin classifiers 10.3, pp. 61–74.
In: 大きなマージン分類器の進歩 : 10.3, pp. 61–74。
0.69
Pozzolo, Andrea Dal, Olivier Caelen, Reid A Johnson, and Gianluca Bontempi (2015).
Pozzolo, Andrea Dal, Olivier Caelen, Reid A Johnson, Gianluca Bontempi (2015)。
0.39
“Calibrating Probability with Undersampling for Unbalanced Classification”.
「アンバランス分類のためのアンダーサンプリングによる確率の調整」
0.69
In: IEEE Symposium Series on Computational Intelligence, pp. 159–166.
IEEE Symposium Series on Computational Intelligence, pp. 159–166。
0.38
Provost, Foster (2000).
プロボスト、フォスター(2000年)。
0.59
“Machine learning from imbalanced datasets 101”.
「不均衡データセットからの機械学習101」
0.85
In: Proceedings of
In:Proceedings of
0.33
the AAAI 2000 Workshop on Imbalanced Datasets.
AAAI 2000 Workshop on Im Balanced Datasets(英語)
0.76
Vol. 68, pp. 1–3.
vol.1。 68, pp. 1-3。
0.58
Raghu, Maithra et al (2019).
raghu, maithra et al (2019)を参照。
0.82
“The algorithmic automation problem: Prediction, triage, and
アルゴリズムによる自動化問題:予測、トリアージ、そして
0.75
human effort”. In: arXiv preprint arXiv:1903.12220.
人間の努力」。 arXiv preprint arXiv:1903.12220。
0.62
Rajpurkar, Pranav, Jeremy Irvin, Robyn L. Ball, et al (Nov. 2018).
rajpurkar, pranav, jeremy irvin, robyn l. ball, et al (2018年11月)。
0.75
“Deep learning for chest radiograph diagnosis: A retrospective comparison of the CheXNeXt algorithm to practicing radiologists”.
胸部X線写真診断のための深層学習:CheXNeXtアルゴリズムと放射線科医との振り返りの比較」
0.78
In: PLOS Medicine 15, pp. 1–17.
書評:plos medicine 15, pp. 1-17。
0.69
Rajpurkar, Pranav, Jeremy Irvin, Kaylie Zhu, et al (2017).
Rajpurkar, Pranav, Jeremy Irvin, Kaylie Zhu, et al (2017)。
0.42
“CheXNet: radiologist-level pneumonia detection on chest x-rays with deep learning”.
CheXNet: 深層学習を伴う胸部X線における放射線医レベルの肺炎検出。
0.69
In: arXiv preprint arXiv:1711.05225.
arXiv preprint arXiv:1711.05225。
0.43
Schotter, Andrew and Isabel Trevino (2014).
スチョッター、アンドリュー、イザベル・トレヴィーノ(2014年)。
0.52
“Belief elicitation in the laboratory”.
『研究室での啓発を願う』。
0.56
In: Annu. Rev. Econ.
In: Annu イーコン博士。
0.35
6.1, pp. 103–128.
6.1, pp. 103-128。
0.67
Shuford, Emir H, Arthur Albert, and H Edward Massengill (1966).
シュフォード、エミール・h、アーサー・アルバート、h・エドワード・マッセンジル(1966年)。
0.57
“Admissible probability measurement procedures”.
『許容確率』 測定手順」。
0.72
In: Psychometrika 31.2, pp. 125–145.
原書:psychometrika 31.2, pp. 125-145。
0.58
Thai-Nghe, Nguyen, Zeno Gantner, and Lars Schmidt-Thieme (2010).
タイ-nghe, nguyen, zeno gantner, lars schmidt-thieme (2010)。
0.64
“Cost-sensitive learning methods for imbalanced data”.
「不均衡データに対するコストセンシティブな学習方法」
0.73
In: The 2010 International joint conference on neural networks (IJCNN).
2010年、IJCNN(International Joint Conference on Neural Network)に参加。
0.75
IEEE, pp. 1–8. Wang, Xiaosong et al (2017).
同上、p.1-8。 wang, xiaosong et al (2017)を参照。
0.60
In: Proceedings of the IEEE conference on computer vision
In:コンピュータビジョンに関するIEEEカンファレンスの開催
0.71
and pattern recognition, pp. 2097–2106.
パターン認識, pp. 2097–2106。
0.80
Zadrozny, Bianca and Charles Elkan (2001).
Zadrozny, Bianca and Charles Elkan (2001年)
0.74
“Obtaining calibrated probability estimates from decision trees and naive bayesian classifiers”.
「決定木とナイーブベイズ分類器から校正された確率推定値を得る。」
0.71
In: International Conference on Machine Learning (ICML), pp. 609–616.
In: International Conference on Machine Learning (ICML), pp. 609-616。
0.42
– (2002).
– (2002).
0.42
“Transforming classifier scores into accurate multiclass probability estimates”.
分類器スコアを正確な多クラス確率推定に変換する。
0.72
In: Knowledge Discovery and Data Mining (KDD), pp. 694–699.
院 知識発見とデータマイニング (kdd)、p. 694-699。
0.49
Zadrozny, Bianca, John Langford, and Naoki Abe (2003).
ザドロズニー、ビアンカ、ジョン・ラングフォード、アベナキ(2003年)。
0.49
“Cost-sensitive learning by costproportionate example weighting”.
コスト比例型例重み付けによるコストセンシティブな学習”。
0.60
In: Third IEEE international conference on data mining.
In: データマイニングに関するIEEEの第3回国際会議。
0.67
IEEE, pp. 435–442.
同上、p.435-442。
0.54
9
9
0.43
英語(論文から抽出)
日本語訳
スコア
A Appendix for “Calibrating for Class Weights by Modeling
モデリングによる"クラスウェイトキャリブレーション"のためのアペンディックス
0.79
Machine Learning” A.1 Proofs The following observation will be useful for subsequent results.
機械学習” A.1 証明 次の観察は、その後の結果に役立ちます。
0.57
It is immediate upon observing that the optimal solution is unchanged upon dividing the minimand by a constant P L(a) > 0 and invoking the law of conditional probability, P L(y|a) = P L(a, y)/P L(a).
最適解は、定数 P L(a) > 0 でミニマンドを割って条件確率の法則 P L(y|a) = P L(a, y)/P L(a) を呼び出すときに変化しない。
0.70
Lemma 1. P L(a, y) is loss-calibrated:
レマ1号。 P L(a, y) は損失校正される。
0.60
a ∈ argmin a0∈A
a ∈ argmin a0htmla
0.35
P L(a, y)L(a0, y)
P L(a, y)L(a0, y)
0.46
for all a X y∈Y
全てのために X yhtmly
0.45
if and only if:
if と if のみです。
0.81
a ∈ argmin a0∈A
a ∈ argmin a0htmla
0.35
X y∈Y P L(y|a)L(a0, y)
X yhtmly P L(y|a)L(a0, y)
0.52
for all observed a : P L(a) > 0.
観測されたすべてのa : P L(a) > 0。
0.86
In what follows, we recall and prove the formal propositions presented in the text.
以下では、テキストで提示された形式的命題を思い出し、証明する。
0.57
Proposition 1. P L is loss-calibrated if and only if it has an SBR.
第1話。 p l が sbr を持つときと場合に限り損失補償される。
0.48
Proof of Proposition 1. (Only if:)
命題1の証明。 (具体的には:)
0.55
Suppose P L is loss-calibrated.
p l が損失補償であるとする。
0.52
As observed in the text, it suffices to show that S = A, π(a, y) = P L(a, y), and αa = a form an SBR representation.
テキストで見られるように、S = A, π(a, y) = P L(a, y) および αa = a が SBR 表現であることを示すのに十分である。
0.84
Conditions 1 and 4 of Definition 3 are immediate.
定義3の条件1と条件4は即時である。
0.74
Condition 2 simply requires that posterior beliefs γa
条件2は単に後続の信念 γa を要求する。
0.60
y satisfy Bayes’ rule, so that the remaining condition 3 is satisfied if:
y はベイズの規則を満たすので、残りの条件3が満たされる。
0.69
By loss calibration and Lemma 1, a ∈ argmin a0∈Rn
損失校正と補題1で a ∈ argmin a0htmlrn である。
0.52
P L(y|a)L(a0, y)
P L(y|a)L(a0, y)
0.94
αa ∈ cL(P L(y|a)).
αa ∈ cl(p l(y|a)) である。
0.64
X y X y Invoking αa = a and the definition of the optimal scoring rule cL, this yields the desired conclusion.
X うん X うん αa = a と最適スコアリング規則 cL の定義を呼び出しれば、所望の結論が得られる。
0.50
(If:) We show the contrapositive.
(もしそうなら) 反陽性を示します
0.62
Suppose P L is not loss-calibrated and fix a score a that is observed P L(a) > 0 and for which loss calibration is violated.
p l が損失補償されていないと仮定し、p l(a) > 0 が観測され、損失校正が破られるスコア a を固定する。 訳抜け防止モード: P L が損失ではないと仮定し、P L(a ) > 0 のスコア a を校正して固定する。 損失キャリブレーションに 違反がある。
0.79
By Lemma 1,
Lemma 1 による。
0.82
a /∈ argmin a0∈Rn
a /servlet argmin a0servletrn です。
0.18
P L(y|a)L(a0, y)
P L(y|a)L(a0, y)
0.94
Then for any statistical experiment π satisfying conditions 1,2, and 4, it must be that for all signal realizations s such that αs = a, we have αs /∈ cL(γs).
すると、任意の統計実験 π が条件 1,2, 4 を満たすためには、αs = a となるすべての信号実現 s に対して αs /ψ cl(γs) が存在する必要がある。 訳抜け防止モード: そして、任意の統計実験 π を満たす条件 1,2, 4 について。 すべての信号実現 s に対して αs = a, αs/・cL(γs ) である。
A.2 Technical Details We summarize details of the training procedure that generated the data in Figures 1, 3, and 4.
A.2 技術的な詳細 データを生成したトレーニング手順の詳細を図1、図3、図4にまとめます。
0.56
We essentially replicate the pneumonia detection task of Rajpurkar, Irvin, Zhu, et al (2017), in which a deep neural network was trained on a the ChestX-ray14 dataset of Wang et al (2017).
我々は基本的にRajpurkar, Irvin, Zhu, et al(2017)の肺炎検出タスクを再現し,Wang et al(2017)のChestX-ray14データセットで深部ニューラルネットワークをトレーニングした。
0.71
Our code for model training is adapted from the publicly available codebase of Rajpurkar, Irvin, Ball, et al (2018).
モデルトレーニングのコードは、Rajpurkar, Irvin, Ball, et al (2018)の公開コードベースから適応しています。
0.75
The ChextX-ray14 dataset consists of 112,120 frontal chest X-rays which were synthetically labeled with up to fourteen thoracic diseases.
In the binary classification task, the labels of interest are pneumonia (y = 1) or not (y = 0).
二項分類タスクでは、興味のあるラベルは肺炎(y = 1)または not(y = 0)である。
0.81
We consider multiple positive class weights β1 = 0.5, 0.9, 0.99, with 0.99 approximately equal to the inverse probability class weights adopted in Rajpurkar, Irvin, Zhu, et al (2017).
As in Rajpurkar, Irvin, Zhu, et al (2017), we downscale the images to 224 by 224 pixels, adopt random horizontal flipping, and normalize based on the mean and standard deviation of images in the ImageNet dataset (Deng et al 2009).
Rajpurkar, Irvin, Zhu, et al (2017)のように、画像を224×224ピクセルにダウンスケールし、ランダムな水平反転を採用し、ImageNetデータセット(Deng et al 2009)における画像の平均と標準偏差に基づいて正規化します。
0.81
For each model, we train a 121-layer dense convolutional neural network (DenseNet, Huang, Liu, Weinberger, and Maaten 2016) with weights of the network initialized to those pretrained on ImageNet, using Adam with standard parameters 0.9 and 0.999 (Kingma and Ba 2014), using batch normalization (Ioffe and Szegedy 2015), and with mini-batches of size 16.
We use an initial learning rate of 0.0001 that is decayed by a factor of 10 each time the validation loss plateaus after an epoch, and we conduct early stopping based on validation loss.
Each model was trained using either an Nvidia Tesla V100 16GB GPU or an Nvidia Tesla A100 40GB GPU on the Louisiana State University or Northwestern University high performance computing clusters, respectively.
各モデルは、それぞれ、ルイジアナ州立大学のNvidia Tesla V100 16GB GPUまたはNvidia Tesla A100 40GB GPUを使用してトレーニングされた。 訳抜け防止モード: 各モデルはNvidia Tesla V100 16 GB GPUを使用してトレーニングされた またはルイジアナ州立大学のNvidia Tesla A100 40 GB GPU あるいはノースウェスタン大学のハイパフォーマンスコンピューティングクラスタだ。
0.88
The training of a model typically lasted between one and two hours.
モデルのトレーニングは通常、1時間から2時間の間に行われた。
0.68
In addition to varying class weights, the main difference in our implementation and the implementation of Rajpurkar, Irvin, Zhu, et al (2017) are our data splits and our recourse to additional ensemble methods to account for randomness in the training procedure.
クラス重みの変化に加えて、Rajpurkar, Irvin, Zhu, et al (2017) の実装と実装の主な違いは、トレーニング手順におけるランダム性を考慮に入れた追加のアンサンブル手法に関する私たちのデータ分割とレコメンデーションである。
0.74
Specifically, we adopt a nested cross-validation approach where we randomly split the dataset into ten approximately equal folds and then iterate through 70-20-10 train-validation-tes t splits (the split distribution also used in Wang et al 2017 and a secondary application of Rajpurkar, Irvin, Zhu, et al 2017).
具体的には、ネストしたクロスバリデーションアプローチを採用して、データセットをランダムに10のほぼ等しい折り畳みに分割し、70~20-10の列車検証-テスト分割を繰り返す(Wang et al 2017や、Rajpurkar, Irvin, Zhu, et al 2017)。
0.64
We train a total of 400 models, yielding an ensemble of 80 trained models for each observation in the dataset where that observation was in a test fold.