論文の概要: Never mind the metrics -- what about the uncertainty? Visualising
confusion matrix metric distributions
- arxiv url: http://arxiv.org/abs/2206.02157v1
- Date: Sun, 5 Jun 2022 11:54:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-10 10:22:09.284987
- Title: Never mind the metrics -- what about the uncertainty? Visualising
confusion matrix metric distributions
- Title(参考訳): メトリクスは気にするな -- 不確実性はどうだろう?
混乱行列計量分布の可視化
- Authors: David Lovell, Dimity Miller, Jaiden Capra and Andrew Bradley
- Abstract要約: 本稿では,不確実性の異なるモデル下での分布を明らかにすることにより,分類器の性能指標について,よりバランスのとれた視点を求める。
我々は、このROC空間内の(そしてそれ以上の)パフォーマンスメトリクスの輪郭の方程式、アニメーション、インタラクティブな可視化を開発します。
私たちの期待は、これらの洞察と視覚化によって、パフォーマンス指標の推定における実質的な不確実性に対する認識がより高くなることです。
- 参考スコア(独自算出の注目度): 6.566615606042994
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There are strong incentives to build models that demonstrate outstanding
predictive performance on various datasets and benchmarks. We believe these
incentives risk a narrow focus on models and on the performance metrics used to
evaluate and compare them -- resulting in a growing body of literature to
evaluate and compare metrics. This paper strives for a more balanced
perspective on classifier performance metrics by highlighting their
distributions under different models of uncertainty and showing how this
uncertainty can easily eclipse differences in the empirical performance of
classifiers. We begin by emphasising the fundamentally discrete nature of
empirical confusion matrices and show how binary matrices can be meaningfully
represented in a three dimensional compositional lattice, whose cross-sections
form the basis of the space of receiver operating characteristic (ROC) curves.
We develop equations, animations and interactive visualisations of the contours
of performance metrics within (and beyond) this ROC space, showing how some are
affected by class imbalance. We provide interactive visualisations that show
the discrete posterior predictive probability mass functions of true and false
positive rates in ROC space, and how these relate to uncertainty in performance
metrics such as Balanced Accuracy (BA) and the Matthews Correlation Coefficient
(MCC). Our hope is that these insights and visualisations will raise greater
awareness of the substantial uncertainty in performance metric estimates that
can arise when classifiers are evaluated on empirical datasets and benchmarks,
and that classification model performance claims should be tempered by this
understanding.
- Abstract(参考訳): さまざまなデータセットやベンチマークで優れた予測性能を示すモデルを構築するための強いインセンティブがあります。
これらのインセンティブは、モデルとそれらの評価と比較に使用されるパフォーマンスメトリクスに限定して焦点を絞るリスクがあると考えています。
本稿では,不確実性の異なるモデル下での分布を強調し,この不確実性が,分類器の実証的性能の違いをいかに軽視できるかを示すことによって,分類器性能指標のバランスのとれた視点を求める。
まず、経験的混乱行列の基本的な離散性を強調し、二項行列を3次元合成格子で有意に表現し、その断面が受信操作特性(ROC)曲線の空間の基底となることを示す。
このroc空間内(およびそれ以上)でパフォーマンスメトリクスの輪郭の方程式、アニメーション、インタラクティブな視覚化を開発し、クラスの不均衡によってどのように影響を受けるかを示します。
本研究では,ROC空間における真正と偽正の離散的後続予測確率質量関数と,バランスド精度 (BA) やマシューズ相関係数 (MCC) などの性能指標の不確実性との関連性を示すインタラクティブな可視化手法を提案する。
当社の希望は、これらの洞察と視覚化が、経験的なデータセットとベンチマークで分類器が評価されると生じるパフォーマンスメトリック推定の実質的な不確実性をより強く認識し、この理解によって分類モデルのパフォーマンスクレームを緩和することです。
関連論文リスト
- Analyzing Generative Models by Manifold Entropic Metrics [8.477943884416023]
抽出可能な情報理論評価指標を新たに導入する。
EMNISTデータセット上の各種正規化フローアーキテクチャと$beta$-VAEを比較した。
私たちの実験で最も興味深い発見は、トレーニング中に整列および非整合表現に収束する誘導バイアスの観点から、モデルアーキテクチャとトレーニング手順のランク付けです。
論文 参考訳(メタデータ) (2024-10-25T09:35:00Z) - Measuring Orthogonality in Representations of Generative Models [81.13466637365553]
教師なしの表現学習において、モデルは高次元データから低次元の学習表現に不可欠な特徴を蒸留することを目的としている。
独立した生成過程の切り離しは、長い間、高品質な表現を生み出してきた。
我々は、IWO(Importance-Weighted Orthogonality)とIWR(Importance-Weighted Rank)の2つの新しい指標を提案する。
論文 参考訳(メタデータ) (2024-07-04T08:21:54Z) - Exploiting Observation Bias to Improve Matrix Completion [16.57405742112833]
本稿では,行列補完の変種について考察する。
目標は、バイアスと関心の結果の間の共有情報を利用して予測を改善することである。
この2段階のアルゴリズムでは,従来の行列補完法に比べて平均2乗誤差が30倍小さいことが判明した。
論文 参考訳(メタデータ) (2023-06-07T20:48:35Z) - Evaluating Probabilistic Classifiers: The Triptych [62.997667081978825]
本稿では,予測性能の異なる相補的な側面に焦点をあてた診断グラフィックのトリチチを提案し,研究する。
信頼性図は校正に対処し、受信動作特性(ROC)曲線は識別能力を診断し、マーフィー図は全体的な予測性能と価値を視覚化する。
論文 参考訳(メタデータ) (2023-01-25T19:35:23Z) - Monotonicity and Double Descent in Uncertainty Estimation with Gaussian
Processes [52.92110730286403]
限界確率はクロスバリデーションの指標を思い起こさせるべきであり、どちらもより大きな入力次元で劣化すべきである、と一般的に信じられている。
我々は,ハイパーパラメータをチューニングすることにより,入力次元と単調に改善できることを証明した。
また、クロスバリデーションの指標は、二重降下の特徴である質的に異なる挙動を示すことも証明した。
論文 参考訳(メタデータ) (2022-10-14T08:09:33Z) - Uncertainty in Contrastive Learning: On the Predictability of Downstream
Performance [7.411571833582691]
このような表現の不確実性は、単一のデータポイントに対して有意義な方法で定量化できるかどうかを考察する。
埋め込み空間におけるトレーニングデータの分布を直接推定することにより,この目標を達成することができることを示す。
論文 参考訳(メタデータ) (2022-07-19T15:44:59Z) - Scalable Intervention Target Estimation in Linear Models [52.60799340056917]
因果構造学習への現在のアプローチは、既知の介入目標を扱うか、仮説テストを使用して未知の介入目標を発見する。
本稿では、全ての介入対象を一貫して識別するスケーラブルで効率的なアルゴリズムを提案する。
提案アルゴリズムは、与えられた観測マルコフ同値クラスを介入マルコフ同値クラスに更新することも可能である。
論文 参考訳(メタデータ) (2021-11-15T03:16:56Z) - Doing Great at Estimating CATE? On the Neglected Assumptions in
Benchmark Comparisons of Treatment Effect Estimators [91.3755431537592]
もっとも単純な設定であっても、無知性仮定に基づく推定は誤解を招く可能性があることを示す。
異種処理効果評価のための機械学習ベンチマークデータセットを2つ検討した。
ベンチマークデータセットの固有の特性が、他のものよりもいくつかのアルゴリズムを好んでいる点を強調します。
論文 参考訳(メタデータ) (2021-07-28T13:21:27Z) - Accuracy on the Line: On the Strong Correlation Between
Out-of-Distribution and In-Distribution Generalization [89.73665256847858]
分布外性能は,広範囲なモデルと分布シフトに対する分布内性能と強く相関していることを示す。
具体的には,CIFAR-10 と ImageNet の変種に対する分布内分布と分布外分布性能の強い相関関係を示す。
また,CIFAR-10-Cと組織分類データセットCamelyon17-WILDSの合成分布の変化など,相関が弱いケースについても検討した。
論文 参考訳(メタデータ) (2021-07-09T19:48:23Z) - Beyond Marginal Uncertainty: How Accurately can Bayesian Regression
Models Estimate Posterior Predictive Correlations? [13.127549105535623]
入力位置の異なる関数値間の予測的相関を推定することは、しばしば有用である。
まず、後続の予測相関に依存する下流タスクについて考察する:トランスダクティブアクティブラーニング(TAL)
TALは高価で間接的にアルゴリズムの開発を誘導できないため、予測相関をより直接的に評価する2つの指標を導入する。
論文 参考訳(メタデータ) (2020-11-06T03:48:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。