論文の概要: Analysis of Diagnostics (Part I): Prevalence, Uncertainty Quantification, and Machine Learning
- arxiv url: http://arxiv.org/abs/2309.00645v2
- Date: Wed, 28 Aug 2024 13:32:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-29 21:31:09.006856
- Title: Analysis of Diagnostics (Part I): Prevalence, Uncertainty Quantification, and Machine Learning
- Title(参考訳): 診断分析(第1報) 有病率, 不確実性定量化, 機械学習
- Authors: Paul N. Patrone, Raquel A. Binder, Catherine S. Forconi, Ann M. Moormann, Anthony J. Kearsley,
- Abstract要約: この写本は、分類理論と有病率のより深い関係を研究する二部作の最初のものである。
そこで本稿では,有病率重み付き経験誤差を最小化することにより,Bstar (q)$を推定する数値ホモトピーアルゴリズムを提案する。
合成データとSARS-CoV-2酵素結合免疫測定法(ELISA)を用いて本法の有効性を検証した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diagnostic testing provides a unique setting for studying and developing tools in classification theory. In such contexts, the concept of prevalence, i.e. the number of individuals with a given condition, is fundamental, both as an inherent quantity of interest and as a parameter that controls classification accuracy. This manuscript is the first in a two-part series that studies deeper connections between classification theory and prevalence, showing how the latter establishes a more complete theory of uncertainty quantification (UQ) for certain types of machine learning (ML). We motivate this analysis via a lemma demonstrating that general classifiers minimizing a prevalence-weighted error contain the same probabilistic information as Bayes-optimal classifiers, which depend on conditional probability densities. This leads us to study relative probability level-sets $B^\star (q)$, which are reinterpreted as both classification boundaries and useful tools for quantifying uncertainty in class labels. To realize this in practice, we also propose a numerical, homotopy algorithm that estimates the $B^\star (q)$ by minimizing a prevalence-weighted empirical error. The successes and shortcomings of this method motivate us to revisit properties of the level sets, and we deduce the corresponding classifiers obey a useful monotonicity property that stabilizes the numerics and points to important extensions to UQ of ML. Throughout, we validate our methods in the context of synthetic data and a research-use-only SARS-CoV-2 enzyme-linked immunosorbent (ELISA) assay.
- Abstract(参考訳): 診断検査は、分類理論のツールの研究と開発にユニークな設定を提供する。
このような文脈において、有病率の概念、すなわち与えられた条件を持つ個人の数という概念は、本質的な興味の量として、また分類精度を制御するパラメータとして、基本的なものである。
この写本は、分類理論と有病率のより深い関係を研究し、後者がある種の機械学習(ML)に対してより完全な不確実性定量化理論(UQ)を確立していることを示す2部シリーズの最初のものである。
この分析を補題を用いて動機づけた結果,有病率重み付き誤りを最小化する一般分類器は,条件付き確率密度に依存するベイズ最適分類器と同じ確率情報を含むことを示した。
これにより、相対確率レベルセット $B^\star (q)$ は分類境界とクラスラベルの不確かさを定量化するための有用なツールの両方として再解釈される。
実際にこれを実現するために、有価値重み付き経験誤差を最小化することにより、B^\star (q)$を推定する数値ホモトピーアルゴリズムを提案する。
この方法の成功と欠点は、レベル集合の性質を再検討する動機となり、対応する分類器は、数値を安定化し、MLのUQへの重要な拡張を指し示す有用な単調性の性質に従う。
本研究は, 合成データとSARS-CoV-2酵素結合免疫測定法(ELISA)を用いて, 本法の有効性を検証した。
関連論文リスト
- Analysis of Diagnostics (Part II): Prevalence, Linear Independence, and Unsupervised Learning [0.0]
私は教師あり機械学習(ML)の文脈を考える
パートIIでは、これらの結果を教師なし学習のタスクに拡張できる範囲について検討している。
論文 参考訳(メタデータ) (2024-08-28T13:39:57Z) - Parametric Classification for Generalized Category Discovery: A Baseline
Study [70.73212959385387]
Generalized Category Discovery (GCD)は、ラベル付きサンプルから学習した知識を用いて、ラベルなしデータセットで新しいカテゴリを発見することを目的としている。
パラメトリック分類器の故障を調査し,高品質な監視が可能であった場合の過去の設計選択の有効性を検証し,信頼性の低い疑似ラベルを重要課題として同定する。
エントロピー正規化の利点を生かし、複数のGCDベンチマークにおける最先端性能を実現し、未知のクラス数に対して強いロバスト性を示す、単純で効果的なパラメトリック分類法を提案する。
論文 参考訳(メタデータ) (2022-11-21T18:47:11Z) - Multi-Label Quantification [78.83284164605473]
定量化とは、教師なしデータサンプルにおいて、興味あるクラスの相対周波数の予測子を生成する教師付き学習課題である。
本研究では,その相対頻度をより正確に予測するために,興味あるクラス間の依存関係を活用しようとするクラス有病率値の推定手法を提案する。
論文 参考訳(メタデータ) (2022-11-15T11:29:59Z) - Statistical Theory for Imbalanced Binary Classification [8.93993657323783]
最適分類性能は、これまで形式化されていなかったクラス不均衡の特定の性質に依存することを示す。
具体的には、一様クラス不均衡と呼ばれる新しいクラス不均衡のサブタイプを提案する。
これらの結果は、不均衡二項分類に対する最初の有意義な有限サンプル統計理論のいくつかを提供する。
論文 参考訳(メタデータ) (2021-07-05T03:55:43Z) - Constrained Classification and Policy Learning [0.0]
制約付き分類器の集合における代理損失手順の整合性について検討する。
ヒンジ損失が第2のベストシナリオにおける一貫性を維持する唯一のサロゲート損失であることを示す。
論文 参考訳(メタデータ) (2021-06-24T10:43:00Z) - Learning Gaussian Mixtures with Generalised Linear Models: Precise
Asymptotics in High-dimensions [79.35722941720734]
多クラス分類問題に対する一般化線形モデルは、現代の機械学習タスクの基本的な構成要素の1つである。
実験的リスク最小化による高次元推定器の精度を実証する。
合成データの範囲を超えて我々の理論をどのように適用できるかを論じる。
論文 参考訳(メタデータ) (2021-06-07T16:53:56Z) - Deep Learning in current Neuroimaging: a multivariate approach with
power and type I error control but arguable generalization ability [0.158310730488265]
ディープラーニングアーキテクチャを用いた分類の統計的意義を推定する非パラメトリックフレームワークを提案する。
ラベル置換試験は, クロスバリデーション (CV) と上界補正 (RUB) を併用した再置換を検証法として提案した。
我々は, CV法とRUB法が有意レベルに近い偽陽性率と許容可能な統計的力を提供することを置換試験で発見した。
論文 参考訳(メタデータ) (2021-03-30T21:15:39Z) - Theoretical Insights Into Multiclass Classification: A High-dimensional
Asymptotic View [82.80085730891126]
線形多クラス分類の最初の現代的精度解析を行う。
分析の結果,分類精度は分布に依存していることがわかった。
得られた洞察は、他の分類アルゴリズムの正確な理解の道を開くかもしれない。
論文 参考訳(メタデータ) (2020-11-16T05:17:29Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z) - Learning from Aggregate Observations [82.44304647051243]
本研究では,一組のインスタンスに監視信号が与えられる集合観察から学習する問題について検討する。
本稿では,多種多様な集合観測に適合する一般的な確率的枠組みを提案する。
単純な極大解は様々な微分可能なモデルに適用できる。
論文 参考訳(メタデータ) (2020-04-14T06:18:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。