論文の概要: Analysis of Diagnostics (Part I): Prevalence, Uncertainty Quantification, and Machine Learning
- arxiv url: http://arxiv.org/abs/2309.00645v2
- Date: Wed, 28 Aug 2024 13:32:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-29 21:31:09.006856
- Title: Analysis of Diagnostics (Part I): Prevalence, Uncertainty Quantification, and Machine Learning
- Title(参考訳): 診断分析(第1報) 有病率, 不確実性定量化, 機械学習
- Authors: Paul N. Patrone, Raquel A. Binder, Catherine S. Forconi, Ann M. Moormann, Anthony J. Kearsley,
- Abstract要約: この写本は、分類理論と有病率のより深い関係を研究する二部作の最初のものである。
そこで本稿では,有病率重み付き経験誤差を最小化することにより,Bstar (q)$を推定する数値ホモトピーアルゴリズムを提案する。
合成データとSARS-CoV-2酵素結合免疫測定法(ELISA)を用いて本法の有効性を検証した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diagnostic testing provides a unique setting for studying and developing tools in classification theory. In such contexts, the concept of prevalence, i.e. the number of individuals with a given condition, is fundamental, both as an inherent quantity of interest and as a parameter that controls classification accuracy. This manuscript is the first in a two-part series that studies deeper connections between classification theory and prevalence, showing how the latter establishes a more complete theory of uncertainty quantification (UQ) for certain types of machine learning (ML). We motivate this analysis via a lemma demonstrating that general classifiers minimizing a prevalence-weighted error contain the same probabilistic information as Bayes-optimal classifiers, which depend on conditional probability densities. This leads us to study relative probability level-sets $B^\star (q)$, which are reinterpreted as both classification boundaries and useful tools for quantifying uncertainty in class labels. To realize this in practice, we also propose a numerical, homotopy algorithm that estimates the $B^\star (q)$ by minimizing a prevalence-weighted empirical error. The successes and shortcomings of this method motivate us to revisit properties of the level sets, and we deduce the corresponding classifiers obey a useful monotonicity property that stabilizes the numerics and points to important extensions to UQ of ML. Throughout, we validate our methods in the context of synthetic data and a research-use-only SARS-CoV-2 enzyme-linked immunosorbent (ELISA) assay.
- Abstract(参考訳): 診断検査は、分類理論のツールの研究と開発にユニークな設定を提供する。
このような文脈において、有病率の概念、すなわち与えられた条件を持つ個人の数という概念は、本質的な興味の量として、また分類精度を制御するパラメータとして、基本的なものである。
この写本は、分類理論と有病率のより深い関係を研究し、後者がある種の機械学習(ML)に対してより完全な不確実性定量化理論(UQ)を確立していることを示す2部シリーズの最初のものである。
この分析を補題を用いて動機づけた結果,有病率重み付き誤りを最小化する一般分類器は,条件付き確率密度に依存するベイズ最適分類器と同じ確率情報を含むことを示した。
これにより、相対確率レベルセット $B^\star (q)$ は分類境界とクラスラベルの不確かさを定量化するための有用なツールの両方として再解釈される。
実際にこれを実現するために、有価値重み付き経験誤差を最小化することにより、B^\star (q)$を推定する数値ホモトピーアルゴリズムを提案する。
この方法の成功と欠点は、レベル集合の性質を再検討する動機となり、対応する分類器は、数値を安定化し、MLのUQへの重要な拡張を指し示す有用な単調性の性質に従う。
本研究は, 合成データとSARS-CoV-2酵素結合免疫測定法(ELISA)を用いて, 本法の有効性を検証した。
関連論文リスト
- Weighted Missing Linear Discriminant Analysis: An Explainable Approach for Classification with Missing Data [1.4840867281815378]
本稿では,LDA(Linear Discriminant Analysis)に対する新しい手法を提案する。
我々は、欠落したデータに基づいてパラメータを直接推定し、欠落した値に重み行列を用いて分類中に欠落したエントリをペナルティ化する。
実験結果から,WLDAは従来の手法よりも有意差で優れていた。
論文 参考訳(メタデータ) (2024-06-30T14:21:32Z) - Synergistic eigenanalysis of covariance and Hessian matrices for
enhanced binary classification [75.90957645766676]
本稿では, 学習モデルを用いて評価したヘッセン行列をトレーニングセットで評価した共分散行列の固有解析と, 深層学習モデルで評価したヘッセン行列を組み合わせた新しい手法を提案する。
我々のアプローチは、クラス間の平均距離を最大化し、クラス内の分散を最小化する能力を確立する形式的な証明によって裏付けられている。
論文 参考訳(メタデータ) (2024-02-14T16:10:42Z) - A cost-sensitive constrained Lasso [2.8265531928694116]
本稿では,Lassoをベースとした目的関数に2次的性能制約を加えるLassoの新たなバージョンを提案する。
その結果、非線形最適化問題により制約付きスパース回帰モデルが定義される。
このコストに敏感なラッソは、異なるソースからデータが収集される異質なサンプルに直接的な応用がある。
論文 参考訳(メタデータ) (2024-01-31T17:36:21Z) - Stabilizing Subject Transfer in EEG Classification with Divergence
Estimation [17.924276728038304]
脳波分類タスクを記述するためのグラフィカルモデルをいくつか提案する。
理想的な訓練シナリオにおいて真であるべき統計的関係を同定する。
我々は、これらの関係を2段階で強制する正規化罰則を設計する。
論文 参考訳(メタデータ) (2023-10-12T23:06:52Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - Near-optimal inference in adaptive linear regression [60.08422051718195]
最小二乗法のような単純な方法でさえ、データが適応的に収集されるときの非正規な振る舞いを示すことができる。
我々は,これらの分布異常を少なくとも2乗推定で補正するオンラインデバイアス推定器のファミリーを提案する。
我々は,マルチアームバンディット,自己回帰時系列推定,探索による能動的学習などの応用を通して,我々の理論の有用性を実証する。
論文 参考訳(メタデータ) (2021-07-05T21:05:11Z) - Binary Classification of Gaussian Mixtures: Abundance of Support
Vectors, Benign Overfitting and Regularization [39.35822033674126]
生成ガウス混合モデルに基づく二項線形分類について検討する。
後者の分類誤差に関する新しい非漸近境界を導出する。
この結果は, 確率が一定である雑音モデルに拡張される。
論文 参考訳(メタデータ) (2020-11-18T07:59:55Z) - Theoretical Insights Into Multiclass Classification: A High-dimensional
Asymptotic View [82.80085730891126]
線形多クラス分類の最初の現代的精度解析を行う。
分析の結果,分類精度は分布に依存していることがわかった。
得られた洞察は、他の分類アルゴリズムの正確な理解の道を開くかもしれない。
論文 参考訳(メタデータ) (2020-11-16T05:17:29Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z) - Asymptotic Analysis of an Ensemble of Randomly Projected Linear
Discriminants [94.46276668068327]
[1]では、ランダムに投影された線形判別式のアンサンブルを用いてデータセットを分類する。
我々は,計算コストのかかるクロスバリデーション推定器の代替として,誤分類確率の一貫した推定器を開発する。
また、実データと合成データの両方で投影次元を調整するための推定器の使用を実証する。
論文 参考訳(メタデータ) (2020-04-17T12:47:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。