論文の概要: Minimal Assumptions for Optimal Serology Classification: Theory and
Implications for Multidimensional Settings and Impure Training Data
- arxiv url: http://arxiv.org/abs/2309.00645v1
- Date: Wed, 30 Aug 2023 13:26:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-10 03:47:03.733072
- Title: Minimal Assumptions for Optimal Serology Classification: Theory and
Implications for Multidimensional Settings and Impure Training Data
- Title(参考訳): 最適血清学分類のための最小仮定--多次元設定と不純なトレーニングデータの理論と意義
- Authors: Paul N. Patrone, Raquel A. Binder, Catherine S. Forconi, Ann M.
Moormann, Anthony J. Kearsley
- Abstract要約: 有病率推定および診断分類における誤差の最小化は、血清学における課題である。
本研究では,経験的学習データを用いてサンプルを分類し,条件付きPDFに直接アクセスすることなく任意の次元の有病率を推定する手法を提案する。
合成データとSARS-CoV-2酵素関連免疫吸着剤(ELISA)を併用し,本法の有効性を検証した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Minimizing error in prevalence estimates and diagnostic classifiers remains a
challenging task in serology. In theory, these problems can be reduced to
modeling class-conditional probability densities (PDFs) of measurement
outcomes, which control all downstream analyses. However, this task quickly
succumbs to the curse of dimensionality, even for assay outputs with only a few
dimensions (e.g. target antigens). To address this problem, we propose a
technique that uses empirical training data to classify samples and estimate
prevalence in arbitrary dimension without direct access to the conditional
PDFs. We motivate this method via a lemma that relates relative conditional
probabilities to minimum-error classification boundaries. This leads us to
formulate an optimization problem that: (i) embeds the data in a parameterized,
curved space; (ii) classifies samples based on their position relative to a
coordinate axis; and (iii) subsequently optimizes the space by minimizing the
empirical classification error of pure training data, for which the classes are
known. Interestingly, the solution to this problem requires use of a
homotopy-type method to stabilize the optimization. We then extend the analysis
to the case of impure training data, for which the classes are unknown. We find
that two impure datasets suffice for both prevalence estimation and
classification, provided they satisfy a linear independence property. Lastly,
we discuss how our analysis unifies discriminative and generative learning
techniques in a common framework based on ideas from set and measure theory.
Throughout, we validate our methods in the context of synthetic data and a
research-use SARS-CoV-2 enzyme-linked immunosorbent (ELISA) assay.
- Abstract(参考訳): 有病率推定および診断分類における誤差の最小化は、血清学における課題である。
理論的には、これらの問題は全ての下流解析を制御する測定結果のクラス条件確率密度(pdf)のモデル化に還元できる。
しかし、このタスクは数次元(例えば標的抗原)のアッセイ出力であっても、すぐに次元性の呪いに陥る。
この問題に対処するために,実験的なトレーニングデータを用いて,条件付きPDFに直接アクセスすることなく,サンプルを分類し,任意の次元の頻度を推定する手法を提案する。
この手法は, 条件付き確率を最小誤差分類境界に関連付ける補題を用いて動機づける。
これにより、最適化の問題が定式化されます。
i) データをパラメータ化して湾曲した空間に埋め込む。
(ii)座標軸に対する位置に基づいて試料を分類する。
(iii)その後、クラスが知られている純粋なトレーニングデータの経験的分類誤差を最小化し、空間を最適化する。
興味深いことに、この問題に対する解は最適化を安定化するためにホモトピー型法を使う必要がある。
そして、分析を不純なトレーニングデータの場合まで拡張し、そこではクラスが未知となる。
2つの不純なデータセットは、線形独立性を満たすならば、有病率推定と分類の両方に十分である。
最後に,我々の分析が,集合と測度理論のアイデアに基づく共通フレームワークにおいて,差別的・生成的学習技術を統一する方法について論じる。
本研究は, 合成データとSARS-CoV-2酵素結合免疫測定法(ELISA)を用いて行った。
関連論文リスト
- Analysis of Diagnostics (Part II): Prevalence, Linear Independence, and Unsupervised Learning [0.0]
私は教師あり機械学習(ML)の文脈を考える
パートIIでは、これらの結果を教師なし学習のタスクに拡張できる範囲について検討している。
論文 参考訳(メタデータ) (2024-08-28T13:39:57Z) - Parametric Classification for Generalized Category Discovery: A Baseline
Study [70.73212959385387]
Generalized Category Discovery (GCD)は、ラベル付きサンプルから学習した知識を用いて、ラベルなしデータセットで新しいカテゴリを発見することを目的としている。
パラメトリック分類器の故障を調査し,高品質な監視が可能であった場合の過去の設計選択の有効性を検証し,信頼性の低い疑似ラベルを重要課題として同定する。
エントロピー正規化の利点を生かし、複数のGCDベンチマークにおける最先端性能を実現し、未知のクラス数に対して強いロバスト性を示す、単純で効果的なパラメトリック分類法を提案する。
論文 参考訳(メタデータ) (2022-11-21T18:47:11Z) - Multi-Label Quantification [78.83284164605473]
定量化とは、教師なしデータサンプルにおいて、興味あるクラスの相対周波数の予測子を生成する教師付き学習課題である。
本研究では,その相対頻度をより正確に予測するために,興味あるクラス間の依存関係を活用しようとするクラス有病率値の推定手法を提案する。
論文 参考訳(メタデータ) (2022-11-15T11:29:59Z) - Statistical Theory for Imbalanced Binary Classification [8.93993657323783]
最適分類性能は、これまで形式化されていなかったクラス不均衡の特定の性質に依存することを示す。
具体的には、一様クラス不均衡と呼ばれる新しいクラス不均衡のサブタイプを提案する。
これらの結果は、不均衡二項分類に対する最初の有意義な有限サンプル統計理論のいくつかを提供する。
論文 参考訳(メタデータ) (2021-07-05T03:55:43Z) - Constrained Classification and Policy Learning [0.0]
制約付き分類器の集合における代理損失手順の整合性について検討する。
ヒンジ損失が第2のベストシナリオにおける一貫性を維持する唯一のサロゲート損失であることを示す。
論文 参考訳(メタデータ) (2021-06-24T10:43:00Z) - Learning Gaussian Mixtures with Generalised Linear Models: Precise
Asymptotics in High-dimensions [79.35722941720734]
多クラス分類問題に対する一般化線形モデルは、現代の機械学習タスクの基本的な構成要素の1つである。
実験的リスク最小化による高次元推定器の精度を実証する。
合成データの範囲を超えて我々の理論をどのように適用できるかを論じる。
論文 参考訳(メタデータ) (2021-06-07T16:53:56Z) - Deep Learning in current Neuroimaging: a multivariate approach with
power and type I error control but arguable generalization ability [0.158310730488265]
ディープラーニングアーキテクチャを用いた分類の統計的意義を推定する非パラメトリックフレームワークを提案する。
ラベル置換試験は, クロスバリデーション (CV) と上界補正 (RUB) を併用した再置換を検証法として提案した。
我々は, CV法とRUB法が有意レベルに近い偽陽性率と許容可能な統計的力を提供することを置換試験で発見した。
論文 参考訳(メタデータ) (2021-03-30T21:15:39Z) - Theoretical Insights Into Multiclass Classification: A High-dimensional
Asymptotic View [82.80085730891126]
線形多クラス分類の最初の現代的精度解析を行う。
分析の結果,分類精度は分布に依存していることがわかった。
得られた洞察は、他の分類アルゴリズムの正確な理解の道を開くかもしれない。
論文 参考訳(メタデータ) (2020-11-16T05:17:29Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z) - Learning from Aggregate Observations [82.44304647051243]
本研究では,一組のインスタンスに監視信号が与えられる集合観察から学習する問題について検討する。
本稿では,多種多様な集合観測に適合する一般的な確率的枠組みを提案する。
単純な極大解は様々な微分可能なモデルに適用できる。
論文 参考訳(メタデータ) (2020-04-14T06:18:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。