論文の概要: Minimal Assumptions for Optimal Serology Classification: Theory and
Implications for Multidimensional Settings and Impure Training Data
- arxiv url: http://arxiv.org/abs/2309.00645v1
- Date: Wed, 30 Aug 2023 13:26:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-10 03:47:03.733072
- Title: Minimal Assumptions for Optimal Serology Classification: Theory and
Implications for Multidimensional Settings and Impure Training Data
- Title(参考訳): 最適血清学分類のための最小仮定--多次元設定と不純なトレーニングデータの理論と意義
- Authors: Paul N. Patrone, Raquel A. Binder, Catherine S. Forconi, Ann M.
Moormann, Anthony J. Kearsley
- Abstract要約: 有病率推定および診断分類における誤差の最小化は、血清学における課題である。
本研究では,経験的学習データを用いてサンプルを分類し,条件付きPDFに直接アクセスすることなく任意の次元の有病率を推定する手法を提案する。
合成データとSARS-CoV-2酵素関連免疫吸着剤(ELISA)を併用し,本法の有効性を検証した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Minimizing error in prevalence estimates and diagnostic classifiers remains a
challenging task in serology. In theory, these problems can be reduced to
modeling class-conditional probability densities (PDFs) of measurement
outcomes, which control all downstream analyses. However, this task quickly
succumbs to the curse of dimensionality, even for assay outputs with only a few
dimensions (e.g. target antigens). To address this problem, we propose a
technique that uses empirical training data to classify samples and estimate
prevalence in arbitrary dimension without direct access to the conditional
PDFs. We motivate this method via a lemma that relates relative conditional
probabilities to minimum-error classification boundaries. This leads us to
formulate an optimization problem that: (i) embeds the data in a parameterized,
curved space; (ii) classifies samples based on their position relative to a
coordinate axis; and (iii) subsequently optimizes the space by minimizing the
empirical classification error of pure training data, for which the classes are
known. Interestingly, the solution to this problem requires use of a
homotopy-type method to stabilize the optimization. We then extend the analysis
to the case of impure training data, for which the classes are unknown. We find
that two impure datasets suffice for both prevalence estimation and
classification, provided they satisfy a linear independence property. Lastly,
we discuss how our analysis unifies discriminative and generative learning
techniques in a common framework based on ideas from set and measure theory.
Throughout, we validate our methods in the context of synthetic data and a
research-use SARS-CoV-2 enzyme-linked immunosorbent (ELISA) assay.
- Abstract(参考訳): 有病率推定および診断分類における誤差の最小化は、血清学における課題である。
理論的には、これらの問題は全ての下流解析を制御する測定結果のクラス条件確率密度(pdf)のモデル化に還元できる。
しかし、このタスクは数次元(例えば標的抗原)のアッセイ出力であっても、すぐに次元性の呪いに陥る。
この問題に対処するために,実験的なトレーニングデータを用いて,条件付きPDFに直接アクセスすることなく,サンプルを分類し,任意の次元の頻度を推定する手法を提案する。
この手法は, 条件付き確率を最小誤差分類境界に関連付ける補題を用いて動機づける。
これにより、最適化の問題が定式化されます。
i) データをパラメータ化して湾曲した空間に埋め込む。
(ii)座標軸に対する位置に基づいて試料を分類する。
(iii)その後、クラスが知られている純粋なトレーニングデータの経験的分類誤差を最小化し、空間を最適化する。
興味深いことに、この問題に対する解は最適化を安定化するためにホモトピー型法を使う必要がある。
そして、分析を不純なトレーニングデータの場合まで拡張し、そこではクラスが未知となる。
2つの不純なデータセットは、線形独立性を満たすならば、有病率推定と分類の両方に十分である。
最後に,我々の分析が,集合と測度理論のアイデアに基づく共通フレームワークにおいて,差別的・生成的学習技術を統一する方法について論じる。
本研究は, 合成データとSARS-CoV-2酵素結合免疫測定法(ELISA)を用いて行った。
関連論文リスト
- Synergistic eigenanalysis of covariance and Hessian matrices for
enhanced binary classification [75.90957645766676]
本稿では, 学習モデルを用いて評価したヘッセン行列をトレーニングセットで評価した共分散行列の固有解析と, 深層学習モデルで評価したヘッセン行列を組み合わせた新しい手法を提案する。
我々のアプローチは、クラス間の平均距離を最大化し、クラス内の分散を最小化する能力を確立する形式的な証明によって裏付けられている。
論文 参考訳(メタデータ) (2024-02-14T16:10:42Z) - A cost-sensitive constrained Lasso [2.8265531928694116]
本稿では,Lassoをベースとした目的関数に2次的性能制約を加えるLassoの新たなバージョンを提案する。
その結果、非線形最適化問題により制約付きスパース回帰モデルが定義される。
このコストに敏感なラッソは、異なるソースからデータが収集される異質なサンプルに直接的な応用がある。
論文 参考訳(メタデータ) (2024-01-31T17:36:21Z) - Stabilizing Subject Transfer in EEG Classification with Divergence
Estimation [17.924276728038304]
脳波分類タスクを記述するためのグラフィカルモデルをいくつか提案する。
理想的な訓練シナリオにおいて真であるべき統計的関係を同定する。
我々は、これらの関係を2段階で強制する正規化罰則を設計する。
論文 参考訳(メタデータ) (2023-10-12T23:06:52Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - Near-optimal inference in adaptive linear regression [60.08422051718195]
最小二乗法のような単純な方法でさえ、データが適応的に収集されるときの非正規な振る舞いを示すことができる。
我々は,これらの分布異常を少なくとも2乗推定で補正するオンラインデバイアス推定器のファミリーを提案する。
我々は,マルチアームバンディット,自己回帰時系列推定,探索による能動的学習などの応用を通して,我々の理論の有用性を実証する。
論文 参考訳(メタデータ) (2021-07-05T21:05:11Z) - An interpretable prediction model for longitudinal dispersion
coefficient in natural streams based on evolutionary symbolic regression
network [30.99493442296212]
縦分散係数(LDC)の予測には様々な方法が提案されている。
本稿では,まずこれらの手法の詳細な解析を行い,その欠陥を明らかにする。
次に、進化的記号回帰ネットワーク(ESRN)と呼ばれる新しい記号回帰法を設計する。
論文 参考訳(メタデータ) (2021-06-17T07:06:05Z) - Binary Classification of Gaussian Mixtures: Abundance of Support
Vectors, Benign Overfitting and Regularization [39.35822033674126]
生成ガウス混合モデルに基づく二項線形分類について検討する。
後者の分類誤差に関する新しい非漸近境界を導出する。
この結果は, 確率が一定である雑音モデルに拡張される。
論文 参考訳(メタデータ) (2020-11-18T07:59:55Z) - Theoretical Insights Into Multiclass Classification: A High-dimensional
Asymptotic View [82.80085730891126]
線形多クラス分類の最初の現代的精度解析を行う。
分析の結果,分類精度は分布に依存していることがわかった。
得られた洞察は、他の分類アルゴリズムの正確な理解の道を開くかもしれない。
論文 参考訳(メタデータ) (2020-11-16T05:17:29Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z) - Asymptotic Analysis of an Ensemble of Randomly Projected Linear
Discriminants [94.46276668068327]
[1]では、ランダムに投影された線形判別式のアンサンブルを用いてデータセットを分類する。
我々は,計算コストのかかるクロスバリデーション推定器の代替として,誤分類確率の一貫した推定器を開発する。
また、実データと合成データの両方で投影次元を調整するための推定器の使用を実証する。
論文 参考訳(メタデータ) (2020-04-17T12:47:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。