論文の概要: Estimation of Classification Rules from Partially Classified Data
- arxiv url: http://arxiv.org/abs/2004.06237v1
- Date: Mon, 13 Apr 2020 23:35:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 23:25:08.365743
- Title: Estimation of Classification Rules from Partially Classified Data
- Title(参考訳): 部分分類データからの分類規則の推定
- Authors: Geoffrey J. McLachlan, Daniel Ahfock
- Abstract要約: 本研究は, 試料に起源のクラスが知られている観察結果と, 試料中の残りの観察結果が未分類である状況について考察する。
未知パラメータのベクトルまで既知のクラス条件分布の場合、次の未分類観測の割り当てに対するベイズの割り当て規則を推定することが目的である。
- 参考スコア(独自算出の注目度): 0.9137554315375919
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the situation where the observed sample contains some
observations whose class of origin is known (that is, they are classified with
respect to the g underlying classes of interest), and where the remaining
observations in the sample are unclassified (that is, their class labels are
unknown). For class-conditional distributions taken to be known up to a vector
of unknown parameters, the aim is to estimate the Bayes' rule of allocation for
the allocation of subsequent unclassified observations. Estimation on the basis
of both the classified and unclassified data can be undertaken in a
straightforward manner by fitting a g-component mixture model by maximum
likelihood (ML) via the EM algorithm in the situation where the observed data
can be assumed to be an observed random sample from the adopted mixture
distribution. This assumption applies if the missing-data mechanism is
ignorable in the terminology pioneered by Rubin (1976). An initial likelihood
approach was to use the so-called classification ML approach whereby the
missing labels are taken to be parameters to be estimated along with the
parameters of the class-conditional distributions. However, as it can lead to
inconsistent estimates, the focus of attention switched to the mixture ML
approach after the appearance of the EM algorithm (Dempster et al., 1977).
Particular attention is given here to the asymptotic relative efficiency (ARE)
of the Bayes' rule estimated from a partially classified sample. Lastly, we
consider briefly some recent results in situations where the missing label
pattern is non-ignorable for the purposes of ML estimation for the mixture
model.
- Abstract(参考訳): 我々は、観測されたサンプルが、起源のクラスが知られているいくつかの観察(すなわち、対象のgクラスに関して分類されている)と、サンプルの残りの観測が分類されていない(すなわち、それらのクラスラベルが未知である)状況を考える。
未知パラメータのベクトルまで既知のクラス条件分布の場合、次の未分類観測の割り当てに対するベイズの割り当て規則を推定することを目的としている。
得られた混合分布から観測データを観測ランダムサンプルとみなすことができる状況において、EMアルゴリズムを介してg成分混合モデルを最大極大(ML)にすることで、分類データと未分類データの両方に基づいて直接的に推定することができる。
この仮定は、Rubin (1976) の先駆的な用語において、欠データ機構が無視可能である場合に適用される。
最初の可能性のアプローチは、いわゆる分類mlアプローチを使用して、欠落ラベルをクラス条件分布のパラメータと合わせて推定するパラメータとする、というものだ。
しかし、不整合推定に繋がる可能性があるため、注意の焦点はEMアルゴリズムの出現後に混合MLアプローチに移行した(Dempster et al., 1977)。
ここでは、部分的に分類されたサンプルから推定されるベイズの規則の漸近相対効率(ARE)に特に注意が払われる。
最後に,混合モデルにおけるml推定のためにラベルパターンの欠落が無視できない状況において,最近の結果を簡潔に検討する。
関連論文リスト
- A Tale of Sampling and Estimation in Discounted Reinforcement Learning [50.43256303670011]
割引平均推定問題に対して最小値の最小値を求める。
マルコフ過程の割引されたカーネルから直接サンプリングすることで平均を推定すると、説得力のある統計的性質が得られることを示す。
論文 参考訳(メタデータ) (2023-04-11T09:13:17Z) - Parametric Classification for Generalized Category Discovery: A Baseline
Study [70.73212959385387]
Generalized Category Discovery (GCD)は、ラベル付きサンプルから学習した知識を用いて、ラベルなしデータセットで新しいカテゴリを発見することを目的としている。
パラメトリック分類器の故障を調査し,高品質な監視が可能であった場合の過去の設計選択の有効性を検証し,信頼性の低い疑似ラベルを重要課題として同定する。
エントロピー正規化の利点を生かし、複数のGCDベンチマークにおける最先端性能を実現し、未知のクラス数に対して強いロバスト性を示す、単純で効果的なパラメトリック分類法を提案する。
論文 参考訳(メタデータ) (2022-11-21T18:47:11Z) - On the Semi-supervised Expectation Maximization [5.481082183778667]
ラベル付きおよびラベルなしサンプルからモデルを学習するための半教師付きケースに焦点を当てる。
本分析は, 指数族混合モデルにおいて, ラベル付き試料が収束率をいかに向上させるかを明らかにした。
論文 参考訳(メタデータ) (2022-11-01T15:42:57Z) - Estimating the Contamination Factor's Distribution in Unsupervised
Anomaly Detection [7.174572371800215]
異常検出手法は、期待された振る舞いに従わない例を特定する。
異常として示される例の比率は、汚染因子と呼ばれる異常の予想割合と等しい。
ラベルのないデータセットの汚染係数の後方分布を推定する手法を提案する。
論文 参考訳(メタデータ) (2022-10-19T11:51:25Z) - Scalable Marginal Likelihood Estimation for Model Selection in Deep
Learning [78.83598532168256]
階層型モデル選択は、推定困難のため、ディープラーニングではほとんど使われない。
本研究は,検証データが利用できない場合,限界的可能性によって一般化が向上し,有用であることを示す。
論文 参考訳(メタデータ) (2021-04-11T09:50:24Z) - Prediction in the presence of response-dependent missing labels [28.932172873182115]
センサー技術の限界は ワイルドファイアデータに ラベルの欠落をもたらします
新しい手法と非ラベルアルゴリズムP(ositive) U(ccurrence) M(agnitude) M(ixture)を開発し、陽性サンプルの発生と検出の可能性を共同で推定します。
論文 参考訳(メタデータ) (2021-03-25T01:43:33Z) - Distribution-free uncertainty quantification for classification under
label shift [105.27463615756733]
2つの経路による分類問題に対する不確実性定量化(UQ)に焦点を当てる。
まず、ラベルシフトはカバレッジとキャリブレーションの低下を示すことでuqを損なうと論じる。
これらの手法を, 理論上, 分散性のない枠組みで検討し, その優れた実用性を示す。
論文 参考訳(メタデータ) (2021-03-04T20:51:03Z) - Cautious Active Clustering [79.23797234241471]
ユークリッド空間上の未知の確率測度からサンプリングされた点の分類の問題を考える。
我々のアプローチは、未知の確率測度を、各クラスに対する条件付き確率の凸結合として考えることである。
論文 参考訳(メタデータ) (2020-08-03T23:47:31Z) - Learning from Aggregate Observations [82.44304647051243]
本研究では,一組のインスタンスに監視信号が与えられる集合観察から学習する問題について検討する。
本稿では,多種多様な集合観測に適合する一般的な確率的枠組みを提案する。
単純な極大解は様々な微分可能なモデルに適用できる。
論文 参考訳(メタデータ) (2020-04-14T06:18:50Z) - A Unified View of Label Shift Estimation [45.472049320861856]
ラベルの限界を推定する2つの主要なアプローチがある。
本稿では,2つの手法の統一的な視点とMLLSの理論的特徴について述べる。
我々の分析は、BBSEの統計的非効率性は、粗い校正による情報の喪失に起因している。
論文 参考訳(メタデータ) (2020-03-17T06:28:50Z) - Bayesian Semi-supervised Multi-category Classification under Nonparanormality [2.307581190124002]
セミ教師付き学習はラベル付きデータとラベルなしデータの両方を使用するモデルトレーニング手法である。
本稿では,任意のカテゴリ分類問題に適用可能なベイズ半教師付き学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-01-11T21:31:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。