論文の概要: SSLfmm: An R Package for Semi-Supervised Learning with a Mixed-Missingness Mechanism in Finite Mixture Models
- arxiv url: http://arxiv.org/abs/2512.03322v1
- Date: Wed, 03 Dec 2025 00:14:33 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 12:04:52.583472
- Title: SSLfmm: An R Package for Semi-Supervised Learning with a Mixed-Missingness Mechanism in Finite Mixture Models
- Title(参考訳): SSLfmm:有限混合モデルにおける混合ミス機構を持つ半教師付き学習用Rパッケージ
- Authors: Geoffrey J. McLachlan, Jinran Wu,
- Abstract要約: 半教師付き学習(SSL)は、観測のサブセットのみをラベル付けしたデータセットから分類器を構築する。
観察が損なわれない可能性は、その特徴ベクトルのあいまいさに依存する可能性があるため、不足過程は有益なものとなる。
このパッケージにはモデリングの実用的なツールが含まれており、シミュレートされた例を通してそのパフォーマンスを説明している。
- 参考スコア(独自算出の注目度): 2.0253523660913664
- License:
- Abstract: Semi-supervised learning (SSL) constructs classifiers from datasets in which only a subset of observations is labelled, a situation that naturally arises because obtaining labels often requires expert judgement or costly manual effort. This motivates methods that integrate labelled and unlabelled data within a learning framework. Most SSL approaches assume that label absence is harmless, typically treated as missing completely at random or ignored, but in practice, the missingness process can be informative, as the chances of an observation being unlabelled may depend on the ambiguity of its feature vector. In such cases, the missingness indicators themselves provide additional information that, if properly modelled, may improve estimation efficiency. The \textbf{SSLfmm} package for R is designed to capture this behaviour by estimating the Bayes' classifier under a finite mixture model in which each component corresponding to a class follows a multivariate normal distribution. It incorporates a mixed-missingness mechanism that combines a missing completely at random (MCR) component with a (non-ignorable) missing at random (MAR) component, the latter modelling the probability of label missingness as a logistic function of the entropy based on the features. Parameters are estimated via an Expectation--Conditional Maximisation algorithm. In the two-class Gaussian setting with arbitrary covariance matrices, the resulting classifier trained on partially labelled data may, in some cases, achieve a lower misclassification rate than the supervised version in the case where all the labels are known. The package includes a practical tool for modelling and illustrates its performance through simulated examples.
- Abstract(参考訳): 半教師付き学習(SSL)は、観測のサブセットのみをラベル付けしたデータセットから分類器を構築する。
これは学習フレームワーク内でラベル付きデータと非ラベル付きデータを統合するメソッドを動機付けます。
ほとんどのSSLアプローチは、ラベルの欠如は無害であると考えており、通常はランダムまたは無視で完全に欠落しているとして扱われる。
このような場合、不足指標自体が追加情報を提供し、適切にモデル化すれば、推定効率が向上する可能性がある。
R の \textbf{SSLfmm} パッケージは、クラスに対応する各成分が多変量正規分布に従う有限混合モデルの下でベイズの分類器を推定することにより、この振る舞いを捉えるように設計されている。
この機構は、完全無作為(MCR)成分と無作為(MAR)成分の(無視できない)欠失(MAR)成分を組み合わせ、後者は特徴に基づくエントロピーのロジスティック関数としてラベル欠失の確率をモデル化する。
パラメータは期待-決定-最大化アルゴリズムによって推定される。
任意の共分散行列を持つ2級ガウス集合では、部分的にラベル付けされたデータに基づいて訓練された結果として得られる分類器は、全てのラベルが知られている場合において、教師付きバージョンよりも低い誤分類率が得られる。
このパッケージにはモデリングの実用的なツールが含まれており、シミュレートされた例を通してそのパフォーマンスを説明している。
関連論文リスト
- Amortized Variational Inference for Partial-Label Learning: A Probabilistic Approach to Label Disambiguation [2.7214777196418645]
部分ラベル学習列車は、各インスタンスが候補ラベルのセットに関連付けられているときに分類する。
本稿では,アモータライズされた変分推論を用いて,真のラベル上の後部分布を直接近似する新しいフレームワークを提案する。
提案手法はニューラルネットワークを用いて入力データから変動パラメータを予測し,効率的な推論を可能にする。
論文 参考訳(メタデータ) (2025-10-24T09:54:23Z) - Model Evaluation in the Dark: Robust Classifier Metrics with Missing Labels [2.384873896423002]
本稿では,精度,リコール,ROC-AUCなどの指標を用いて分類器の評価を行うための多重計算手法を提案する。
予測分布の位置と形状が一般的に正しいことを実証的に示す。
論文 参考訳(メタデータ) (2025-04-25T14:31:42Z) - SimPro: A Simple Probabilistic Framework Towards Realistic Long-Tailed Semi-Supervised Learning [49.94607673097326]
ラベルなしデータの分散に関する前提を前提としない、高度に適応可能なフレームワークをSimProとして提案する。
我々のフレームワークは確率モデルに基づいており、期待最大化アルゴリズムを革新的に洗練する。
本手法は,様々なベンチマークやデータ分散シナリオにまたがる一貫した最先端性能を示す。
論文 参考訳(メタデータ) (2024-02-21T03:39:04Z) - CLIMAX: An exploration of Classifier-Based Contrastive Explanations [5.381004207943597]
我々は,ブラックボックスの分類を正当化する対照的な説明を提供する,ポストホックモデルXAI手法を提案する。
CLIMAXと呼ばれる手法は,局所的な分類法に基づく。
LIME, BayLIME, SLIMEなどのベースラインと比較して, 一貫性が向上することを示す。
論文 参考訳(メタデータ) (2023-07-02T22:52:58Z) - Analysis of Estimating the Bayes Rule for Gaussian Mixture Models with a
Specified Missing-Data Mechanism [0.0]
半教師付き学習(SSL)アプローチは、幅広い工学と科学の分野でうまく適用されている。
本稿では、未分類観測のための欠落機構を持つ生成モデルフレームワークについて検討する。
論文 参考訳(メタデータ) (2022-10-25T06:10:45Z) - Leveraging Instance Features for Label Aggregation in Programmatic Weak
Supervision [75.1860418333995]
Programmatic Weak Supervision (PWS) は、トレーニングラベルを効率的に合成するための広く普及したパラダイムとして登場した。
PWSのコアコンポーネントはラベルモデルであり、複数のノイズ管理ソースの出力をラベル関数として集約することで、真のラベルを推論する。
既存の統計ラベルモデルは一般的にLFの出力のみに依存し、基礎となる生成過程をモデル化する際のインスタンスの特徴を無視している。
論文 参考訳(メタデータ) (2022-10-06T07:28:53Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。